php做网站视频播放下载功能,设计开发流程图,网站制作的文章,支部网站及活动室建设简介#xff1a;数字化平台已经与我们生活紧密结合#xff0c;其用户规模庞大#xff0c;一旦系统出现故障#xff0c;势必会造成一定生活的不便。比如疫情时代#xff0c;健康码已经成为人们出门必备的条件#xff0c;一旦提供健康码服务平台出现故障#xff0c;出行将…简介数字化平台已经与我们生活紧密结合其用户规模庞大一旦系统出现故障势必会造成一定生活的不便。比如疫情时代健康码已经成为人们出门必备的条件一旦提供健康码服务平台出现故障出行将变得寸步难行。因此系统安全问题成为威胁企业正常运行的重大风险其安全稳定将变的越来越重要。 数字化时代如果说哪些信息是最受关注的能不能上“热搜”一定是评价的方法之一。在每天进入“热搜”的新闻中有一类事件不仅上热搜的频率高并且热搜的名称格式也高度统一那就是“某某崩了”或者“某某打不开了”。这里“某某”指那些与我们生活息息相关的数字化平台可能是购物平台也可能是信息分享平台。之所以人们如此的关注这类事件因为这些数字化平台已经与我们生活紧密结合其用户规模庞大一旦系统出现故障势必会造成一定生活的不便。比如疫情时代健康码已经成为人们出门必备的条件一旦提供健康码服务平台出现故障出行将变得寸步难行。
系统安全问题成为威胁企业正常运行的重大风险
数字化系统在给我们生活带来便利的同时也提升了他在人们生活中的重要性一旦系统出现故障不仅仅会影响到业务的正常运行也会影响到用户的日常生活和体验。因此系统安全问题成为威胁企业正常运行的重大风险其安全稳定将变的越来越重要。
在此背景下一方面企业开始加大系统安全领域的投入另一方面国家监管要求也变得越来越高。2021年6月10日第十三届全国人民代表大会通过了《全国人民代表大会常务委员会关于修改[中华人民共和国安全生产法]的决定》自2021年9月1日实施。新安全生产法首次提出平台经济等新兴行业、领域的生产经营单位应当根据本行业、领域的特点建立健全并落实全员安全生产责任制加强从业人员安全生产教育和培训履行有关安全生产义务。在工信部和应急管理部印发《“工业互联网安全生产”行动计划2021-2023年》中也提出了要增强工业安全生产的感知、监测、预警、处置和评估能力加速安全生产从静态分析向动态感知、事后应急向事前预防、单点防控向全局联防的转变提升工业生产本质安全水平。
内部风险成为威胁系统安全的主要风险之一
在影响系统稳定和安全的原因中按照其发生的主体可以分为外部安全和内部安全外部安全指常见由于黑客攻击、木马、DDOS攻击等原因导致的系统安全问题而内部安全则是由误操作、变更故障、程序缺陷、硬件故障等原因导致的系统安全问题。外部安全属于信息安全的覆盖域目前已经相对成熟而内部风险的控制还是薄弱环节。
通过对企业内部安全故障原因分析可以发现其中变更类故障导致的安全问题约占60-70%环境变化类故障如流量过大导致的问题约占约15-25%硬件类故障约占约5-15%。由此可见由于变更风险导致的系统安全问题是威胁系统安全的主要风险之一。
传统风险控制方法难以解决内部风险带来的系统安全挑战
传统变更风险的控制是通过制度规范、宣贯、审批等方式来进行控制由于风险控制复杂性通过传统方式进行风险管控存在较大挑战主要表现在
1产品更新迭代快仅靠制度和人工审核控制风险难度大。由于目前数字化产品研发追求敏捷性产品迭代频繁可能导致系统故障发生频繁而规章制度难以深入到产品研发、运维细节中执行难度较大。通过人工审核、审批的方式成本高难以直接量化风险在需要大量审核的场景下容易忽视风险。
2系统安全涉及范围广控制成本高。范围广主要体现在数字化系统和人员范围广数字化系统包括重要业务系统、相应变更系统云资源变更、应用变更、业务变更人员包括产品、研发、测试、运维、运营人员等。
3点状风险控制方案难以有效控制风险控制效果差。风险控制是复杂系统工程控制效果受短板影响明显没有体系化控制手段难有效控制风险发生。
解决方案实践
系统故障诱因复杂这导致单点控制很难解决问题需要一个系统化解决方案。第一届天猫双十一开发和运维人员需要整夜保障随时解决出现的问题即便这样也会出一些意想不到的故障。2020年双十一用户数量和销售规模与第一届双十一对比已经不可同日而语系统也更加复杂但双十一大促系统保障过程却越来越流畅保障人数也在持续降低这背后就是一个系统化解决方案。
组织的顶层设计
组织设计是指从组织层面设置专门组织机构来负责系统稳定和安全包括最高层安全生产委员会和各个研发部门稳定性负责人。安全生产委员会职能包括负责全局稳定性决策、安全生产规则制定、整体应急协同、安全文化培养、全局管控系统的规划与管理。当故障发生时由相关人员负责故障应急与统筹各研发部门稳定性负责人负责各系统风险治理和稳定性保障在研发、运维过程中避免系统故障出现。
事前的风险预防
防患于未然是安全最高能力。首先事前风险预防包括事前分析系统各个组成要素、组成要素可能面临威胁和存在脆弱性并将分析结果作为安全治理输入。对于威胁需要制定相应措施避免或减少威胁发生。对于脆弱性需要针对性进行巩固比如对于经常会导致系统故障的系统变配操作通过统一的变更平台集中管理各种变配申请从而实现对变配操作集中管控。其次通过最小权限原则限制操作人操作权限包括操作时间限制、操作对象限制和操作范围限制。另外每一次的变配操作系统可以根据操作人、操作对象、操作类型等要素计算操作过程中存在的风险一旦发现过程中存在确定风险则会直接阻断当前操作如果是高风险则会发起交叉确认流程如果是低风险则会直接放行。这种方式既实现了对风险的实时管控防止由于人为失误导致故障同时又平衡了研发效率与安全生产间关系。
事中的实时观测
快速发现是避免损失扩大的重要手段。首先在系统运行过程中通过业务指标观测、应用程序观测、云资源观测相结合的方式能够及时发现系统存在的问题一旦发现故障按照事先制定的预案系统会通知相关人员进行处理。其次基于大数据和人工智能算法平台会实时预测相关指标变化趋势将故障预警时间再次提前。
事后的快速恢复
尽管事前事中制定了详尽的方案但是还是很难避免故障发生。一旦故障发生如何快速进行故障恢复就是首要事情。按照故障不同类型可以使用故障恢复手段有限流、拦截、熔断、快恢、降级、扩容、切流、重启等。不同恢复方式都需要有相应系统支持和日常演练测试。
故障恢复后安全生产委员会还需要组织相关人员排查和分析故障原因制定整改方案确定故障责任人推进和落实整改方案防止相同故障再次发生。
业务系统安全工程
从以上的实践过程可以看出企业很难依靠单一手段解决系统故障而需要通过系统化的手段从顶层的组织设计、事前的风险分析和策略制定、事中的持续监测和预警、日常的演练和事后的应急响应等多方面进行控制。
在传统行业中为了保证生产经营活动能够正常运行国家制定了一系列的措施使生产过程在符合规定的物质条件和工作秩序下进行从而有效消除或控制危险和有害因素减少人身伤亡和财产损失保障人员安全与健康、设备和设施免受损坏、环境免遭破坏。在建筑、石油化工、交通运输、航空航天等行业安全生产已相对成熟和完备但在互联网领域还是空白。以下图采矿业安全生产流程为例我们可以看出安全生产的管理要求已经落实到了作业的各个过程和环节。 参考传统行业中的安全生产解决方案同时结合阿里巴巴内部的最佳实践我们提出了业务系统安全工程解决方案该方案是指导业务系统防范故障的安全指南其目标是通过预防、监测预警、应急响应等手段减少业务系统故障保障业务系统稳定、可用和可靠防范由于业务系统故障导致的资产损失和用户影响。
业务系统安全工程框架
由于业务系统以及故障原因的复杂性单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导以风险控制方法为工具形成了自己的实施框架 IPDRI即识别identify)、预防protect、监测detect、恢复recover和改进improvement五个环节。从事前、事中、事后进行风险的控制形成闭环的反馈网络。 其中识别包括资产分析、威胁识别、脆弱性识别等。预防是为了避免风险的发生而采取的一定的预防措施。监测是监测系统和保护措施是否在正常的运行。恢复是在故障出现时快速的采取措施恢复系统的运行。改进是查找故障原因制定改进方案避免相同故障的再次发生。
业务系统安全工程标准
在此背景下阿里云联合国家信通院牵头起草了《基于云计算的数字化业务安全工程标准》该标准是国内首部聚焦于保护系统持续正常运行的行业标准。标准核心目标是保护业务系统能够持续正常运行防范由于业务系统故障导致资产损失和用户影响保证系统可用、稳定和可靠。 标准规定了企业实现业务系统持续正常运行需要具备的各项能力包括组织设计能力、风险分析与识别能力、策略与管控能力、监测与预警能力以及应急响应能力。 其中
· 组织设计能力规定企业应设立顶层安全生产委员会下辖公司安全生产部门用技术手段提升风险控制能力保障业务稳定打造安全生产文化确保人人重视、有持续性提升明确行为准则用机制保护人减少犯错降低损失以此快速推进稳定治理大幅收敛公司全局性故障和重大影响故障。
· 风险分析与识别模块帮助企业通过对系统脆弱性、业务安全生产需求、系统已发生故障分析寻找影响信息系统安全生产的潜在风险。
· 策略与管控模块是针对已经分析发现的风险制定安全生产管控策略通过降低、预防威胁发生提前巩固、消除脆弱性等手段预防风险的发生。
· 观测与预警模块是通过业务状态观测、云资源状态观测、大数据风险分析与预警以及预警管理等能力快速发现风险。
· 应急响应模块规定了企业缩短故障时间、快速恢复故障应该具备的响应和快恢能力包括容灾演练、切流、限流、降级、重启、拦截、扩容等能力。
总结
系统安全受内部和外部双重影响在防止企业系统受外部影响上信息安全目前相关理论研究和产品建设已经较为完善。当前系统故障更多原因是由于企业内部问题导致安全工程成为降低系统故障体系化解决方案。
随着企业上云和用云深入阿里云混合云安全工程为企业上好云、安全用云提供了全套解决方案 内容包括安全工程标准培训、企业安全工程标准评测认证联合信通院、安全工程产品体系运维风控等、业务稳定性咨询等产品与服务 提升云上业务的安全可控。
原文链接
本文为阿里云原创内容未经允许不得转载。