Crowdstrike更新错误致Windows宕机,如何看待后续影响?

本文来自格隆汇专栏:中信证券研究 作者:陈俊云 刘锐

配置错误已经修复,但宕机问题需要逐步解决

2024年7月19日,CrowdStrike配置更新错误引起850万台Windows主机系统崩溃,严重影响了全球重要行业的业务运作(如航司/机场、火车、广播公司、医院、金融机构、政府机构等),导致航班停飞、医疗程序取消/中断以及媒体停播等重大影响。目前,相关配置错误已经修复,而全面解决则需要数天时间。本次事件或将导致CrowdStrike面临一定经济损失,以及更加严重的声誉损失,或将引起CrowdStrike现有及潜在客户重新考虑合作关系,CrowdStrike的主要竞争对手或将因此受益。

事件描述:端点安全厂商CrowdStrike配置更新引起部分Windows系统崩溃。

UTC时间2024年7月19日4点左右(北京时间12点左右),端点安全厂商CrowdStrike发布的一项有误的Falcon Sensor(用于监控PC/虚拟机操作系统活动的Agent,旨在检测和阻止潜在的威胁)更新导致全球范围内安装该Agent的Windows系统大规模宕机,全球数百万台PC/服务器/虚拟机因“蓝屏死机”(BSOD)错误而离线。由于CrowdStrike是全球头部端点安全产品供应商,而全球主流的PC均搭载Windows系统,这次错误更新导致银行、航空公司、超市和电视广播公司等都受到影响,包括影响航空指挥系统导致航司停飞/迫降,影响订票/检票/结算系统导致各类线下服务场景无法正常运行,甚至部分工厂的生产流程也受到影响,是近年来波及范围最广的一次IT事故。

事件原因:Falcon Sensor通道文件更新引发逻辑错误,导致操作系统崩溃。

根据CrowdStrike官网技术博客内容,UTC时间2024年7月19日04:09,CrowdStrike向Windows系统发布了Falcon Sensor配置更新,该配置更新是导致系统崩溃的核心原因,与任何网络攻击无关。CrowdStrike表示,更新的配置文件被称为“通道文件”,是Falcon Sensor行为保护机制的一部分。对通道文件的更新是Falcon Sensor运行的正常环节,CrowdStrike每天都会根据发现的新战术、技术和策略进行多次更新。本次受影响的通道文件是291,其文件名以" C-00000291- "开头,以.sys扩展名结尾。通道文件291用于评估命名管道在Windows系统中的执行情况(命名管道在Windows系统中用于进程间或系统间通信),本次更新旨在针对新近观察到的恶意命名管道,但配置更新引发了逻辑错误,导致操作系统崩溃。

补救手段:配置错误已经修复,但宕机问题需要逐步解决。

根据官网技术博客内容,导致Windows系统崩溃的配置更新已于UTC时间7月19日05:27修复。公司表示,本次影响不涉及Linux和macOS主机,在UTC时间05:27之后上线的Windows主机也不受影响。对于已经波及到的主机,公司给出不同情况下的解决方案:1)优先在有线网络(而不是WiFi)环境下重启主机,使其有机会下载恢复的通道文件。2)如果重启后系统仍然崩溃,则需要将Windows引导至安全模式或Windows恢复环境,导航至操作系统卷的CrowdStrike目录,找到通道文件291并将其删除,然后再从关闭状态启动主机。3)对于使用BitLocker加密的主机,通常要求在进入安全模式时输入恢复密钥以确保系统安全,在公有云或者虚拟环境下,用户可以通过自动化脚本的方式实现批量恢复。但对于物理服务器或者PC设备,只能通过IT管理员手动输入的方式实现恢复,恢复周期会更长。综上,中信证券判断部分主机能够快速恢复,而全面解决则需要数天时间。

后续影响:CrowdStrike或将面临经济和声誉损失,端点安全市场格局亦有可能发生变化。

根据微软官网消息,本次受到影响的Windows主机数量约850万台,这占CrowdStrike服务端点数约20%。按照软件公司合同签署的惯例,通常不需要赔偿客户直接经济损失。但合同中一般设置有服务级别协议(SLA),要求服务可用时间以及响应、解决时间等,如果CrowdStrike未能达到相关要求,则需要向客户提供一定补偿,或是提供SLA 积分以抵扣未来的服务费用。与此同时,公司也需要增加公关/品牌/修复相关开支,并承担声誉和品牌形象的损失。尽管宕机事件本身并非孤例,AWS、Azure、Atlassian(2022年4月)和Datadog(2023年3月)都引起过类似事件。但考虑到本次事件波及范围过大,中信证券认为相关损害亦将更为严重。这次事件过后,或将引起CrowdStrike现有及潜在客户重新考虑合作关系,CrowdStrike的主要竞争对手或将因此受益。

风险因素:

原油价格上行导致欧美高通胀进一步失控风险;美债利率快速上行风险;针对科技巨头的政策监管持续收紧风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;安全平台化演进不及预期风险;全球云计算市场发展不及预期风险;云计算企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

投资策略:

CrowdStrike配置更新错误引起850万台Windows主机系统崩溃,严重影响了全球重要行业的业务运作(如航司/机场、火车、广播公司、医院、金融机构、政府机构等),导致航班停飞、医疗程序取消/中断以及媒体停播等重大影响。目前,相关配置错误已经修复,而全面解决则需要数天时间。本次事件或将导致CrowdStrike面临一定经济损失,以及更加严重的声誉损失,或将引起CrowdStrike现有及潜在客户重新考虑合作关系,CrowdStrike的主要竞争对手或将因此受益。


注:本文节选自中信证券研究部已于2024年7月21日发布的《前瞻研究行业重大事件点评—Crowdstrike更新错误致Windows宕机,如何看待后续影响?》报告,分析师:陈俊云S1010517080001;刘锐S1010522110001

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论