7 月 25 日消息,近日因 CrowdStrike 故障导致全球约 850 万台 Windows 电脑蓝屏死机,也成为全民关注的热点事件。
7 月 24 日,CrowdStrike 官网发布了 Windows 大范围蓝屏事件初步审查报告,并表示即将在公开发布的根本原因分析中详细说明全面调查结果。
初步审查报告显示,UTC 时间 2024 年 7 月 19 日星期五 04:09(北京时间 12:09),作为常规操作的一部分,CrowdStrike 发布了 Windows 传感器的内容配置更新,以收集有关可能的新型威胁技术的遥测数据。
这些更新是 Falcon 平台动态保护机制的常规部分。然而,有问题的快速响应内容配置更新导致了 Windows 系统崩溃,影响的设备包括运行传感器版本 7.11 及更高版本的 Windows 主机。
这些主机在 UTC 时间 2024 年 7 月 19 日星期五 04:09 至 2024 年 7 月 19 日星期五 05:27 期间在线并收到了更新。Mac 和 Linux 主机不受影响。
内容更新中的缺陷已于 UTC 时间 2024 年 7 月 19 日星期五 05:27(北京时间 13:27)修复。在此时间之后上线的系统或在之前的窗口期内未连接更新的系统不受影响。
CrowdStrike 通过两种方式向传感器提供安全内容配置更新:直接随传感器附带的内容,以及快速响应内容更新。周五的问题涉及快速响应内容更新,其中存在未检测到的错误。
当传感器接收并加载到内容解释器中时,有问题的内容导致内存读取越界,从而触发异常。无法妥善处理此意外异常,导致 Windows 操作系统崩溃(BSOD)。
注意到,CrowdStrike 官方也发布了补救措施,共包括三大部分:
1、软件弹性和测试
通过使用以下测试类型改进快速响应内容测试:
本地开发人员测试
内容更新和回滚测试
压力测试、模糊测试和故障注入
稳定性测试
内容接口测试
向内容验证器添加其他验证检查,以实现快速响应内容。正在进行一项新的检查,以防止将来部署此类有问题的内容。
增强 Content Interpreter 中的现有错误处理。
2、快速响应内容部署
对快速响应内容实施交错部署策略,其中更新逐渐部署到传感器库的较大部分,从 Canary 部署开始。
改进对传感器和系统性能的监控,在快速响应内容部署期间收集反馈,以指导分阶段推出。
通过允许精细选择部署这些更新的时间和位置,使客户能够更好地控制快速响应内容更新的交付。
通过发行说明提供内容更新详细信息,客户可以订阅这些说明。
3、第三方验证
进行多个独立的第三方安全代码审查。
对从开发到部署的端到端质量流程进行独立审查。
除了初步的事故后审查外,CrowdStrike 还致力于在调查完成后公开发布完整的根本原因分析。(汪淼)