谷歌就一起重大服务宕机事件致歉,该公司称事故由近期多层级的缺陷更新所致。
公司于周五晚发布事故报告,详细说明周四发生的数小时服务中断情况。全球超 70 项谷歌云服务停止正常运行,导致 Cloudflare、OpenAI、Shopify 等数十家第三方服务瘫痪或受干扰,Gmail、谷歌日历、谷歌云端硬盘、谷歌 Meet 等第一方产品也出现故障。
“我们对此次宕机造成的影响深表歉意,” 谷歌在事故报告中写道,“谷歌云客户及其用户将业务托付给谷歌,我们会做得更好《金狮贵宾会最新域名》。我们不仅为此次事件对客户业务及其用户造成的影响道歉,也为系统信任受损致歉。我们承诺将做出改进,避免未来发生类似宕机。”
谷歌云业务首席执行官托马斯・库里安也于周四在 X 平台(原推特)发帖提及此次宕机,称 “对给客户造成的干扰深感遗憾”。
事故报告显示,谷歌于 5 月为评估自动传入请求的 “配额策略检查” 添加了新功能,但该功能未立即在真实场景中测试。因此,系统无法正确处理新功能产生的数据(包括空白条目)。这些空白条目随后被发送至所有谷歌云数据中心区域,引发系统崩溃。
据谷歌称,工程师在 10 分钟内定位了问题,但由于部分大型区域因崩溃出现过载,整个事件持续了 7 小时。
谷歌还提到,推出该功能时未使用 “功能标志”—— 这是行业内日益普遍的做法,可通过缓慢部署新功能来降低问题发生时的影响。若使用功能标志,本可在问题扩散前发现隐患。
展望未来,谷歌表示将调整架构,确保单一系统故障时其他系统仍能运行,避免连锁崩溃。此外,公司将审计所有系统,并改进自动化和人工通信机制,“让客户尽快获取应对问题所需的信息”。
责任编辑:丁文武
问题的第二部分有关AI如何在未来几年推动公司的资本密集 ⚓度金狮贵宾会最新域名。其实大家可以将Meta的资本支出投资分为三大类♈。
A:用户量级的上涨,对算力的需求确实会呈现指数级的增长 ⏰。至少是非常正相关的 ⚡。所以文心一言这样和飞桨,甚至芯片层的推 ♌理和训练这一块的联合优化才是重点,就是怎么端到端地让资源尽可 ❎能地节省,让整体的一个性能更好地提升。
本报记者 阿忆 【编辑:董存瑞 】