Dynadot 搬瓦工 腾讯云

DMIT 发布网络事件报告:LAX/HKG 故障原因解析及补偿说明

Sider GigsGigsCloud

这份 DMIT 网络事件报告涵盖了近期洛杉矶(LAX)和香港(HKG)节点的网络不稳定原因、处理过程及补偿方案。以下是核心内容总结:

1. 🇺🇸 洛杉矶(LAX)CN2 GIA 故障

  • 当前状态: 已采取缓解措施,最终修复需等待 CTG(中国电信国际)在“网络冻结期”后操作。
  • 故障原因(上游配置失误):
    1. 路由前缀限制: DMIT 订购了 1000 个前缀,但 CTG 仅配置了默认的 300 个。客户发包导致超出限制,触发 CN2 会话中断。
    2. 备用链路拥堵: 流量切至备用线路时,因 CTG 链路聚合(LACP)配置错误,导致物理多路 10G 变成了逻辑单路 10G,引发严重拥堵。
  • 恢复缓慢原因: 受中国网络封网(冻结)影响,上游修改配置需集团级紧急授权,且发生在非工作时间,耗时较长。

2. 🇭🇰 香港(HKG)DDoS 攻击

  • 当前状态: 攻击持续中(10Mpps),目前 99.9% 流量已被过滤。
  • 故障原因: 遭遇针对性轮询攻击。
  • 防御失败原因:
    1. 流量清洗泄漏: 因配置错误和硬件故障,恶意流量绕过本地清洗,经由洛杉矶骨干网回流至香港。
    2. 人力不足: 技术团队当时正全力处理 LAX 故障,导致 HKG 故障的诊断和响应时间被迫延长。

3. 🛡️ 后续预防

  • 加强审计: 将对上游供应商交付的配置(如前缀限制、带宽聚合配置)进行更严格的逐项人工核查。

🎁 全员补偿(重点)

DMIT 为所有用户(不论地区和线路)提供以下补偿:

  1. 即时生效: 今天免费重置所有产品的流量。
  2. 未来权益: 现有产品在 2026年5月前,拥有一次额外的免费重置流量机会(后续通过网站功能发放)。

DMIT 优惠推荐:《DMIT 2025 圣诞巨惠:洛杉矶 CN2 GIA / CMIN2 / 9929 线路最高 8 折 + 账户金返还!》。

以下是原文。

这是在另一个重大事件之前的最后一次更新。

以下是关于最近网络不稳定性的综合技术事后分析。

🇺🇸 LAX CN2 GIA 事件

当前状态:所有即时缓解措施已应用。由于中国范围内的“网络冻结”(截至12月15日),CTG 的最终修复工作仍在等待中。

1. 根本原因:前缀限制超出

不匹配:DMIT订购了1k前缀限制,但提供商(CTG)将其保留在默认的300。此参数在服务交付后无法测试,因此默认了前缀数量限制已被正确地配置

触发因素:两个客户增加了宣告 + 多个黑洞路由使前缀计数超过300。

结果:AS4809(CN2)在超出限制后立即挂起了BGP会话。

2. 为什么故障转移导致丢包?

设计:冗余路径(CoreSite)按设计保持在线(过滤DDoS路由以节省前缀空间)。

关键故障:提供商 LACP 配置错误。CTG 将我们的链路聚合配置为单接口容量,忽略了我们多个物理 10G 端口连接。

影响:当流量转移到 CoreSite 时,超过了逻辑 10G 上限,尽管物理容量可用,但仍导致严重拥堵和丢包。

3. 为什么恢复时间这么长?

由于“网络冻结”,CTA/CTG侧路由器配置更改权限已被临时关闭。

当前CTA/CTG需要从集团层面获得紧急授权。由于当时中国是在非工作时间,获得此授权花费了较长时间。

================

🇭🇰 HKG 事件

当前状态:99.9%的流量成功过滤。已实施主动监控。持续 10Mpps。

1. 根本原因:“针对数个子网的所有IP地址进行轮询攻击”

攻击类型: TCP SYN-ACK; TCP ACK; TCP Null; FIN; RST

2. 为什么初始缓解失败?

泄漏:配置错误的绕行规则和硬件故障导致流量绕过本地清洗集群。恶意流量直接通过洛杉矶 PoP 流入了 DMIT 骨干网,进入了香港 PoP。

“误导”:我们最初专注于细化规则,没有意识到缓解设备本身存在硬件/软件故障。这误导了我们的诊断并延迟了修复。

3. 资源争用:由于 LAX 的故障需要不间断协调,导致了技术人力资源不足,不可避免地加长了 HKG 从发现到诊断到缓解的时间。

🛡️ 未来预防与承诺

更严格的审计:我们将额外实施一层手动审查,以检查供应商订单上的每个文本字段,确保交付的配置(如前缀限制和 LACP 速度)完全符合我们的要求。

现实:DDoS 攻击千变万化,突发的DDoS事件很难避免造成影响,但 DMIT 承诺利用尽可能多的资源支持客户,以合理成本体验稳定和持续的业务。

================

补偿:所有产品服务无论地点和网络配置文件如何,都将在今天免费重置流量,并且每一个现有的产品服务在2026年5月之前都有一次额外免费机会重置流量。(未来通过网站功能交付。)

Dynadot Hostwinds
赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《DMIT 发布网络事件报告:LAX/HKG 故障原因解析及补偿说明
文章链接:https://oldtang.com/14507.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。