2025年10月20日,AWS美国东部区域的核心服务DynamoDB和EC2突发故障,导致包括Snapchat、Fortnite、Duolingo、Canva、Slack等诸多大厂在内的大量应用不可用,这一场灾难不免引人思考:中心化服务是否已经到了危急存亡之秋?
辩证来看中心化服务,一方面其确实提供了上手快、交付快的优势,但同时单点或同源问题一直是困扰中心化服务的命题。区域级或控制平面级事故会同步拖垮依赖的对象存储、身份、网络、队列等链路。哪怕做了多可用区,只要控制面出问题,仍可能全线黑屏。
实际上,AWS中心化服务已不止一次出现过宕机,其每次宕机的影响范围之广,灾难程度之深,都超乎想象。
8年前,2017年02月28日,一次操作失误导致 S3 索引子系统停摆,虽当日大批网站报红…
5年前,2020年11月25日,Kinesis 前端集群变更引发系统性故障,波及 Cognito、CloudWatch、Lambda 等依赖,持续约 17 小时…
上述事例也还仅仅是AWS掉链子的一部分。该事件表明,即便是最成熟的云服务,一旦发生区域性宕机,也可能引发级联效应,使广泛依赖其基础设施的服务同时瘫痪。
在这种背景下,业界对多云架构或去中心化存储方案的需求再次上升,希望借此确保数据持久性和业务连续性。
而对于去中心化储存的需求,不单单是单点故障,更是灾难发生时的自愈性:更少的人力投入以及更快的灾难恢复。
dStorage项目千千万,有此特性的却不多。建立在 @SuiNetwork 区块链上的去中心化存储网络 @WalrusProtocol 则是少数具有自愈性的,专且为大规模二进制对象存储而设计的去中心化储存项目。
Walrus的储存美学在于,通过多项技术创新解决现有系统在成本、安全和可用性之间的权衡。
其中最核心的就是Walrus独特Red Stuff与二维纠删编码协议:它将数据切分并矩阵化,然后分布存储在网络的各个节点上。
这就意味着,即便网络部分节点离线,Walrus仍能保持数据访问,因为Red Stuff编码和自愈机制可以自动从其余节点重构丢失的数据。这些设计使Walrus在面对节点故障或区域故障时具备天然优势。
举个更加具体的例子,当一个节点恢复上线或新节点加入时,它可以先通过向网络中1/3的其他节点请求来重建其辅切片。若要恢复主切片,则需收集2/3节点响应。
与1D纠删码相比,Red Stuff的恢复所需下载的数据量仅相当于一个切片的大小,而非整个文件。这种自愈机制使Walrus在节点频繁上下线时依然保持高效:只有极少量数据传输便可修复丢失部分,大幅降低了恢复带宽成本。
同时,Walrus在协议层面设计了不同的读写验证门槛,写入时需要2/3节点确认,而读取时仅需1/3节点即可恢复文件。
与常规存储系统相比,这意味着即使大部分节点临时不可用,客户端也只需从少量存活节点提取切片并验证,即可恢复数据,大幅提升了读取操作的容错性。
此外,Walrus引入了动态委员会换届机制。当存储节点集发生变化时,通过多阶段协议保证所有已写入的数据依然可用,系统的读写操作不会中断。这意味着即便在大规模故障期间,Walrus网络也能持续提供数据可用性,而无需停机维护,这对各类项目方保持业务连贯性提供了非常重要的保障。
相较于Filecoin,其矿工存储被编码的冷副本需定期提交证明,若用户想访问原始文件,往往需要等待昂贵的解码过程,除非有矿工保留热副本,最终导致存取冷数据的延迟和费用都较高。Walrus则在协议层面将冗余、灾难恢复和可用性作为默认能力。它仅需约5倍复制开销,即可获得相当甚至更高的容错能力。
可以说这是一种新的范式,它在底层架构上同时满足安全性、效率和可用性需求,为大规模去中心化存储提供了与集中式云存储相媲美的性能和鲁棒性。
而这些特性,在群众的选择中,得到了充分验证。
Veea Inc.,这家在纳斯达克上市的边缘计算公司,早在今年7月,就将Walrus 纳入其边缘方案,用于高性能数据传输与存储。
不仅是算力行业,Walrus的用例可以渗透到各行业,只要有储存需求的地方,就可以用Walrus的主推。OneFootball,一家主营体育媒体的平台,在今年8月就对外宣布与 Walrus 的战略合作,目标是将内容托管在 Walrus 的去中心化基础设施上,并配合 Seal 做访问控制。
这些商场的选择就意味着Walrus模式得到了业界的认可,并且在储存过程中形成了基于Walrus自愈特性的最佳实践。
这也是Walrus所带来的储存避险逻辑,单云的控制平面一旦出问题,会齐刷刷影响到宿主的对象存储、CDN 与应用入口;而把内容的真源,可验证副本以及访问规则放到 Walrus,就能在云区域出事时,仍能游刃有余,而不是匆匆忙忙,连滚带爬。
总的来说,近期AWS区域性故障给我们敲响了警钟:真正的去中心化存储要跨越基础设施的单点故障。
Walrus协议通过Red Stuff二维纠删码、异步存储证明和动态委员会换届等机制,从设计之初就将自愈和高可用性纳入体系。它提供了一种新的解决路径,将去中心存储的可靠性和效率提升到了与集中式云相抗衡的水平。

