Archivo de Indias

西班牙塞维利亚,一座 16 世纪建成的石头建筑里,藏着人类最早的“数据饥渴”——西印度群岛综合档案馆。西班牙帝国用三百年时间,把殖民地的每一笔交易记录、每一份航海日志、每一封总督密信,塞进了这里约 9 公里长的书架上——共 43,000 余卷,约 80 亿页。

1990 年代,西班牙文化部联合 IBM 西班牙公司和 Ramón Areces 基金会,启动了一项在当时堪称先锋的档案数字化工程。到 1998 年,他们已经扫描了超过 1100 万页原始文献——相当于馆藏的沧海一粟,但这些高精度图像所占用的存储空间,已大幅超越当年主流硬盘的容量极限。

而今天,人类每天生成的数据有多少?

大约 650,000 TB。也就是 0.65 ZB。每天。

三百年的帝国档案,今天的人类只用不到两分钟就超越了。

这不是技术参数的比拼,这是一种文明存在方式的彻底改写。在 KB、MB 时代,数据是稀缺品——你攒了好几年的照片,一块硬盘就能全部兜住。到了 PB、EB 时代,数据变成了公用设施——它藏在你脚下的数据中心里,像水电暖一样沉默运转。而在 ZB 时代,数据正在变成这个星球上最普遍的"工业废气"——它不再被人特意制造,而是被机器无休无止地排放出来。

Zettabyte,中文 泽字节,简称 1 ZB

1 ZB = 1024 EB = 1,048,576 PB = 1,180,591,620,717,411,303,424 字节。约 1.18×10^21 字节,或者说 一万亿 GB,或者 十亿 TB。如果 1 TB 是一滴雨水,1 ZB 就是一条长江。

但比起数字换算,有一个更有意思的问题值得先问:这个词到底从哪儿来的?为什么它偏偏叫"Zetta"?


一、Zetta-:一场来自 1991 年的末日预言

1991 年,国际度量衡委员会(CGPM)正式通过了一组新的 SI 前缀:zetta- 表示 10^21,yotta- 表示 10^24。

“Zetta-“到底是什么意思?它的词根来自拉丁文 septem,意为"七”。为什么是七?因为 10^21 = (10^3)^7,也就是"1000 的七次方”。当初命名时,委员会把 septem 的首字母改成 z,加上意大利语常见的指小后缀 -etta,组合成了"zetta-"。

一个来自拉丁文的词根,被一个意大利式的后缀包裹,放进了一台以二进制为母语的计算机里——就诞生了“泽字节”。不过,这个名字引入中国时,翻译家选了“泽”字——“泽”在中文里不仅有“光泽、恩泽”之意,也暗合“水聚为泽”的汇集意象,用来命名人类所能触及的最大数据度量衡,倒也贴切。

但有意思的是,在 1991 年,没有任何人真的需要“zetta”这个词。

那时候全球一年的数据量还以 TB 计,你能买到的最大硬盘不过几百 MB。CGPM 通过这两个前缀,不是因为“已经需要用了”,而是因为“迟早有一天需要用”——这大概是人类历史上最早的一次“存储末日预言”,比任何一家市场调研机构的预测都早。

预言押中了。

2010 年,根据 IDC 的数据,全球每年创建、捕获、复制和消耗的数据总量首次突破 1 ZB,达到 1.2 ZB。从 1991 年命名到 2010 年第一次用上,十九年。十九年里,人类从“哪有那么多数据?”走到了“啧,数据多得没地方放了。”

而思科的一则旧预测,至今读来仍有意义——早在 2012 年,思科 Visual Networking Index(VNI)预测 2016 年全球 IP 流量将达到每年 1.3 ZB,这是网络流量第一次迈过"泽字节"门槛。存储的"泽字节时代"始于 2010 年,而流量的"泽字节时代"比存储晚了整整六年——因为 ZB 级的数据,首先要能生成出来,然后才谈得上存。而到了 2020 年代,生成早已甩开存储好几条街。

到这里,你已经看到了 ZB 的故事的第一个关键矛盾:数据是被"制造"出来的,还是被"排放"出来的? 这个问题,把人类对信息的理解推到了一个全新的维度——在 ZB 之前,数据是人类主动书写、主动留存的行为痕迹;到了 ZB 时代,数据成了被机器无休无止、无论你需不需要都会喷涌而出的数字工业废气


二、30 EB 的塞维利亚:当数据不再需要人来写

让我们回到塞维利亚——但不是 16 世纪那座西印度群岛档案馆,而是 2000 年代全球数字档案的一个不太被人提及的转折:谷歌图书计划。

2004 年,Google 宣布了一项在当时看来近乎狂妄的计划:扫描全世界所有书籍。密歇根大学、哈佛大学、牛津大学、斯坦福大学、纽约公共图书馆——世界上最大的几座图书馆,把藏书一车一车运进谷歌的扫描中心。到 2019 年,谷歌已经扫描了超过 4000 万册图书,覆盖 400 多种语言。

如果把这 4000 万册图书全部数字化成纯文本,总数据量是多少?

大概在 30 EB 左右——连 1 ZB 的三十分之一都不到。

这是人类文明几千年写下的所有"书",用严格的文字形式、经过挑选、经过编排、经过印刷、经过图书馆编目——所有这一切加起来,放在一块 2026 年的 30 TB 企业级硬盘旁边,也就是一万块硬盘的量。一个中型机柜就能装下全人类所有纸书的纯文本副本。

但今天全球一年生成 220 ZB 数据。剩下的 200+ ZB 是什么?

不是任何一个人"写下"的。它们是被机器自动生成的。

  • IoT 传感器:一台工业涡轮机上的数百个传感器,每秒产生几十万条状态读数。一个中等规模的智能工厂,每天排放数 TB 的振动、温度、压力日志。全球数十亿台物联网设备,每分每秒在无人注视的情况下向数据中心倾倒数据流。
  • 自动驾驶测试车:我们在 EB 篇已详细讨论过——每辆车每天实测数据量可达 4 到 20 TB,一个 100 辆的测试车队月产出超过 30 PB。行业头部玩家的累计数据量,到 2020 年代已稳稳跨过 ZB 门槛。
  • 短视频平台:YouTube 在 2026 年每分钟上传超过 500 小时的新视频内容,日上传量超过 720,000 小时。TikTok 和抖音全球日活超过 15 亿,每天产生的视频原始数据量在 PB 至数十 PB 级别,月度数据量轻松突破 EB,年度数据量已进入 ZB 尺度。你刷过的每一个 15 秒视频,背后是一次内容的编码分发,也是一次永久的排放性数据沉淀。
  • 日志与监控:每一台服务器、每一个网络交换机、每一个云函数调用——都在疯狂写日志。这些日志绝大多数在被写入磁盘的那一刻起,就再也没有被人类阅读过。它们像一种数字化的“背景辐射”,填满了 ZB 空间的绝大部分。

换言之,人类文明花了几千年积攒下来的"文化数据"——书、档案、艺术、音乐、电影——在 ZB 时代全部加起来,可能只占数据总量的不到 1%。剩下的 99%,是机器写给机器的"内部备忘录"。

一位科技作家在《纽约时报》上写过一句被反复引用的话:“我们正在用一个文明的全部文化数据当钱,去给五个世纪的监视视频和消费推荐系统做零钱。“这并不是为了贩卖焦虑,而是提示一种物质事实:我们永远不可能像在海滩捡贝壳那样,从 ZB 的海洋中挑出所有"有意义的数据"再度回顾。数据,凭本能捡不完,凭算力筛不净,凭物理直觉也装不住了。

而谷歌的那 30 EB 书,提醒我们一件更微妙的事:人类曾经以为"记录一切"是文明最高的野心——西班牙帝国为此花了三百年。而现在,“记录一切"不再需要野心,它成了一种被动的物理后果。

而下一个问题就是——用什么东西把这 220 ZB 的数据装进去?


三、38 万块硬盘与机器人光驱:ZB 时代的物理体面

在 PB 篇和 EB 篇里,我们还在津津乐道地对比 IBM 3380 那台 250 公斤的冰箱巨兽和今天口香糖大小的 M.2 SSD。到了 ZB 这个量级,这种对比失去了意义——不是因为硬盘不够轻,而是因为根本没有人会把 1 ZB 的数据装在同一类介质里。

但我们可以做一道数学题。

一块当前主流企业级大容量硬盘,容量约 30 TB,重量约 690 克。要凑满 1 ZB 的原始容量,你需要大约 38,000 块这样的硬盘。总重量约 26 吨——相当于一辆满载的重型卡车。加上服务器机箱、电源、网络交换机、制冷系统和配电设备,一整套 1 ZB 的存储阵列大概需要一个中小型数据中心的大厅来容纳,耗电量够一个小镇使用。

这还不是全部。如果你把 1 ZB 的数据存进 LTO-9 磁带——一卷 18 TB 的磁带大约需要 61,000 卷。IBM 的 Spectra Logic TFinity 磁带库是当下市面上最大的商用磁带系统,一台满配约能容纳 2 到 3 EB。要装下 1 ZB,你得买约 400 到 500 台这个级别的磁带库——这已经是一个超大规模数据中心的配置量级了。

但真正的挑战从来不在于"单体的极限”,而是这些数据的存储周期分层。云厂商并不是平等对待所有数据。ZB 级存储架构的灵魂,是一套自动化的数据生命周期管理系统:

  • 热数据(最近被频繁访问的数据):停留在全闪存 NVMe 阵列上,延迟微秒级,单位存储成本极高。它们占据总量的 5%-10%,却消耗掉近一半的存储预算。
  • 温数据(偶尔被调用的数据):从 NVMe 向大容量 HDD 阵列迁移。这部分占 ZB 的主要份额,通常是半年内被访问过,但已经不够"热"的文件。
  • 冷数据(几乎不再被访问的数据):被打包写入 LTO 磁带库,或者直接归档进低速高密度的冷存储集群,等待它的可能只是合规审计或算法训练时的一次意外召回。

一个标准大型互联网公司的 ZB 级存储池,热数据可能只有几十 PB——但它们占据了系统绝大部分的 IOPS 和运维成本。而那些在磁带库深处安静吃灰的几百 EB 冷数据,每年唯一被完整读取的时刻,就是做年度数据完整性校验的时候。

硬盘

如果愿意,你当然也可以把 1 ZB 的数据全部刻成蓝光光盘。2026 年初一张标准蓝光双层盘容量为 50 GB,215 亿张 50 GB 蓝光盘才能凑满 1 ZB。如果把这些光盘摞起来,高度约 25 万公里——可以从地球叠到月球三分之二的距离。

蓝光光盘

需要强调的是,以上这些并不是一个科学的部署方案,而仅仅是一些"思想实验”。它们想说明的只有一件事:ZB 数据正在把人类推进一个"生成能力远超存储能力"的时代。 在 KB、MB 时代,你有多少数据,你就买多大的硬盘。到了 ZB 时代,这句话反过来才更接近现实:你有多少硬盘,直接决定了你能留下多少数据。剩下的,丢进虚空——不是被刻意删除,而是根本没有物理介质来接住它。

IDC 预测,到 2026 年,全球数据圈将增长到约 237 ZB,仅 2026 年一年新增的数据量就超过 40 ZB。而全球硬盘和 SSD 的年出货总量折算成存储容量,仅约 3 到 4 ZB。这中间的缺口——每年几十 ZB 的数据被生成出来,却从未被任何人保存——直接揭示了一个事实:我们活在数据洪流里,但绝大多数数据从未被目击,就被物理法则撕碎又冲走了。

这就是 ZB 时代最残酷、也最迷人的现实:数据已经不再是人类需要费力保存的稀缺品,而是人类根本来不及保存、也根本不知道如何放弃的物理事实。


四、一条狗的"记住所有气味”,还是神的"忘记一切"?

2013 年,美国国家安全局(NSA)犹他数据中心的容量在科技媒体上被反复猜测。我们在 EB 篇和 PB 篇都提到过它——1.5 亿美元的造价,65 兆瓦的耗电量,荒无人烟的犹他沙漠。进入 ZB 时代,全球类似的大型超大规模存储设施已不再稀缺——从 Azure 的亚利桑那到华为云的乌兰察布,它们的逻辑如出一辙:用廉价的沙漠、北极圈或废弃矿坑,换取海量数据的长期低成本储存。

但 NSA 犹他中心的真正遗产,不在于它存了多少数据,而在于它第一次让公众严肃地追问一个前所未有的问题:当存储的欲望膨胀到 ZB 级别时,“永远记住一切"会不会从技术承诺变成道德困境?

在 2014 年的一起欧洲案例中,一位西班牙公民援引"被遗忘权”,起诉 Google 并最终迫使谷歌从搜索结果中删除其十年前的个人债务拍卖公告。欧洲法院裁定,搜索引擎有权拒绝删除"过时但合法"的信息,但前提是它必须证明该项信息对公共利益仍有价值。这个在 EB 年代尚且能以"逐年审查"来勉强维系的旧版隐私规则,在 ZB 时代彻底脱了节。面对每年数十 ZB 的增量,没有任何信用机构或云厂商能逐条判断哪些信息值得留、哪些信息早该丢了。于是,所有平台不约而同地采取同一个策略:默认保存一切。

但这带来一个问题——如果一个人十年前在社交网络上发了一条不当言论,十年后这条数据被 AI 训练模型爬取,嵌入了某个大语言模型的权重里,它还能被删除吗?传统意义上的"删除"——找到那条记录、销毁它——在 ZB 级别的分布式存储系统里几乎不现实,因为数据被切碎成无数校验分片,塞进了不同机架、不同楼层甚至不同国家的硬盘里。你删了原文,校验分片还在。你清空了备份,磁带库里的冷归档还在。你甚至不确定这个"被删掉"的数据是不是已经在哪个 checkpoint 里被冻结进了某个模型的训练快照。

这就是 ZB 时代的"存储悖论":技术给了人类"记住所有气味"的能力,但人类并没有与之匹配的遗忘机制。 过去,人会死,文件会发霉,硬盘会坏,纸会腐烂——遗忘是默认状态,记住才是例外。但在 ZB 时代,记住是默认状态,遗忘才需要专门的技术手段和制度设计。欧洲《通用数据保护条例》(GDPR)规定的"被遗忘权",在 ZB 级的存储系统面前,与其说是一项法律权利,不如说是一种对物理现实的无奈妥协——如果当事人不主动发现并要求删除,那份十年前的债务记录就将在冷冻磁道中永生不死。

这让人想起博尔赫斯在短篇小说《博闻强记的富内斯》里创造的那个悲剧角色:伊雷内奥·富内斯因为一次事故获得了完美的记忆力,他能记住每一天每一片树叶的形状、每一秒钟的触感和每一次心跳的节奏。但他也因此崩溃了——因为他无法进行任何思考,他的意识被无差别的记忆完全填满。博尔赫斯写道:"思考就是遗忘差异,就是概括,就是抽象。 "

人类花了漫长的时间才学会遗忘的艺术——从最初的结绳记事到文字的发明,每一步都是对信息的选择性抽象。文字的发明本身,就是人类第一次主动选择"记住什么、遗忘什么"。而 ZB 时代对"记住一切"的执着,正在让这种能力陷入前所未有的退化危机。当机器把人类从"遗忘"的劳动中解放出来时,人类失去的不是负担,而是思考最本质的前提——一段毫无遗忘的文明,还是一段懂得释怀的文明——这个问题的答案,大概比"1 ZB 等于多少 GB"重要得多。


五、1 ZB 能装什么?

在进入下一个量级之前,让我们来做一次 1 ZB 的换算。由于 1 ZB 太大,这次我们用十进制和国际单位制口径(1 ZB = 1000 EB),因为目前所有公开发表的 IDC 全球数据圈预测均基于十进制,但误差不影响直觉感受:

  • 约 2500 亿部高清电影(每部 4 GB)——假设公元前 3000 年埃及第一王朝建立开始全天滚动播放,到 2026 年的今天大概放完了不到千分之一。
  • 约 3 万亿首 MP3 歌曲(每首 4 MB)——把这些歌曲从头到尾播一遍需要大约 2.2 亿年,比恐龙灭绝到现在的时间还长 3 倍。
  • 相当于大约 7000 个美国国会图书馆的全部藏书数字化纯文本——以美国国会图书馆约 180 TB 纯文本馆藏量估算。
  • 大约 100 万辆自动驾驶汽车连续 24 小时运行产生的全部传感器原始数据——存满整整一年。 每辆 L4 级测试车在极端高配传感器全开的测试状态下,每天最多可产生约 30 TB 数据;如果考虑大多数真实路测场景中的传感器按需触发和实时压缩,一辆主流自动驾驶公司在 2025 年实际每天产生的高精度日志和关键帧,通常在 4 到 12 TB 之间。这里取保守常态。**
  • 全球在 2026 年每 1.5 天产生的全部数据——以 2026 年全球数据圈约 237 ZB 的年生成量计算。

在物理世界里,要装下 1 ZB 的数据,你大约需要:

  • 一个占地约 200 平方米的中型数据中心机房;
  • 数万台服务器和存储设备 24 小时运行;
  • 电力消耗功率超过 1 兆瓦——足够一个数千人小镇的全部生活用电。

而在 1991 年,“Zetta-“这个词被写入 SI 标准的时候,全世界最大的硬盘不过 1 GB。命名者不会想到,三十五年后,人类每 1.5 天就能把这 1 ZB 填满。


六、ZB 的公共面孔:当你已经住在 ZB 时代里,却以为自己还在 MB 时代

在 PB 篇和 EB 篇里,我们说了,PB 是数据中心的语言,EB 是互联网脊梁的语言。到了 ZB,语言已经不是"技术行话"了——它变成了日常生活的底层物理常数。你可能从来没说过"泽字节"这个词,但你每天都活在它铺成的地基上。

搜索引擎。 Google 每天处理的搜索量超过 85 亿次,每次搜索命中分布在数千台服务器上的 PB 级索引碎片,在零点几秒内完成合并、排序和返回。据 Google 在 2020 年司法部反垄断案中披露的数据,其全球网页索引约 4000 亿文档,此后未再公开更新。虽然网页索引本身的规模难以精确估算,但 Google 在其数据中心内存储、处理和分析的数据总量——包括网页库、索引、知识图谱、AI 训练语料和日志数据——在 2020 年代已进入 ZB 级别。你用 Google 搜"天气预报”,大约有数十台服务器在 ZB 级别的数据池里为你翻腾一遍。

大语言模型。 GPT-4 和类似规模的大模型训练需要 PB 到 ZB 级的高质量文本语料。Common Crawl 一个月爬取的全球网页数据量约为 344 到 363 TiB,而它的整个开源语料库规模在 2025 年已达到 PB 至 EB 级。从这些原始数据中清洗、去重、筛选出的训练数据集背后,站着一个人工标注与自动化管道共同维持的 ZB 级别治理体系。每一次你向 ChatGPT 提问,背后的权重是从一整座 ZB 级数据垃圾山里蒸馏出来的——这句"好像没什么技术含量"的闲聊背后,是人类历史上规模最大的数字工业综合体之一。

视频流。 Netflix 在 2024 年全球订阅用户突破 2.8 亿。YouTube 月活用户超过 29 亿,用户每天观看约 12 亿小时的内容。Netflix 在 2024 年下半年的全球流媒体播放总时长达到 940 亿小时,全年合计接近 1900 亿小时。把这些视频流量加起来,每年的数据吞吐量足以填满数百 ZB 的传输带宽——虽然实际存储量远小于此(视频分发依赖 CDN 缓存而非全量长期存储),但 ZB 是这个系统的"计量单位”,不是它的"库存量"。

照片。 2026 年,全球每天上传到各社交平台的图片总量超过 50 亿张。以每张手机照片 3 到 5 MB 计算,每天仅社交图片就超过 20 PB 的新增数据。再加上原始文件、编辑副本、各分辨率转码版本——仅图片这一项,每年就能轻松占据几 ZB 的存储空间。你在 Instagram 上传一张自拍,它会被自动转码成 6 种分辨率、复制到 3 个地理区域的数据中心、塞进内容审核的 AI 队列、生成多种视觉特征索引——你只按了一下快门,后台默默复制了超过 8 份副本。

被永远删不掉的记忆。 即使你删除了社交账号,由于第三方爬虫、AI 模型对旧有数据的阶段性备份、以及广告网络的受众画像残留,你的痕迹很可能依然驻留在几十个跨国运营的 ZB 级存储孤岛里,直到磁带过期、云商割接或被下一波安全法规强制擦除。这些并非你我主动上传的数据,却构成了 ZB 世界中一块极其沉重的灰色主权领土。

你每天起床,拿起手机,刷了 15 分钟短视频,搜了一下天气,发了一张照片。这套动作你做了十年,觉得稀松平常。但如果你突然搬到一座没有 ZB 存储系统的世界里——你什么都打不开。

ZB 就是这样一种东西:它不是给你用的,它是给你活着的。


七、ZB 的告别:从建筑到天空

我们在 PB 篇说,PB 之后的存储不再以"硬盘"为单位,而是以"数据中心"为单位。在 EB 篇说,EB 是把互联网变成了一整座沉默运转的工业记忆系统。

到了 ZB 时代,连"数据中心"这个单位都要被改写了。

2010 年,人类用了几千年累积的数据才跨过 1 ZB 的门槛。但到了 2026 年,人类每隔大约 1.5 天就能生成 1 ZB 的新数据。从"几千年"到"1.5 天"——这不是一条渐进的曲线,而是一场文明的相位跃迁。

如果把信息尺度的递进比作一部文明扩张史:1 bit 是第一个烽火台上的狼烟,1 GB 是你口袋里的一千首歌,1 PB 是一座没有窗户的数据中心,1 EB 是一整片沉默运转的数字大陆。而 1 ZB——它不再是一座建筑,不再是几排机架,甚至不再是一片沙漠里的数据中心集群。它是笼罩在整个文明头顶的数字大气层。你看不见它,但它决定了你在数字世界里能不能呼吸。数据不再是人类主动书写的文化产品,而是被机器无差别排放的物理副产品——而我们永远无法把一条河的流动装进一个水桶慢慢品尝。

而在 ZB 之上,只剩最后一个量级。在那个量级上,人类的语言本身可能已经不够用了。

下一个单位:1 YB。在那里,我们不再说"数据圈",我们得说"信息宇宙"。而这一整个宇宙,能不能被完整的备份在某个地方——甚至永远不损坏、不被遗忘——那是最后一篇要回答的问题。