2013 年 6 月,前美国国家安全局承包商雇员爱德华·斯诺登在香港的一家酒店里,向《卫报》和《华盛顿邮报》的记者展示了一批绝密文件。随后数年,围绕监控、隐私和数字权力的争论席卷全球。但在这场风暴的底层,藏着一个被大多数人忽略的物理事实,一个纯粹的技术参数——存储容量

斯诺登

据斯诺登披露的文件,NSA 犹他数据中心的存储容量估计在 3 到 12 艾字节之间。注意这个词:艾字节。(注:NSA 从未正式公布设计容量。媒体报道的估算范围从若干 EB 到 YB 级别均有,Forbes 基于泄露蓝图的工程推算约为 3-12 EB;此处取主流保守估算。

这是绝大多数人第一次在新闻标题里看见它。在此之前,“艾字节”最多出现在某些计算机科学论文的脚注里。在此之后,它变成了一个隐喻——一种足以吞下整个互联网记忆的巨兽的量词。

Exabyte,中文 艾字节,或者你不太可能在任何消费产品包装盒上见过的写法——1 EB

1 EB = 1024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 字节。大约 115 亿亿字节,或者说一百一十五万太字节。这个数字已经大到人类大脑无法凭直觉去感受了,需要动用比喻和数学来把它拆开。

但在所有关于 EB 的拆解开始之前,有一个问题更值得我们停下来想一想:当人类第一次需要用一个叫“艾字节”的词去描述存储时,这条文明的小船,已经悄悄划过了一道什么样的分水岭?


一、Exa- 这个词:从希腊到硅谷

在希腊语里,hexa 是“六”的意思——但 hexa 已经被占据为“十六进制”的词根了,没法再用。于是更生僻的希腊词 hexakosioi(意为“六百”)被拿出来,从中抽出 ex- 这个前缀,强行赋予了它 10^18 的含义。1975 年,国际计量大会(CGPM)正式批准 exa- 作为国际单位制前缀,表示 10^18。注意,这是十进制版本的——它甚至不是为计算机而生的。

计算机世界接过这个前缀之后,按照自己一贯的“1024 才是 1000”的逻辑,把 1 EB 定义为 2^60 字节,即 1,152,921,504,606,846,976 字节——比十进制的 1 EB 多了大约 15%。没错,又是那个我们早在 KB 篇就讲过的度量衡老账,到了 EB 这个量级,这笔糊涂账的绝对差额大到离谱:十进制和二进制之间的 EB 差了大约 1.5 亿 GB。一亿五千万个 GB,足够把 Windows 95 安装 300 万次所差的容量,在计算口径的一念之间就出现了。

Exa- 这个词根真正嵌入计算机行业的日常词汇表,始于 1990 年代末到 2000 年代初。彼时互联网正在经历第一次爆炸式增长,超级计算机的吞吐能力爬到了 TB 级,而思科(Cisco)这样的网络设备厂商开始大量发布关于“全球 IP 流量”的预测白皮书。这些白皮书里出现了一个在当时看起来近乎科幻的预测:到某个时间节点,全球互联网的年数据流量将突破 1 EB。

1 EB 的数据流量。不是存储,是流动——一年之内,全人类在互联网上产生和消耗的数据总量,跨过了这条线。思科在 2008 年前后的《视觉网络指数》(VNI)报告中,正式宣告了这一预测。事实上,据该系列报告的数据追溯,全球 IP 流量在 2001 年突破 1 EB/年大关,到 2007 年左右月均流量突破了 1 EB。(注:思科 VNI 白皮书在 2000 年代末首次广泛进入大众视野,而其数据回溯将 1 EB 年流量的临界点锚定在 2001 年前后

这意味着什么?意味着在乔布斯掏出第一代 iPod 的同一年——在他把“一千首歌装进你的口袋”的同一年——整个互联网一年的数据流量,已经跨过了 1 EB。GB 和 EB 在同一个历史时刻共存于世界的两端:这是信息尺度最迷人的折叠瞬间。


二、互联网的脊椎:1 EB 的流动比 1 EB 的静止更早到来

在 PB 篇里我们说过,存储从 PB 开始变成了一种像呼吸一样的公用设施。但 EB 时代带来的是一个更深层的变化:在 PB 时代,你先存数据,再考虑怎么用它。在 EB 时代,数据还没存稳,就已经被用掉了。 流动比静止更重要。

我们来看几个可见的证据。

谷歌的爬虫与索引。 谷歌在 2008 年的一篇官方博文中透露,其系统检测到的独立 URL 数量已突破 1 万亿。即使每个页面的平均索引大小只有几十 KB,整个网页索引的规模也已经稳稳进入了 EB 俱乐部的门槛。而这个索引不是“存着不动”的——它需要持续更新、重组、压缩、分发到全球各地的边缘节点。每一次你搜索“天气”,命中的不只是某一个机房里的一块硬盘,而是分布在全球几十个数据中心里、不断被重新计算和排序的一整套 EB 级索引碎片。

Netflix 的视频编码矩阵。 2007 年,Netflix 从 DVD 邮寄业务转型为流媒体服务。到 2010 年代,Netflix 的全球订阅用户突破 1 亿,每人每天观看数小时的高清视频。为了适应从 50 英寸电视到 5 英寸手机屏幕的所有观看场景,Netflix 会对同一部影片生成数百个不同分辨率、码率、编码格式的版本,并将它们分发到全球上千个 CDN 节点。整条管道里的总副本量,是一个 EB 级的数字。你按下的每一次播放键,背后都是几个 EB 的数据在为你冲刷出一个最流畅的观影体验。

科学计算的“一次实验,一辈子看不完”。 我们之前提到了 CERN 的 LHC——大型强子对撞机每年产生超过 30 PB 的原始碰撞数据。但这只是冰山一角。LHC 的四个大型探测器(ATLAS、CMS、ALICE、LHCb)在实验阶段的总数据产出量,加上模拟重建数据、分析派生数据,整个生命周期累计的数据规模早已迈过 1 EB 的门槛,具体数字取决于你如何划分原始数据与派生数据的边界。2012 年发现希格斯玻色子的那个信号,就藏在数十 PB 的背景噪声里。1 EB 是物理学家们淘金的那条数据之河——而金子只有其中一撮。

社交网络的“沉默的大多数”。 你在 Instagram 上发一张照片,它会被自动转码成多种分辨率,复制到多个地理区域的服务器上,塞进自动内容审核的队列里,生成多种视觉特征的索引,最后才出现在你朋友的 feed 流里。你只发了一次,但后台大概存了 6 到 8 份。当全球每天上传数十亿张图片和视频时,整个 Instagram 的存储架构管理着一个 EB 级的持续膨胀的数据池——而你只看得见其中你自己的那个小小剖面。


三、TSMC 与 ASML:EB 时代的看门人

讲到这里,我们还没正面回答一个问题:用什么硬件来承载 EB?

在 PB 篇,我们还能津津乐道地比较 IBM 3380 的 250 公斤和 M.2 SSD 的口香糖大小。在 TB 篇,我们还能说“一块 20 TB 的硬盘塞进 1U 服务器,五台机器拼出一个 PB”。但到了 EB 这个量级,单纯的“硬盘数量”不再有意义。真正决定一个 EB 能否被经济地存储和访问的,是 半导体工艺的制程节点光刻技术的极限精度

这就是 EB 时代最容易被忽略、却最根本的硬约束:你的全部数据,不论存在哪个云厂商的哪个数据中心里,最终都刻在一张张晶圆上。而晶圆,是用光刻机一根一根线地“画”出来的。

晶圆

TSMC(台积电) 是目前全球最先进的芯片代工厂。它生产的高密度 NAND 闪存控制器、服务器 CPU 和 AI 加速器,是每一座 EB 级数据中心的物理底座。而 TSMC 的产线里站着 ASML——荷兰一家近乎垄断极紫外(EUV)光刻技术的公司,一台 EUV 光刻机售价超过 1.5 亿美元,需要 40 个集装箱才能运输,安装调试耗时数月。每一片先进制程的晶圆,都必须经过 ASML 的光刻机。

TSMC

ASML

这意味着一个看似遥远、实则极其直接的因果链:ASML 产出的光刻机数量,约束着 TSMC 的先进制程产能;TSMC 的产能量,约束着全球高密度 3D NAND 闪存和服务器芯片的出货量;而这些芯片的出货量,又约束着云厂商能以多快的速度、多低的成本扩张 EB 级存储阵列。2023 年到 2024 年间全球围绕 AI 算力爆发的产能争夺,其实就是这条因果链在真实商业世界的一次公开发作。

EB 的存亡,不是被硬盘决定的,而是被光刻机决定。这是信息尺度膨胀到一定数量级之后,物质世界反过来施加的最冷酷的物理制约。


四、比特衰变在 EB 尺度上的终极形态:存档艺术的危机

在 PB 篇我们聊过“比特衰变”——存储介质里的电荷缓慢泄漏,磁畴取向逐渐漂移,导致数据在无人察觉的情况下静默损坏。在 PB 尺度上,这是一个概率问题。在 EB 尺度上,它是一个不容商量的物理定律。

一个 EB 系统中大约有 2^60 个比特。即便每个比特每年出现错误的概率低到 10^-18,一个 EB 的系统每年也会发生大约一次不可检测的比特翻转。而实际的错误率远远高于这个数字——普通消费级内存的软错误率在 10^-12 到 10^-15 每比特每小时的数量级,企业级硬件虽然低几个数量级,但在 EB 尺度下依然杯水车薪。

这就是为什么所有 EB 级系统都必须采用端到端的数据完整性校验——从磁盘扇区的 ECC,到文件系统的校验和,到网络传输的 CRC,到应用层的副本比对。每一层都在和比特衰变搏斗。你的数据能在云盘里安然无恙地躺十年,不是因为硬盘不会坏,而是因为有一整套算法体系在持续不断地自查、修复和迁移副本。存储,在 EB 尺度上,不再是一个硬件问题,而是一个数学问题。

但比比特衰变更隐蔽的威胁是 人类知识格式的断代。你在 1990 年代用 WordPerfect 写的文档,今天大概率已经打不开了。你在 2000 年代刻录的 CD-R,镀层可能已经开始氧化剥落。一个 EB 的存储系统每时每刻都在刷新自己的硬件——硬盘换成 SSD 再换成下一代持久内存,接口从 SATA 变成 SAS 变成 NVMe 变成未来的 CXL。每一次硬件代际更迭,都意味着数据必须被迁移。而这个迁移过程本身,就是一次大规模复制,带着引入新错误的可能性。

云厂商解决这个问题的方式是“永远在迁移”——数据从老旧硬件向新硬件持续流动,从不给任何一个平台安静老去的时间窗口。这听起来像是永生的技术承诺,但它也带来一个令人不安的哲学问题:如果一个数据被持续重建了五十年,经历了三代文件系统和两种编码标准的变迁,它还是原来那个数据吗?你还能肯定地说,这份从祖父硬盘里抢救出来的数码档案,和五十年前存档人保存进去的那一张唯一的底本是同一个文件吗?

这不是杞人忧天。CERN 在管理 LHC 数据时就遇到了这个问题:早期的实验数据存进了某种磁带格式,十几年后,能读取这种格式的驱动器和软件环境已经不存在了。他们需要专门维护一套“格式遗产系统”,用来持续把旧数据转换成新格式——永无止境。


五、1 EB 能装什么

让我们来做最后一次换算。以下换算主要采用二进制前缀(1 EB = 1024 PB),但由于 EB 实在太大,微小误差不影响直觉感受:

  • 约 2.5 亿部高清电影(每部 4 GB)——假设你从公元前 3000 年埃及第一王朝建立开始每天看一部电影,到今天还没看完一个零头。
  • 约 3000 亿首 MP3 歌曲——地球总人口 80 亿,每人分 37 首,还剩一大堆。
  • 整个人类有史以来说过的所有话——据语言学家估算,所有人类在所有时代说出的话语,如果全部转换成纯文本,大约在 1 到 5 EB 之间。也就是说,1 EB 大约等于全人类历史上所有口头语言的文字记录的五分之一到等身。这个数字小得让人吃惊——我们说了几十万年的话,总量不过几个 EB。而今天全球互联网一年的 IP 流量已经超过 5000 EB。
  • 整个人类有史以来说过的所有话——按语言学文献中的中位估算,每人每天约说 16,000 词,平均词长 5 字符,70 年寿命,一生约产生 2 GB 纯文本原始数据。以历史总人口约 1,000 亿人(绝大多数未活到成年)、去重压缩 10 倍计,所有人类在所有时代说出的话语,全部转换成纯文本存储,粗略估计为 50 EB。这个数字小得让人吃惊——我们说了几十万年的活话,总量不过几十个 EB。而今天全球互联网一年的 IP 流量已经超过 5,000 EB。
  • 谷歌在 2010 年代中后期管理的索引与网页库规模——虽然谷歌从不公布精确数字,但多方分析师估算其原始网页库与索引的总和早已进入 EB 俱乐部,且正在向更高量级迈进。
  • 全人类基因组数据的总量——假设为 80 亿人做全基因组测序,每人原始数据约 150 GB(haploid),总数据量约为 1200 EB。1 EB 大概能装下全球千分之一人口的全基因组数据。

而承载这些数据的物理载体——在 2026 年的今天,一块 30 TB 的企业级硬盘重量约为 690 克。要达到 1 EB 的原始容量,大约需要 36,000 块这样的硬盘,总重量约 25 吨。加上服务器机箱、电源、网络设备和制冷系统,一整套 1 EB 存储集群大概需要一个中等规模的数据中心大厅来容纳,耗电量足够一个万人小镇的所有生活用电。


六、1 EB 的公共面孔:你已经是它的原住民

和 PB 一样,EB 也没有完全把自己关在数据中心里。它有几个你在日常生活中反复接触、却从没和“艾字节”这个拗口词联系起来的公共面孔。

短视频平台。 TikTok 和抖音的全球日活用户超过 15 亿,每天产生的视频数据量在 PB 级,月度数据量轻松突破 EB。你在地铁上划过的每一个 15 秒视频,都经过编码、分发、缓存、推荐算法的无数次读写——整个系统围绕一个 EB 级的动态内容池在运转。你每天刷 2 小时,就是在 2 小时的物理时间里,以大约 10 到 30 Mbps 的速度穿过自己那根细管,贪婪地在这个 EB 大池里切下属于你一个人的一道薄片。

大语言模型。 GPT-4 和类似规模的大模型在训练阶段需要处理数十 TB 到 PB 级的高质量文本语料,而整个互联网级原始语料的总规模——包括 Common Crawl 的全部网页爬取结果——在 2020 年代已达数十 PB 级别,单次月爬取约 344-363 TiB。这些语料在被清洗、去重、分词之前,以原始形态存储在 PB 甚至 EB 级的分布式文件系统上。你每次和 ChatGPT 聊天,背后是一套从 EB 级语料库中被蒸馏出来的权重,在你打出每一个字的时候沉默地运算。

自动驾驶。 一辆 L4 级自动驾驶测试车每天产生的传感器数据——激光雷达、摄像头、毫米波雷达、高精度 GPS——在 4 到 20 TB 之间。以 Waymo 测试车为例,每小时产生约 1,100 GB 数据,按一天运行 24 小时计算约 26 TB。一个拥有 100 辆测试车的车队,每月产生的数据量超过 30 PB。而自动驾驶公司需要将这些数据全部回传、标注、清洗并用于模型训练。行业头部玩家的累计数据量已经摸到了 EB 的门槛。硅谷的路口和北京的高架桥,正在以艾字节的精度被数字化重造。


七、EB 的告别:始于犹他,不止于犹他

让我们回到 2013 年的香港,回到斯诺登和记者们待过的那间酒店房间。

为什么是犹他州?为什么 NSA 要在一片沙漠里建造一个艾字节级别的数据中心?官方的解释是:为了支撑情报分析。但更深层的逻辑,EB 这个单位自己的物理属性,已经替他们回答过了。

EB 需要荒凉。EB 需要廉价的电力、稳定的地质、远离飓风和地震带的土地。EB 不能生活在人类旁边——它太热、太吵、太耗电。于是它被发配到沙漠、北极圈、海底和废弃的矿山里。在 PB 时代,数据中心还像一座仓库。在 EB 时代,数据中心更像是这个文明偷偷埋在地下的维生装置——它不体面,不显眼,但断了电整个数字世界就会窒息。

如果整个信息尺度是一个正在不断扩张的文明——从 1 bit 的烽火台到 1 PB 的都市,那么 1 EB 就是这个文明建造的第一座“大陆级工程”。它不再是某个公司或某个国家的财产,它是人类这个物种作为整体产出的信息废气的总汇集。

而从 1 EB 再跨出下一步,就不再是“更大”,而是“另一种东西”。在那里,1 EB 只不过是一块即将被吞没的垫脚石。人类给这个下一级取了一个名字,它本身就是一整个海洋。

下一个单位:1 ZB。在那个尺度上,我们不再谈论地球上的数据,而是开始谈论全人类作为一个文明所拥有的全部数字储备。欢迎来到信息世界的半球尺度。