全球领先的加密货币交易平台

安全、快速、便捷的加密货币交易服务,支持超过1000种数字资产的现货和衍生品交易。

24h 交易量
$8.5B
用户
15M+
币种
1000+

火爆华尔街的报告:比特币与英伟达暴跌背后原因

一些世界上规模最大、利润最高的公司,如微软、苹果、亚马逊、Meta、谷歌、甲骨文等,都决定不惜一切代价保持在这一领域的竞争力,因为它们根本承担不起落后于人的后果。资本支出金额、用电量、新建数据中心的面积,当然还有GPU的数量,都出现了爆炸式增长,而且似乎没有放缓的迹象。英伟达能够凭借面向数据中心的高端产品赚取高达90%以上的惊人毛利率。

我们只是触及了牛市的表面。现在还有更多方面,即使原本已经非常乐观的人也会变得更加乐观。除了类人机器人的崛起(我怀疑当它们能够迅速完成大量目前需要非熟练(甚至熟练)工人完成的任务时,大多数人会感到惊讶,例如洗衣、清洁、整理和烹饪;在工人团队中完成装修浴室或建造房屋等建筑工作;管理仓库和驾驶叉车等),还有其他大多数人甚至还没有考虑过的其他因素。

聪明人谈论的一个主要话题是「新扩展定律」的兴起,它为人们思考计算需求将如何随时间推移而增长提供了新的范式。自2012年AlexNet出现和2017年Transformer架构发明以来,推动人工智能进步的原始扩展定律是预训练扩展定律:我们用作训练数据的token价值越高(现在达到数万亿),我们训练的模型的参数数量越多,我们用这些token训练这些模型所消耗的计算能力(FLOPS)越高, 在各种各样非常有用的下游任务中,最终模型的性能会越好。

不仅如此,这种改进在一定程度上是可以预知的,以至于像OpenAI和Anthropic这样的领先人工智能实验室甚至可以在开始实际训练之前就非常清楚地知道他们最新的模型会有多好——在某些情况下,他们甚至能够预测最终模型的基准值,误差不超过几个百分点。这种「原始扩展定律」非常重要,但总是让那些用它来预测未来的人心存疑虑。

首先,我们似乎已经用尽了世界上积累的高质量训练数据集。当然,这并非完全正确——仍然有许多旧书和期刊尚未被正确数字化,即使被数字化了,也没有获得作为训练数据的适当许可。问题是,即使你把所有这些东西都归功于你——比如说从1500年到2000年「专业」制作的英语书面内容的总和,当你谈论一个近15万亿标记的训练语料库时,从百分比的角度来看,这并不是一个巨大的数量,而训练语料库的规模是当前前沿模型的规模。

为了快速检查这些数字的真实性:到目前为止,谷歌图书已经数字化了大约4000万本书;如果一本普通书有5万到10万字,或6.5万到13万个标记,那么光是书就占了2.6T到5.2T的标记,当然其中很大一部分已经包含在大型实验室使用的训练语料库中,无论严格意义上是否合法。还有很多学术论文,仅arXiv网站就有超过200万篇论文。美国国会图书馆有超过30亿页的数字化报纸。加起来,总数可能高达7T token,但由于其中大部分实际上包含在训练语料库中,因此剩余的「增量」训练数据在整体计划中可能并不那么重要。

当然,还有其他方法可以收集更多的训练数据。例如,你可以自动转录每一个YouTube视频,并使用这些文本。虽然这可能会有所帮助,但它的质量肯定比一本备受推崇的有机化学教科书低得多,而后者是了解世界的有用知识来源。因此,在原始规模定律方面,我们一直面临着「数据墙」的威胁;尽管我们知道可以不断向GPU投入更多的资本支出,建立更多的数据中心,但大规模生产有用的新人类知识却要困难得多,这些知识是对已有知识的正确补充。现在,一个有趣的应对方法是「合成数据」的兴起,即文本本身就是LLM的输出。虽然这似乎有点荒谬,但「通过自己的供应来提高模型质量」确实在实践中非常有效,至少在数学、逻辑和计算机编程领域是如此。

当然,原因在于这些领域我们可以机械地检查和证明事物的正确性。因此,我们可以从庞大的数学定理或Python脚本中取样,然后实际检查它们是否正确,只有正确的数据才会被纳入我们的数据库。通过这种方式,我们可以极大地扩展高质量训练数据的集合,至少在这些领域是如此。

除了文本,我们还可以用其他各种数据来训练人工智能。例如,如果我们把1亿人的整个基因组测序数据(一个人未压缩的数据量约为200GB至300GB)都拿来训练人工智能,会怎么样?这显然是一个很大的数据量,尽管其中绝大部分数据在两个人之间几乎完全相同。当然,由于各种原因,与书籍和互联网上的文本数据进行比较可能会产生误导:

原始基因组大小不能与标记数量直接比较

基因组数据的信息含量与文本有很大不同

高度冗余数据的训练价值尚不明确

处理基因组数据的计算要求也不同

但它仍然是另一个巨大的信息来源,我们可以在未来对它进行训练,这也是我将其纳入的原因。

因此,虽然我们有望获得越来越多的额外训练数据,但如果你看看近年来训练语料库的增长速度,就会发现我们很快就会在「普遍有用的」知识数据可用性方面遇到瓶颈,而这类知识可以帮助我们更接近最终目标,即获得比约翰·冯·诺伊曼聪明10倍的人工超级智能,成为人类已知每个专业领域的世界级专家人类。

除了可用数据有限之外,预训练扩展定律的支持者心中一直潜藏着其他一些担忧。其中之一就是,在完成模型训练后,如何处理所有这些计算基础设施?训练下一个模型?当然,你可以这样做,但考虑到GPU速度和容量的快速提升,以及电力和其他运营成本在经济计算中的重要性,使用2年前的集群来训练新的模型真的有意义吗?当然,你更愿意使用你刚刚建造的全新的数据中心,它的成本是旧数据中心的10倍,而且由于技术更先进,性能是旧数据中心的20倍。问题是,在某些时候,你确实需要摊销这些投资的前期成本,并通过(希望是正的)运营利润流来收回成本,对吗?

市场对于人工智能如此兴奋,以至于忽略了这一点,让OpenAI这样的公司从一开始就不断累积运营亏损,同时却在后续投资中获得了越来越高的估值(当然,值得称赞的是,它们也展示了非常快速增长的收入)。但最终,要想在整个市场周期内维持这种状况,这些数据中心的成本最终需要收回,最好还能有利润,这样经过一段时间后,它们在风险调整的基础上就能与其他投资机会相抗衡。

加密货币知识学院

从新手到专家,我们提供全面的加密货币知识和交易策略,帮助你在加密世界中不断成长。