真人书写内容预测数年后告罄，耗尽受训“金矿”AI发展将遇瓶颈

首页>美国>社会

2024-06-07 16:11

像ChatGPT这样的人工智能（AI）系统很快可能会用尽使它们变得更智能的东西：人们在线写作和分享的数以万万亿计文字。

“Epoch AI”研究小组6日发表的新研究预测，科技公司将在2026年至2032年之间，耗尽用于AI语言模型的公开可用训练数据。

▲研究发现AI系统很快可能用尽人类文本数据，图为爱荷华州一个微软数据中心。美联社

研究作者贝斯洛古（Tamay Besiroglu）表示，AI领域一旦消耗完真人书写内容，要维持当前发展速度，恐怕会遇上挑战。

短期内，像ChatGPT的开发者OpenAI和谷歌等科技公司正争相确保并有时付费取得高质量数据来源，以训练AI大语言模型，例如通过签署协议以获取Reddit论坛和新闻媒体的文字内容。

较长期而言，将无法有足够的新博客、新闻文章和社交媒体评论来维持人工智能发展的当前轨迹，这将迫使公司佔用现在被认为是私人的敏感数据，比如电子邮件或短信，或依赖不太可靠的由聊天机器人自己产生的“合成数据”。贝斯洛古指出“这里存在着严重的瓶颈。”

最新研究经过同行评审，今夏将在维也纳国际机器学习大会上发表。Epoch是由总部位于旧金山的“Rethink Priorities”主办的非营利机构。

贝斯洛古表示，AI研究人员在十多年前意识到，积极扩展两个关键因素——计算能力和广泛的互联网数据——可以显著提高人工智能系统的性能。根据Epoch的研究，输入AI语言模型的文本数据每年增加约2.5倍，而计算每年增加约4倍。

多伦多大学电脑工程助理教授兼非营利机构人工智能研究所研究员Nicolas Papernot说：“重要的是要记住，我们不一定需要训练更大更大的模型。”他没有参与Epoch的研究。他说，训练更专门从事特定任务的模型，也可以建立更熟练的AI系统。

但他担忧以AI生成结果来训练生成式AI系统，认为会导致“模型崩溃”，性能下降。他形容，在AI生成的数据上进行训练“就像复印一张纸，然后再复印这份复印件一样，会遗失一些信息”

热门文章