2025年02月24 星期一 00:10:40

DeepSeek R1中美下载榜登顶,如何颠覆AI格局,Nvidia夜盘急挫5%

发布时间:2025-01-27 15:37

国产AI黑马DeepSeek(深度求索,Deep Seek)自1月20日正式发布大模型DeepSeek R1后,因其在数学、编程和推理等关键领域与OpenAI的最强模型性能相当,而且API调用成本低90%至95%,震惊市场。该应用程序更在苹果中国和美国地区App Store免费下载榜中登顶,其中在美国地区下载榜上更超越ChatGPT。

DeepSeek R1中美下载榜登顶

DeepSeek对股市有何影响?

Saas概念股向上 英伟达急跌

在憧憬AI应用普及下,有关消息刺激多只在港上市Saas概念股向上,其中医渡科技(2158)曾升逾6%、汇量科技(1860)及微盟(2013)亦曾分别升6%及5.4%。芯片股亦见受压,中芯(981)曾跌3%;华虹半导体(1347)曾跌逾3%;晶门半导体(2878)更曾跌6%。此外,AI芯片龙头英伟达(Nvidia,NVDA)亦因此利淡,在部份券商平台美股夜盘急跌逾5%至135.15美元。

AI行业专家如何评价DeepSeek R1?

综合媒体报道,DeepSeek R1的惊艳表现引来多位AI行业专家和从业者盛赞。百度(9888)前首席科学家吴恩达在冬季达沃斯论坛上表示,对DeepSeek的进展印象深刻,并认爲他们能够以非常经济的方式训练模型。

微软CEO吁认真对待中国

微软行政总裁Satya Nadella也公开表示,DeepSeek切实有效地开发了一款开源模型,在推理计算方面表现出色,而且超级计算效率极高;他更强调,「我们必须非常、非常认真地对待中国的这些进展」。

AI竞争格局有何改变?

DeepSeek的成功更获外媒形容为「标志着中国在人工智能领域日益强大的自主创新能力」。英国《金融时报》文章指出,DeepSeek并非个例,自去年中开始,阿里巴巴(9988)、 腾讯(700) 、字节跳动等中国科企持续缩小与美国同行差距,除了在能力方面逐渐趋近,更在成本效益上实现超越,而且这种增长效率并非偶然。

开源模型赶上闭源模型

至于DeepSeek的另一热议焦点,是在于开源模型赶上闭源模型,可能改变竞争格局。事实上,OpenAI的闭源是其主导AI行业格局的一大特征。不过,Meta首席AI科学家Yann LeCun表示,DeepSeek得益于开放生态,其创新基于前人成果的持续迭代,显示了开源模型正在超越闭源系统。华尔街顶级风投A16z创始人Marc Andreessen更称,DeepSeek-R1是其见过最令人惊叹、最令人印象深刻的突破之一,并且是「开源」、是「给世界的礼物」。

值得留意的是,Tesla行政总裁马斯克曾对OpenAI的闭源提起诉讼。在去年2月29日,马斯克向旧金山高等法院控告OpenAI背离公共开源AGI的承诺,提出违约、违反受托责任和不公平商业行为等指控,要求法院命令OpenAI恢复开源状态,阻止OpenAI及其总裁、CEO,以及微软从AGI技术中获利,并对OpenAI使用捐款进行清查。不过,马斯克的努力尚未使OpenAI开源,但DeepSeek正以开源姿态赢得更多认可。

DeepSeek创办人是谁?何时成立及崛起?

DeepSeek创办人为梁文锋,1985年出生于广东省湛江市,今年约40岁,浙江大学毕业,拥有信息与电子工程学系学士和硕士学位。他早于2008年起开始带领团队使用机器学习等技术探索全自动量化交易,到2015年正式成立幻方量化,2019年资金管理规模更突破百亿元。

直到2023年,梁文锋宣布进军通用人工智能领域,专注于做真正人类等级的人工智能;同年幻方量化正式宣布成立大模型公司DeepSeek。

在2023年11月2日,公司已推出首个模型DeepSeek Coder,该模型免费供商业使用且完全开源;11月29日推出DeepSeek LLM,参数规模达67B,性能接近GPT-4,同时还发布了聊天版本DeepSeek Chat。

DeepSeek被称为「价格屠夫」及「AI界拼多多」

真正让Deepseek在AI界受关注,是其在去年5月开源的第二代MoE大模型DeepSeek-V2,该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一,因此被称为「价格屠夫」及「AI界的拼多多」。随后在2024年下半年,还先后发布了DeepSeek R1-lite-preview和DeepSeek-V3。

直到今年推出R1模型,在MATH基准测试上达77.5%准确率,与OpenAI的o1不相上下;在编程领域,R1在Codeforces评测中达2441分水平,高于96.3%的人类参与者。更重要的是,这是在不到600万美元的投入和2048块低性能的H800芯片的条件下完成,训练时间仅用两个月,令全球侧目。

DeepSeek VS ChatGPT

若将DeepSeek与ChatGPT性能作比较,DeepSeek在MATH 500、AIME 2024和Codeforces等数学和编程测试中,表现优于ChatGPT和其他主流模型。在多任务理解和复杂问题处理方面,两者表现相当,虽然DeepSeek在部分测试中略低于Claude,但整体上仍优于大多数模型。

上下文理解能力较弱

不过,ChatGPT在响应速度和文字生成方面较佳,其首次响应时间通常在1秒以内,DeepSeek则需要1.1秒左右,同时ChatGPT每秒可生成100个TOKEN,DeepSeek则为87.5个TOKEN。此外,DeepSeek一个较明显弱点是上下文理解能力较弱,只能记住13万个TOKEN的上下文,而ChatGPT和Claude则能记住200万个TOKEN。

 以上内容归星岛新闻集团所有,未经许可不得擅自转载引用。