中国AI初创企业DeepSeek宣布推出全新开源AI旗舰模型“V4 Flash”及“V4 Pro”系列,宣称在编程基准测试表现出色并支援百万级上下文窗口。受消息带动,市场憧憬国产芯片需求增加,刺激半导体股份周五造好,中芯国际曾飙逾11%。
支援百万级上下文窗口
DeepSeek自推出R1模型后,相隔一年再推新模型,V4系列采用“混合注意力架构”(Hybrid Attention Architecture),支援高达100万个Token的上下文窗口,意味着用户可将整个代码库或长篇文件作为单一提示词输入。另外,DeepSeek表示,该模型在编程基准测试中表现顶级,并在推理和智能体任务方面取得重大进展。
资料显示,该模型采用“专家混合”(MoE)技术,每项任务最多激活370亿个参数,令推理成本远低于同类前沿模型。惟公司强调,虽然V4性能较最顶尖模型仍落后约3至6个月,但其设计初衷是能够部署于较廉价的基础设施上,从根本上降低成本。
下半年引华为芯片降成本
DeepSeek在微信发文表示,受算力紧张影响,V4 Pro系列的服务容量极度有限。不过,公司预期今年下半年华为的升腾950芯片计算集群投入运作后,模型定价将大幅下降。
受消息影响,市场憧憬新模型将带动国产芯片需求,香港半导体股份周五造好。中芯国际股价曾飙升达11.7%,华虹半导体更急升逾19.4%。相较之下,竞争对手智谱相关股份则最多挫12.8%。
以上内容归星岛新闻集团所有,未经许可不得擅自转载引用。
编辑︱杨舟











