2025年04月11 星期五 14:57:02

Meta深夜开源发布Llama 4,采MoE架构,最大模型超越GPT-4.5

发布时间:2025-04-06 10:23

早前一度有外媒传出可能推迟发布的Meta(META)语言模型Llama 4,突于周六深夜发布,全系列采用混合专家(MoE)架构,并且是原生多模态训练,不再是Llama 3般的纯文字模型。Meta GenAI负责人Ahmad Al-Dahle表示,Llama 4展示了Meta对开源AI、整个开源AI社区的长期承诺及坚定不移的信念,即开放系统将产出最好的小型、中型和即将出现的前沿大模型。

Meta

Llama 4 Scout速度极快

综合媒体报道,Meta今次发布了Llama 4 Scout和Llama 4 Maverick,以及最强大的Llama 4 Behemoth预览。其中Llama 4 Scout定位为性能最强的小尺寸模型,拥有170亿激活参数和16个专家的模型,卖点为速度极快,原生支援多模态,拥有业界领先的1,000万+Token多模态上下文视窗,相当于处理20多个小时影片,并且能在单张H100 GPU上运行。

Llama 4 Maverick更胜DeepSeek

Llama 4 Maverick定位为同级中最佳的多模态模型,拥有128位专家、170 亿个激活参数模型,并在多个主流基准测试中击败了GPT-4o和Gemini 2.0 Flash,推理和编码能力与新发布DeepSeek v3相当,但激活参数量不到后者一半,并可以在单一主机上执行。

Llama 4 Behemoth定位最强模型

至于预览的Llama 4 Behemoth,定位为Meta至今最强模型及全球顶级LLM 之一,其效能在多个STEM 基准上优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,使用FP8 精准度,在32,000块GPU上训练了30万亿多模态Token,为Maverick模型进行程式码蒸馏时的教师模型。

热门文章