Meta深夜开源发布Llama 4，采MoE架构，最大模型超越GPT-4.5

发布时间：2025-04-06 10:23

早前一度有外媒传出可能推迟发布的Meta（META）语言模型Llama 4，突于周六深夜发布，全系列采用混合专家（MoE）架构，并且是原生多模态训练，不再是Llama 3般的纯文字模型。Meta GenAI负责人Ahmad Al-Dahle表示，Llama 4展示了Meta对开源AI、整个开源AI社区的长期承诺及坚定不移的信念，即开放系统将产出最好的小型、中型和即将出现的前沿大模型。

Llama 4 Scout速度极快

综合媒体报道，Meta今次发布了Llama 4 Scout和Llama 4 Maverick，以及最强大的Llama 4 Behemoth预览。其中Llama 4 Scout定位为性能最强的小尺寸模型，拥有170亿激活参数和16个专家的模型，卖点为速度极快，原生支援多模态，拥有业界领先的1,000万+Token多模态上下文视窗，相当于处理20多个小时影片，并且能在单张H100 GPU上运行。

Llama 4 Maverick更胜DeepSeek

Llama 4 Maverick定位为同级中最佳的多模态模型，拥有128位专家、170 亿个激活参数模型，并在多个主流基准测试中击败了GPT-4o和Gemini 2.0 Flash，推理和编码能力与新发布DeepSeek v3相当，但激活参数量不到后者一半，并可以在单一主机上执行。

Llama 4 Behemoth定位最强模型

至于预览的Llama 4 Behemoth，定位为Meta至今最强模型及全球顶级LLM 之一，其效能在多个STEM 基准上优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro，使用FP8 精准度，在32,000块GPU上训练了30万亿多模态Token，为Maverick模型进行程式码蒸馏时的教师模型。

热门文章

关税引发抢购潮，美国人疯狂囤中国商品，国产电视被沽清曝与米歇尔婚姻实况，奥巴马惊人坦白说缅甸7.9级地震，已致3354死220人失踪，中国第三批救灾物资抵达美国关税︱中国学者：特朗普没做好应对华强势回应的准备中国六家商会齐发声！坚决反对美加征“对等关税” “末日博士”鲁比尼称特朗普若有理性，最终将让步及减半税率俄军再轰炸泽连斯基家乡，住宅区毗邻游乐场酿18死61伤 CBA名帅刘维伟遭爆偷吃人妻，带小三出席球队活动还恐吓妻女新华网“牛弹琴”揭中国强硬反击美方，释出3个清晰讯号2个细节中国对美精准重击，台前大使介文汲曝1事：美若不倒，也会倒退30尺

专题更多 >