微软(Microsoft)旗 AI研究实验室宣布推出三款全新基础AI模型,主打生成文字、语音及图像。此举不仅展现了微软在多模态(Multimodal)AI领域的野心,亦意味着微软即使与OpenAI保持密切合作,仍积极自行开发模型,与这间获其重金投资的盟友展开正面交锋。
根据官方简介,新推出的“MAI”系列模型的功能各具特色,分别是语音辨识模型MAI-Transcribe-1、语音生成引擎MAI-Voice-1,以及图像生成模型MAI-Image-2。
MAI-Transcribe-1能够将25种不同语言的语音转录为文本,速度是微软Azure Fast服务的2.5倍,收费每小时0.36美元起;MAI-Voice-1可以在一秒内生成 60 秒的音频,并允许用户创建自定义语音,收费由每100万个词元(Tokens)22美元起。
至于“MAI-Image-2”早于今年3月19日已在MAI Playground率先亮相。其文字输入收费为每100万个词元5美元起,图像输出则为每100万个词元33美元。
目前三款模型已全数上架至Microsoft Foundry平台,而转录及语音模型亦同步于MAI Playground开放使用。
主打“以人为本” 冀以价格战突围
这些模型由微软AI部门行政总裁苏莱曼(Mustafa Suleyman)领导的“MAI超级智能团队”(MAI Superintelligence team)操刀,该团队于2025年11月正式成立。Suleyman 在官方网志中强调:“我们正致力构建‘以人为本’的 AI,核心理念是将人类放在首位,针对实际应用场景进行训练,从而改善人们日常真实的交流方式。”
面对竞争激烈的大型语言模型(LLM)市场,微软期望透过更进取的定价策略,成为比Google及OpenA等巨头更具竞争力的卖点。苏莱曼亦预告,未来将有更多模型直接登陆Foundry及微软旗下产品。
尽管积极推出自家模型,苏莱曼接受科技媒体《VentureBeat》访问时重申,微软依然重视与OpenAI的合作伙伴关系。事实上,微软早前已向该AI实验室投资逾130亿美元,并透过多年合作将其模型整合至多款核心产品中。不过,双方近期的重新谈判,的确为微软扫清了障碍,让其能真正放手追求自家的超级智能(Superintelligence)研究。
编辑︱胡影雅












