首页 > 科技 > 正文

小米集团-W(01810.HK):开源首个原生端到端语音模型

2025年9月19日,小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练观察到明显的“涌现”行为。 市场公......

2025年9月19日,小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练观察到明显的“涌现”行为。

市场公开信息显示,在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。

新时空声明: 未经授权,不得复制、转载或以其他方式使用本内容。新时空及授权的第三方信息提供者竭力确保数据准确可靠,但不保证数据绝对正确。本內容仅供参考,不构成任何投资建议,交易风险自担。

新时空
×
分享到微信

打开微信,使用 “扫一扫”,分享到我的朋友圈