小米集团-W(01810.HK)：开源首个原生端到端语音模型

新时空 · 2025-09-19

2025年9月19日，小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并在预训练观察到明显的“涌现”行为。市场公......

2025年9月19日，小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并在预训练观察到明显的“涌现”行为。

市场公开信息显示，在通用语音理解及对话等多项标准评测基准中，MiMo-Audio大幅超越了同参数量的开源模型，取得7B最佳性能；在音频理解基准MMAU的标准测试集上，MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash；在面向音频复杂推理的基准Big Bench Audio S2T任务中，MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。

新时空声明： 未经授权，不得复制、转载或以其他方式使用本内容。新时空及授权的第三方信息提供者竭力确保数据准确可靠，但不保证数据绝对正确。本內容仅供参考，不构成任何投资建议，交易风险自担。

关键词：小米集团-W 01810.HK 大模型