小米发布MiMo-V2.5-TTS / ASR语音大模型 - 中国房地产业协会官方网站

小米发布MiMo-V2.5-TTS / ASR语音大模型

AI快讯苏晓 2026-04-24 10:24:01 来源：中房网

中房网讯 4月24日，小米正式发布MiMo-V2.5-TTS Series与MiMo-V2.5-ASR 语音大模型。这是一套面向Agent时代的全链路语音模型系列，覆盖识别与合成两大核心能力，让语音的输入与输出都可以被语言自由调度。

其中，TTS系列包含三款模型，均支持通过自然语言指令精细调度声音表现。MiMo-V2.5-TTS：内置多款精品音色，开箱即用，支持语速、情绪控制。MiMo-V2.5-TTS-VoiceDesign：支持一句话从零生成全新音色，无需参考音频。MiMo-V2.5-TTS-VoiceClone：数秒参考音频即可高保真复刻目标音色，并保留原有风格指令控制能力。官方演示显示，模型能遵循“尖锐刻薄、狐假虎威”等复杂指令，并支持在文本中插入音频标签进行精细化控制。

作为听觉基座，MiMo-V2.5-ASR也正式开源（包括模型权重与代码）。该模型面向复杂真实场景，支持吴语、粤语等中文方言，以及中英文混说、强噪音、多人对话等场景，并原生输出标点符号，转写结果即拿即用。

小米语音大模型