StepAudio 2.5 ASR：基于 Multi-Token Prediction 的极速语音识别模型

500 token/s 解码吞吐，兼顾中英文识别速度、精度与长音频处理能力。

观看视频浏览识别样例在线体验

推理加速 +400%

极速吞吐 500 token/s

推理成本 -80%

上下文窗口 32K

单次转写 30 min

视频展示

完整展示 StepAudio 2.5 ASR 的极速转写、复杂场景鲁棒性、长音频能力与中英文综合表现。

围绕推理效率、转写精度与长音频能力，展示 StepAudio 2.5 ASR 面向真实生产场景的核心竞争力。

ASR 与 MTP-5 深度融合，显著提升解码速度与单机吞吐。

实测 +400% 500 token/s 成本 -80%

在常见中英文转写评测中保持强竞争力，兼顾复杂术语与长段内容。

中英文稳定术语覆盖长段转写强

依托 32K 上下文窗口，支持最长 30 分钟音频的一次性完整转写。

原生 32K 上下文最长 30 分钟连续转写稳定

围绕中英文与长音频场景的核心结果，直观展示 StepAudio 2.5 ASR 在识别精度与推理效率上的领先表现。

中文场景 2.97 CER

英文场景 3.68 WER

长音频场景 3.70 WER