StepFun logo

StepAudio 2.5 ASR:基于 Multi-Token Prediction 的极速语音识别模型

500 token/s 解码吞吐,兼顾中英文识别速度、精度与长音频处理能力。

推理加速 +400%
极速吞吐 500 token/s
推理成本 -80%
上下文窗口 32K
单次转写 30 min

视频展示

完整展示 StepAudio 2.5 ASR 的极速转写、复杂场景鲁棒性、长音频能力与中英文综合表现。

核心亮点

围绕推理效率、转写精度与长音频能力,展示 StepAudio 2.5 ASR 面向真实生产场景的核心竞争力。

01

极速推理效率

ASR 与 MTP-5 深度融合,显著提升解码速度与单机吞吐。

实测 +400% 500 token/s 成本 -80%
02

SOTA 转写精度

在常见中英文转写评测中保持强竞争力,兼顾复杂术语与长段内容。

中英文稳定 术语覆盖 长段转写强
03

原生超长音频

依托 32K 上下文窗口,支持最长 30 分钟音频的一次性完整转写。

原生 32K 上下文 最长 30 分钟 连续转写稳定

识别样例

识别指标

围绕中英文与长音频场景的核心结果,直观展示 StepAudio 2.5 ASR 在识别精度与推理效率上的领先表现。

中文场景 2.97 CER
英文场景 3.68 WER
长音频场景 3.70 WER