Qwen3-ASR – 阿里通义开源的系列语音识别模型
Qwen3-ASR是什么
Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型,包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型,以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型。模型支持 52 个语种与方言识别、流式与非流式一体化推理,在强噪声、快语速、歌唱等复杂场景下表现鲁棒。其1.7B 模型在中英文及方言识别上达开源 SOTA,0.6B 模型支持 128 并发 2000 倍吞吐,10 秒可处理 5 小时音频。

Qwen3-ASR的主要功能
- 多语种识别:支持 30 个主要语种的语音识别与语种识别,实现多语言统一建模。
- 方言覆盖:支持 22 种中文方言识别,覆盖粤语、吴语、闽南语及各省地方口音。
- 口音适配:适配 16 个国家/地区的英文口音差异,提升跨地域识别能力。
- 双模推理:支持流式与非流式一体化推理,最长可一次性处理 20 分钟音频。
- 场景鲁棒:具备复杂场景鲁棒性,应对强噪声、低音质、快语速、老人儿童语音等挑战。
- 歌唱转写:支持带背景音乐的歌唱识别,可转写整首中英文歌曲。
- 时间戳对齐:提供词级/句级时间戳对齐功能,满足字幕生成与音频编辑需求。
Qwen3-ASR的技术原理
语音编码层:采用创新的预训练 AuT 语音编码器提取高层声学表征,替代传统 Fbank 特征,增强对噪声和口音的泛化能力。
多模态基座:基于 Qwen3-Omni 多模态大模型构建,用其跨模态理解能力实现语音到文本的直接映射,无需传统 HMM/GMM 流水线。
训练范式:通过大规模多语种预训练建立通用声学语义空间,再针对方言、歌唱、噪声等场景进行细粒度微调,联合优化语种识别与语音识别任务。
高效推理:0.6B 模型采用 vLLM 加速引擎,支持批量推理与异步服务,128 并发下实现 2000 倍吞吐;流式版本采用分块缓存机制,平衡实时性与准确率。
强制对齐:ForcedAligner 基于非自回归 LLM 架构,通过并行解码预测时间戳,单并发 RTF 达 0.0089,精度超越传统 CTC 与 WhisperX 方案。
Qwen3-ASR的项目地址
项目官网:https://qwen.ai/blog?id=qwen3asr
GitHub仓库:https://github.com/QwenLM/Qwen3-ASR
HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3-asr
技术论文:https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
Qwen3-ASR的应用场景
- 智能会议:模型能实时转写多人会议内容,支持中英文混杂与各方言口音,自动生成带时间戳的会议纪要。
- 视频字幕:为影视剧、短视频、直播生成精准字幕,支持带背景音乐的歌唱内容识别与多语种翻译字幕制作。
- 电话客服:在强噪声、低音质通话环境下稳定识别客户语音,模型支持实时流式转写与关键词提取。
- 智能音箱:适配老人、儿童等非标准发音,支持远场拾音与方言交互,提升家居语音控制体验。
- 法律取证:对复杂声学环境的录音证据进行高精度转写,提供词级时间戳用于庭审举证与内容核验。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675







是奶桃呀
