SAM Audio – Meta开源的音频分割模型
SAM Audio是什么
SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。用户可以通过简单的文本描述(如“吉他声”)、在视频中点击发声物体,或者标记声音出现的时间范围来使用SAM Audio。

SAM Audio的主要功能
- 多模态提示音频分离:通过文本描述、视觉选择(视频中的对象)或时间片段标记,从复杂音频混合中分离出特定声音。
- 支持多种音频任务:能处理语音、音乐、通用音效等多种音频分离任务,适用于不同场景。
- 无参考音频评测:提供SAM Audio Judge,一种无需参考音频的客观评测模型,从感知层面评估音频分离质量。
- 真实环境基准测试:发布SAM Audio-Bench,首个真实环境的音频分离基准,覆盖多种音频领域和提示类型,支持无参考评估。
- 高效实时处理:运行速度快于实时处理,实时因子约为0.7,适合大规模音频处理。
- 助力无障碍技术:与相关机构合作,探索在无障碍技术中的应用,如助听器集成等,推动音频AI的包容性发展。
SAM Audio的技术原理
- 感知编码器视听模块(PE-AV):基于Meta开源的Perception Encoder模型,PE-AV能提取逐帧视频特征并与音频表示对齐,融合视听信息,为音频分离提供精确的时间标注和语义丰富的特征表示。
- 流匹配扩散Transformer架构:采用生成式建模框架,将混合音频和提示信息编码为共享表示,生成目标音轨与剩余音轨,支持多种模态的提示输入。
- 大规模多模态数据训练:通过融合真实与合成的混合音频数据进行训练,涵盖语音、音乐和通用音效等多种声音事件,结合先进的音频合成策略,提升模型的鲁棒性和泛化能力。
- 无参考音频评测模型:SAM Audio Judge基于感知维度进行音频质量评估,无需参考音轨,提供更贴近人类听觉体验的客观评测标准。
- 真实环境基准测试:SAM Audio-Bench作为首个真实环境的音频分离基准,覆盖多种音频任务和模态提示,支持无参考评估,确保模型在实际应用中的有效性。
SAM Audio的项目地址
项目官网:https://ai.meta.com/samaudio/
Github仓库:https://github.com/facebookresearch/sam-audio
SAM Audio的应用场景
- 音频清理与背景噪声移除:从音频文件中去除不需要的背景噪音,例如在播客录音中去除狗叫声或交通噪声,提升音频质量。
- 创意媒体制作:帮助创作者从歌曲中提取特定乐器声音、分离人声或进行音频重新混音,增强创意表达。
- 无障碍技术:与助听器制造商合作,探索在听力辅助设备中的应用,帮助听力受损人群更好地理解音频内容。
- 视频编辑:在视频制作中,通过视觉提示分离特定对象的声音,例如点击视频中的吉他手来提取吉他声,提升视频编辑的灵活性。
- 音频分析与研究:为音频分析提供工具,帮助研究人员分离和研究特定的声音事件,适用于音乐分析、声音生态学等领域。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 大湾区打造全球科技创新高地 7904079
- 2 男子9天举报92次违停 交警回应 7808831
- 3 未来两周46条中日航线取消全部航班 7712371
- 4 “北京范儿”全国范围内持续破圈 7619542
- 5 中国高铁第一大省又易主了 7522439
- 6 土耳其将向俄罗斯归还四套S-400 7427126
- 7 遗嘱不是“写了就算” 7328314
- 8 nova 15及全场景新品发布会 7237797
- 9 男子结婚九年生三孩有二孩非亲生 7141991
- 10 美对叙利亚持续5小时猛烈轰炸 7042032





![俏妞qiaoniu6让我看看你的618购物车里有没有我[doge] #俏妞的玩具店# ](https://imgs.knowsafe.com:8087/img/aideep/2025/8/9/6176ce07fd8a18f148015559ae6b18b1.jpg?w=250)

MS静静
