谷歌开源数据集模型,可从录音混音中分离出不同声音

  • A+
所属分类:技术资讯

技术编辑:北京卡尔博客出版:卡尔博客
最近,阿里巴巴和包括微软在内的科技大企业在音频和视频领域的需求和技术开发上投入了大量的时间和资源,解决了声音分离问题。最近,Google发布了一套名为FUSS的新数据集——自由通用声音分离数据集,以支持在录制混音中分离不同声音的AI模型的开发。
报告显示,该模型的使用方案非常丰富,如果将其商业化,FUSS可以用于从企业的电话会议中提取语音。
谷歌和瑞士Idiap研究所进行的研究表明,该研究描述了两种机器学习模式:扬声器识别网络和频谱掩码网络,从而大大降低了多扬声器信号中的语音识别单词错误率(WER)。
正如Google Research的科学家John Hershey、Scott Wisdom、Hakan Erdogan在一篇文章中介绍的那样,大多数声音分离模型假定混合中的声音数是静态的,它将某些声音类型的混合物(例如第一个扬声器和第二个扬声器)或同一声音类型的不同实例分离开来。FUSS数据集将焦点转移到要将任意数量的声音彼此分离的更常见的问题上。
为此,FUSS数据集包含多组声音、现实的房间模拟器、多个源和为了实现多类音频的可靠性而混合这些元素的代码。
谷歌的研究人员在FreeSound.org上提取并混合音频片段时,除了人类无法分离的声音外,在23小时内编译了包含12377个混合声音的音频,以培训AI模型的20000个混合声音、用于验证的1000个混合声音,以及用于评估的1000个混合声音。
研究人员表示,他们使用Google的tensor flow machine learning framework开发了自己的房间模拟器,可以生成具有“频率依赖”反射特性的盒子房间的脉冲响应,并指定音源和麦克风位置。FUSS附带用于每个音频示例的估计计算室脉冲响应和混音代码。此外,FUSS还提供了预训练的基于遮罩的分离模型,可以高精度地重新混合多个声源混合。
谷歌团队计划开放客房模拟器的代码,扩展这个模拟器,解决计算成本更高的声学特性和反射特性不同的材料和新的房间外观。
希望FUSS数据集降低新研究的门槛,特别是快速重复和应用其他机器学习领域的新技术,解决声音分离的挑战。'
GitHub地址:https://github.com/google-res.

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: