嘈杂环境也能准确识音 谷歌AI继续进化

秦康 / 2018-4-16
分享到:

人工智能的技术在不断的突飞猛进,图像照片视频等领域都已经展露了头角,现在在声音的深度学习上也有了新的突破,谷歌研究人员开发了一种对声音的深度学习系统,能使AI更精准的识别和分离出嘈杂环境中的不同个体声音。

一个人安静的环境下说话很容易听清他说的内容,但如果一群人同时说话,你还能听清楚他们说的什么吗,现在谷歌已经开始了研究这样的课题。本周谷歌在Google Research Blog上表示,内部团队正试图复制“人类大脑专注于某个声音来源同时可过滤掉其它声音”这种能力,就如同你在就会上只与某个朋友交谈。谷歌在这个系统方法中使用了一个视听模型,所以它的主要功能体现在实现了视频中隔离声音的效果。

谷歌方面表示,该技术可以应用于使用单一音轨的视频,实现在视频算法中隔离不需要的声音,目前该技术还不适用于多音轨合成的视频,当不同的人物出现在视频中都在讲话时,用户可以手动选择想听到的人物的声音,同时过滤掉没有选择的人物说话的内容,这项技术中的视觉组件是核心技术的关键,当AI发现某人的嘴在动时,通过嘴型的变化和声音的长度能够很精准的识别出这个人的声音,并且创建这个人的个人语音轨迹。

这项人工智能的技术同样运用了大量的数据来给机器深度学习,研究人员在YouTube上收集了十万个“讲座和谈话”视频,并从这些视频素材中提取了将近2000小时的视频素材,将视频的背景音频与人工背景噪声混合,AI通过阅读人们在每个视频框架中说话的“脸型缩略图”和该视频的音频谱图,训练技术人员将混合的音频进行拆分。从而分辨出哪个音频源在相对的时间内属于哪张人脸所发出,并且为每个扬声器创建单独的语音轨迹。

谷歌表示已经在思考如何将这一技术进一步的拓展应用,并且考虑如何将其纳入各种谷歌的产品。不过严峻的现实显示,这项技术在稍许跳帧后将成为窃听监视的利器,如何使这一人工智能技术不落入坏人之手,将是不得不考虑的问题。

1为本文点个赞
返回到页面顶端