嘈杂环境也能准确识音 谷歌AI继续进化

嘈杂环境也能准确识音谷歌AI继续进化

Salunce / 2018-04-16 15:2685968

人工智能的技术在不断的突飞猛进，图像照片视频等领域都已经展露了头角，现在在声音的深度学习上也有了新的突破，谷歌研究人员开发了一种对声音的深度学习系统，能使AI更精准的识别和分离出嘈杂环境中的不同个体声音。

一个人安静的环境下说话很容易听清他说的内容，但如果一群人同时说话，你还能听清楚他们说的什么吗，现在谷歌已经开始了研究这样的课题。本周谷歌在Google Research Blog上表示，内部团队正试图复制“人类大脑专注于某个声音来源同时可过滤掉其它声音”这种能力，就如同你在就会上只与某个朋友交谈。谷歌在这个系统方法中使用了一个视听模型，所以它的主要功能体现在实现了视频中隔离声音的效果。

谷歌方面表示，该技术可以应用于使用单一音轨的视频，实现在视频算法中隔离不需要的声音，目前该技术还不适用于多音轨合成的视频，当不同的人物出现在视频中都在讲话时，用户可以手动选择想听到的人物的声音，同时过滤掉没有选择的人物说话的内容，这项技术中的视觉组件是核心技术的关键，当AI发现某人的嘴在动时，通过嘴型的变化和声音的长度能够很精准的识别出这个人的声音，并且创建这个人的个人语音轨迹。

这项人工智能的技术同样运用了大量的数据来给机器深度学习，研究人员在YouTube上收集了十万个“讲座和谈话”视频，并从这些视频素材中提取了将近2000小时的视频素材，将视频的背景音频与人工背景噪声混合，AI通过阅读人们在每个视频框架中说话的“脸型缩略图”和该视频的音频谱图，训练技术人员将混合的音频进行拆分。从而分辨出哪个音频源在相对的时间内属于哪张人脸所发出，并且为每个扬声器创建单独的语音轨迹。

谷歌表示已经在思考如何将这一技术进一步的拓展应用，并且考虑如何将其纳入各种谷歌的产品。不过严峻的现实显示，这项技术在稍许跳帧后将成为窃听监视的利器，如何使这一人工智能技术不落入坏人之手，将是不得不考虑的问题。

点个赞660