语音识别新方向：仿生蝙蝠耳能用声纳精准“聆听”

2016-11-29不详佚名

【大中小】

蝙蝠使用生物声呐，为夜晚在丛林中飞行导航。他们的超声波脉冲，可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力，IBM学院奖获得者Rolf Müller教授协同他在弗吉尼亚理工学院（Virginia Tech）的团队，设计了一种人造蝙蝠耳。

语音识别新方向：仿生蝙蝠耳能用声纳精准“聆听”

Rolf Müller的研究引起了IBM的注意。IBM专家韩金萍（音译）的神经计算团队，和IBM Watson语音专家崔晓东（音译）和他的同事，看到了Müller教授人造“动态外耳”（dynamic peripheral，蝙蝠可转动的外耳使它们的生物声呐更加准确）的潜力，并希望借此提高人类语音理解的能力。他们把Müller的博士生Anupam Gupta纳入团队，一同他们探索人造蝙蝠仿生耳在语音处理的应用。

他们发现，这些仿生耳不仅是很有效的声呐装置，对语音识别同样能起到作用。

语音识别新方向：仿生蝙蝠耳能用声纳精准“聆听”

模仿菊头蝠的人造耳

研究团队根据蝙蝠改变耳朵形状的能力，仿制了一个动态接收系统。它能提高自动语音识别系统（ASR）的精确度，还能更准确地对谈话者定位。韩金萍将在他们的论文《受菊头蝠启发的接收动力学把动态特点加入语音信号》，及本周美国声学协会第172届会议上展示了这一发现。

这些动态系统有潜力发展成让使用者“像蝙蝠那样聆听”的语音接收设备。这会改进现有的助听器和指向性传声器。并可应用于任何需要对声音来源进行定位、理解的场景。

设想你身处一个忙碌、吵闹的集市。听清楚你旁边的人在说什么都可能是一项挑战。有了这项技术，同伴的声音就能被一个可变形的助听器识别，然后翻译成你能听懂的话。它还可以过滤掉闹市的杂音，和其他人嗡嗡的说话声。

仿生蝙蝠耳的生物声呐算法蝙蝠的超声波具有10–200 kHz的频率，而人耳只能识别20 Hz–20 kHz的声音。因此对我们来说它声调太高，大多数是听不到的。为了驾驭蝙蝠的生物声呐频率和精度，Gupta加入韩金萍团队编写能够把语音讯号转化为超声波脉冲的代码——然后再把超声波转化为我们能够听到的正常语言。

这首先需要建立一个数据库。为了尽可能地简化，韩金萍团队使用了卡内基梅隆大学开源数据库中，11个美式英语朗读者的英语字母和数字的发音。

举例子，以字母“A”或者数字“1”形式出现的数据，被麦克风接收，然后转化为超声波信号。超声波扬声器播放该信号。随后，具有“动态外耳”的人造蝙蝠耳接收信号。最后，软件把超声波信号转化为原始数据——字母“A”或者数字“1”。

现实（闹市）中的人造耳朵虽然只包含字母和数字的声音信号数据库有较大限制，但通过分析它，韩金萍团队表示人造耳用“动态、方向性的的时间频率模型”丰富了语音信号。下一步，研究人员把人造耳处理后的声音与原始语音进行对比，来衡量人造耳的精度。因此，他们把原始语音数据和经人造耳处理的声音数据，放入分类器（classifier）中进行识别。67%的语音信号能被成功识别出来。而在没有动态外耳的对照组中，只有35%的声音数据被识别。

有了更多的可用分析数据后，研究员们将着手用行业基准来对该系统进行测试，并开发仿生学习算法。再或者，将来他们可能会开发一个“聆听”app，把智能手机麦克风变成接入物联网的指向性麦克风，来帮助使用者选择现实中他想要听到的声音。IBM研究人员认为，实现它并不是太遥远。

本文来源：不详作者：佚名

上一个文章：观点：就算人工智能不反水，威胁依然很大

下一个文章：斯坦福大学：使用互联网、手机有助老年人身心健康

词错率降低至5.9%：微软发布语音识别技术“认知工具包”  中兴展示自家语音识别技术：不比锤子手机M1差   微软语音识别重大突破：机器出错率首次小于人类
Cortana小娜耳朵尖，微软宣称语音识别错误率全球最低   智能手机用语音识别软件录入文字，比打字快3倍   安卓版《Cortana》测试版更新：显著提升语音识别能力
搜狗发布“知音”引擎，号称语音识别错误率下降30%  谷歌开放语音识别API，发力人工智能   挑战苹果谷歌微软：更强大的语音识别技术诞生

聚合推荐

网吧管理系统

Win11

网吧网管呼叫系统

网吧语音系统

网吧母盘系统

声明

声明：本站所发表的文章、评论及图片仅代表作者本人观点，与本站立场无关。若文章侵犯了您的相关权益，请及时与我们联系，我们会及时处理，感谢您对本站的支持！联系Email：support@txwb.com，系统开号，技术支持，服务联系QQ：1175525021本站所有有注明来源为天下网吧或天下网吧论坛的原创作品，各位转载时请注明来源链接！

天下网吧·网吧天下

语音识别新方向：仿生蝙蝠耳能用声纳精准“聆听”

推荐文章

最新文章