科学家借用3D打印技术解决“鸡尾酒会问题”

登录

在计算机语音识别领域有一个著名的难题——“鸡尾酒会问题（Cocktail Party Problem）”，说的是当前语音识别技术已经可以以较高精度识别一个人所讲的话，但是当说话的人数为两人或者多人时，语音识别率就会极大的降低。计算机无法将目标声音与其他人同时发出的声音区别开来。
如今，来自美国杜克大学的科学家们使用一种简单的3D打印装置，巧妙地解决了这个问题。科学家们为此在《Proceedings of the National Academy of Sciences》杂志上发表了一篇论文介绍了这个奇妙的3D打印解决方案。
他们首先制造出了一个又大又厚的3D打印塑料盘，在塑料盘的一面有36个开口，以及许多蜂窝状的通道通向塑料盘中心的一个麦克风。它本质上是一个结合了声学超材料和压缩传感技术的单一传感器听音系统。

“与以前的研究通常依赖于信号和语音处理技术来解决“鸡尾酒会”问题不同，我们提出的方法是一个独特的基于硬件的方法，主要利用了经过精心设计的声学超材料。”研究人员写道，“我们坚信，这一方法不仅能够解决过去数十年来各个领域的研究人员一直孜孜以求的鸡尾酒会听音问题，而且这种将物理层的设计与计算感知相结合的系统设计方法将会对传统的声学传感和成像方式产生影响。”
这项研究是在Steven Cummer和Yangbo Xie的领导下进行的。

那么它的工作原理到底是什么呢？研究人员称，这36个通向麦克风的通道每个都有着独特的3D打印形状导致其功能特性有所区别，使得声音传向中心的方式有着微妙的不同，因而可以彼此区分，并被单个传感器接收。Yangbo Xie称，我们人类无法区分其中的差别，但是基于该传感器的算法几乎总是可以告诉我们这些声音是从哪个想来的。

至于该解决方案的正确性。研究人员在其论文中宣称：“这款带有共振超材料紧凑阵列的设备被证明可以区分识别来自三个独立来源的重叠音频，正确率高达96.67％。”。这个简单、但有效的方法已被人们誉为一个优秀的解决方案。不过目前唯一的问题是它的大小——它大约相当于一个很厚的比萨，但是显然它具有足够的空间优化设计，并用于进一步的应用。杜克大学的科学家们表示，它可以适用于助听器等声学成像和传感应用，所以我们可能会在不久的将来看到这项技术的一个更小版本。

来源：天工社