人工智能首页 > 语音识别 > 正文

语音区分准确率92％

2018-11-13 阅读63次

　　一个AI音箱，认得每一个说话的对象。

　　所谓“千人千面”，此之谓也。小孩说话，它就依照小孩的喜好和模式，老人票友，它的智能推荐也相应变化……

　　总之一个音箱，对每一个跟他说话的人，都能分辨清楚——对人类再正常不过的能力，对AI却并不容易。

　　幸好，Google今天把这种AI正在追求的能力，又往前推进了一步。

　　而且论文放出，核心算法开源，就等你也来试试了。

　　RNN模型

　　Google的新方法，是通过递归神经网络(RNN)模拟说话者的输入，只要开始发言，每个说话者都会建立一个属于他的RNN模型，然后在过程中，不断更新相应的RNN状态。

　　加入我们正在进行一场多人会议，音频输入是线性的，但在Google这个模型中，会按照不同音色进行不同标注。

　　黄色代表一个发言者，红色又是另一个，然后黄色嘉宾发言者又接着发言了。

　　之前在进行类似的研究时，通常基于聚类算法，都是无监督学习的方法，因此给每个发言者打标签不容易。

　　另外，发言者混合交织发言，让无监督学习的模型最终效果亦打折扣。

　　但RNN不同，在这次研究者中，Google同学专门在中餐厅进行了训练(其中几位作者都是中国人)。

　　在中餐厅中，发言人未知且人数不确定。然后在开始发言后，他们一旦被识别，就会有对应的RNN模型，每个人都被建了一个，然后相应发言者有更新，就会在他的RNN模型上更新。

　　效果

　　论文中称，他们把核心算法放在数据集NIST SRE 2000 CALLHOME上验证，最后得出的在线分类错误率(DER)低至7.6%。

　　更早之前，他们旧方法的错误率还是8.8%.

　　那92.4%的准确率意味着什么呢?

　　对实时应用程序而言，已足够高了。

AI教育