吵到我用TNT了!语音原来是这样被识别的
人工智能首页 > 语音识别 > 正文

吵到我用TNT了!语音原来是这样被识别的

2018-08-02 阅读122次

  语音识别技术,在几十年以前就已经出现在大众的视野当中,而往后延伸的在智能手机上以SIRI为代表的人工AI,也是以语音识别技术为基础的,那么本期涨姿势带大家了解一下,语音识别是什么原理,为什么我们对着手机讲话,手机就能把我们说的话给准确的识别甚至转化为文字呢。

  涨姿势:别说话!吵到我用TNT了!语音原来是这样被识别的

153311453243232c3efc180.jpg

  总体来说,这个语音识别和我们之前讲的指纹识别,人脸识别在流畅上其实差不多的,比如我们说了一句话,理解万岁!手机会先通过麦克风,收集我们刚刚说话的声音,因为我们说话的声音是属于模拟信号,所以收集到我们的声音之后要先把模拟信号给转换为数字信号,转换完成之后呢,就要对这个信号进行处理,这个处理的过程就类似我们的军训,没有军训之前,大家的站姿,走路的姿势都是千差万别的,军训的之后了,大家的站姿和走路姿势都能基本一致了。

  涨姿势:别说话!吵到我用TNT了!语音原来是这样被识别的

  所以我们说话的声音也是一个道理,我们说话的时候,除了有噪音,每个人的说话声音大小,快慢都是不一样的,经过处理之后,让这些声音大体上,在声音大小,语速快慢都是差不多的,这样做可以让后面的识别系统更容易识别。

  涨姿势:别说话!吵到我用TNT了!语音原来是这样被识别的

  完成这一步,就到了第三步开始提取语音信号的特征信息了,在提取特征信息之前,我们要先把语音信号给切换成一小块一小块,然后再分别提取每一小块的特征信息,比如声调这些特征信息,提取完语音信号的特征信息就要先把这个语音信号放到一个声学模型里,这个声学模型里面就有所有的文字发音,然后就声学模型里面找到和我们说话声音最匹配的发音之后,再把它放在另一个语言模型里,这个语言模型里就放了,各种我们说的话看到的句子,古诗,文言文等等语音识别系统就在这个里面找,看哪个句子的发音最接近“理解万岁”的发音,这就是我们语音识别的大体过程


  涨姿势:别说话!吵到我用TNT了!语音原来是这样被识别的


  当然如果是在五月份之前,语音识别的结果可能是理解万岁这四个字,但是在五月份之后,那识别的结果也可能是李姐万岁这四个字,毕竟语言模型的内容库还是在随时更新的嘛


随意打赏
WeixinPathErWeiMaHtml
ZhifubaoPathErWeiMaHtml