当前位置: 首页 » 智能资讯 » 智能行业新闻 » 正文

语音技术的发展历史

放大字体  缩小字体 发布日期:2018-06-15  浏览次数:770
核心提示:第一个真正基于电子计算机的语音识别系统出现在1952年,AT&T贝尔实验室开发了一款名为Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。

语言交流是人类最直接最简洁的交流方式。长久以来,让机器学会“听”和“说”,实现与人类间的无障碍交流一直是人工智能、人机交互领域的一大梦想。

早在电子计算机出现之前,人们就有了让机器识别语音的梦想。1920年生产的“Radio Rex”玩具狗可能是世界上最早的语音识别器,当有人喊“Rex”的时候,这只狗能够从底座上弹出来。但实际上它所用到的技术并不是真正的语音识别,而是通过一个弹簧,这个弹簧在接收到500赫兹的声音时会自动释放,而500赫兹恰好是人们喊出“Rex”中元音的第一个共振峰。

第一个真正基于电子计算机的语音识别系统出现在1952年,AT&T贝尔实验室开发了一款名为Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。

70年代开始出现了大规模的语音识别研究,但当时的技术还处于萌芽阶段,停留在对孤立词、小词汇量句子的识别上。

上世纪80年代是技术取得突破的时代,一个重要原因是全球性的电传业务积累了大量文本,这些文本可作为机读语料用于模型的训练和统计。研究的重点也逐渐转向大词汇量、非特定人的连续语音识别。那时最主要的变化来自用基于统计的思路替代传统基于匹配的思路,其中的一个关键进展是隐马尔科夫模型(HMM)的理论和应用都趋于完善。工业界也出现了广泛的应用,德州仪器研发了名为Speak& Spell语音学习机,语音识别服务商Speech Works成立,美国国防部高级研究计划局(DARPA)也赞助支持了一系列语音相关的项目。

90年代是语音识别基本成熟的时期,主流的高斯混合模型GMM-HMM框架逐渐趋于稳定,但识别效果与真正实用还有一定距离,语音识别研究的进展也逐渐趋缓。

由于80年代末、90年代初神经网络技术的热潮,神经网络技术也被用于语音识别,提出了多层感知器-隐马尔科夫模型(MLP-HMM)混合模型。但是性能上无法超越GMM-HMM框架。

突破的产生始于深度学习的出现。随着深度神经网络(DNN)被应用到语音的声学建模中,人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。

基于GMM-HMM的语音识别框架被基于DNN-HMM的语音识别系统所替代,而随着系统的持续改进,又出现了深层卷积神经网络和引入长短时记忆模块(LSTM)的循环神经网络(RNN),识别效果得到了进一步提升,在许多(尤其是近场)语音识别任务上达到了可以进入人们日常生活的标准。

于是我们看到以Apple Siri为首的智能语音助手、以Echo为首的智能硬件入口等等。

而这些应用的普及,又进一步扩充了语料资源的收集渠道,为语言和声学模型的训练储备了丰富的燃料,使得构建大规模通用语言模型和声学模型成为可能。

 
关键词: 语音识别 智能语音 神经网络
 
[ 智能资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
 
网站首页 | 订阅电子周刊 | 联系方式 | 关于我们 | 问题解析 | 版权隐私 | 使用协议 | 网站地图 | 网站留言 | 广告服务 | 积分换礼 | RSS订阅|
安全联盟站长平台 不良信息举报中心网络110报警服务
深公网安备案证字第 4403101901094 号 粤ICP备12078626号-1
增值电信业务经营许可证号 粤B2-20120463