人工智能首页 > 语音识别 > 正文

aistudy人工智能科技带你开启“语音识别技术”的大门!

2019-05-29 阅读888次

  

  在互联网飞速发展的今天,人工智能的发展速度也是越来越快。说到这里,我们就不得不提到在AI人工智能技术领域很受欢迎的“语音识别技术”了,今天就请大家跟小编一起来聊聊“语音识别技术”吧!

  语音识别技术简介

  语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

  语音识别技术分类

  一、从说话者与识别系统的相关性考虑分为3类:

  (1)特定人语音识别系统:仅考虑对于专人的话音进行识别;

  (2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;

  (3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

  二、从说话的方式考虑也可以将识别系统分为3类:

  (1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;

  (2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;

  (3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

  三、从识别系统的词汇量大小考虑也可以将识别系统分为3类:

  (1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

  (2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。

  (3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

  语音识别在中国的发展史

  (1)1973年开始出现计算机语音识别

  中国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。

  (2)1986年语音识别被列为研究课题

  进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。

  1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,中国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。

  (3)语音识别技术现阶段在中国发展的情况

  语音识别技术的应用场景

  语音识别技术已经发展得很好了,最高的准确率差不多能够达到95%。

  应用场景也很多,比如说:

  1、语音输入法:为用户节省输入时间、提升输入体验。

  2、语音消息转写:将用户的语音信息转成文字信息,提升用户阅读效率。

  3、智慧会场:将会议、庭审、采访等场景的音频信息转换为文字,降低人工记录成本、提升效率。

  4、字幕生成:将直播和录播视频中的语音换成成文字,轻松便捷地生成字幕文件。

  5、电话质检:通过语音识别服务将坐席通话转成文字,全面覆盖质检内容、提升质检效率。

  6、安全监控:对直播音频流进行黄反暴力等关键词检索,大幅度提升敏感信息的监控能力。

  7、语音助手:让智能硬件听清用户表达,实现对话式人机交互的第一步。

  包括实时语音识别、一句话识别和录音文件识别服务,满足不同类型开发者需求。

  当然还有一些待解决的问题,比如说:一些与普通话相差甚远的南方方言很难识别,噪音太过强烈的语音很难识别,等等。

  语音识别技术实现原理

  语音识别主要包括:预处理、特征提取、训练和识别四个部分。

  预处理主要包括去噪、预加重(去除口鼻辐射)、端点检测(检测有效语音段)等过程。

  特征提取是对经过预处理后的语音信号进行特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。主要的特征参数包括:线性预测编码参数(LPC)、线性预测倒谱参数(LPCC)、MEL倒谱参数(MFCC)等。

  语音模式库:即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者多次重复的语音参数中经过长时间训练得到的。

  语音模式匹配:将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到识别结果。常用的方法包括:动态时间规整(DTW)、神经网络(ANN)、隐马尔科夫(HMM)等。DTW比较简单实用,适用于孤立词语音识别。HMM比较复杂,适用于大词汇量连续语音识别。

  语音识别技术学习难点

  (1)语音识别的关键是识别率的高低

  PC语音识别的识别率主要受限于系统选择的方法,如端点检测的精确度、特征参数的有效性、模式匹配方法的有效性等。而的语音识别不仅受选择方法的影响,而且受算法运算精度的影响。

  PC机主要采用浮点数,而主要是采用定点算法,因此运算精度、误差控制非常重要。语音识别算法包括多个模块,多个算法运算过程,累积误差对结果的影响是致命的。所以在算法设计过程中必须要仔细考虑定点数值的精度,既要尽量提高精度,又要防止运算结果溢出。

  (2)语音识别还需要考虑识别速度

  PC机运行速度比较快,中等词汇量语音识别的用户体验还是蛮好的。但在语音识别中,词汇量的大小对用户体验的影响是相当严重的。即使识别率高,但识别速度很慢,那这个产品很难推广。

  所以语音识别需要在识别率和识别速度上折中考虑。识别速度不仅受限于选取算法的运算复杂度,还受硬件的影响,如数据空间大小。如果数据RAM空间不够大,那就需要以其他介质(如FLASH/CARD)作为缓存。后续处理频繁范围该介质将会严重影响识别速度。所以识别速度也受限于硬件条件。

  语音识别技术的发展趋势

  1.进一步提高可靠性

  目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

  2.增加词汇量

  目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

  3.微型化并降低成本

  语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

  语音识别技术的前景和应用

  语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能 够满足通常应用的要求。

  由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识 别产品已经进入市场和服务领域。

  一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功 能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息 查询服务系统的性能表示满意。

  可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样 的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统 的方向一步步地前进。

  至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们 的社会产生这么大的影响。

  小编非常感谢你能浏览到文章的底部,也很开心与大家一起学习一起成长,更多人工智能资讯尽在ai study人工智能科技


随意打赏