自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。
中文名称 | 自动语音识别 | 外文名称 | Automatic Speech Recognition |
---|---|---|---|
俗 称 | 语音听写机 | 简 称 | ASR |
别 称 | 语音识别或计算机语音识别 |
首先制作简易开关,用两个贴片相互错开,按下相连即可,可以简单参考一下,你们家里的开关,看看原理;其次,你可以把导线连载电极上,让灯泡连接在导线上不就可以了吗。这些你都可以参考一下实物,简单分析一下即可...
这个只要在声控开关的基础上加一个语音芯片(要定做你的“亮电灯”和“关电灯”的语音芯片),再用一个识别电路与你声音进行比对相同时输出控制信号.这还要有一个声控取样电路,就是模数转电路.元件不多,但要调试...
智能语音控制开关在目前在中国也有十多年,家庭安防,智能家电,自动窗帘,智能终端,空中控制,智能照明,集中控制,家电控制,电脑遥控器,智能开关,无线控制,安防系统,智能家居,智能空调,智能插座,电器控制...
随着高等职业教育和网络技术的快速发展,传统的C/S结构的考试系统已不能满足使用需求,运用B/S结构设计一套语音识别考试系统体现了许多优势。本文以齐齐哈尔工程学院考试系统为背景,描述了采用B/S结构模式设计系统的模块、数据流图,使用ASP语言设计技术搭建系统平台,让学生、教师、管理员三类用户随时注册和登录,在不同的用户界面实现不同的系统功能。
通过语音识别技术在电梯系统的应用研究,文章提出一种具有语音识别功能的电梯外招串行通信板的设计,其以STM32作为主控制芯片,结合LD3320语音识别集成芯片,加入软硬件抗干扰设计,应用于电梯各层门厅外招系统中,能够通过语音方式实现呼梯。经过实践测试,系统工作稳定,实时性良好,通信信号稳定。在安静环境下,呼梯识别率约达90%;在嘈杂环境中,呼梯识别率还有待进一步提高。
TTS就是Text To Speech,文本转语音,文本朗读,差不多是一个意思。在语音系统开发中经常要用到。
目前市场上的TTS很多,实现方式也各式各样,有的很昂贵,如科大讯飞,据说当初得到863计划的资助,有很高的技术;有的相对便宜,如捷通华声, InfoTalk;也有免费的,如微软的TTS产品。
相对于ASR(Automatic Speech Recognition,自动语音识别)来说,实现一个TTS产品所需要的技术难度不算大,在我看来也就是个力气活。
要是让我们来做一个能够把汉语句子朗读出来的TTS,我们会怎么做呢?
有一种最简单的TTS,就是把每个字都念出来,你会问,岂不要录制6千多个汉字的语音?幸运的是,汉语的音节很少,很多同音字。我们最多只是需要录制: 声母数×韵母数×4,(其实不是每个读音都有4声),这样算来,最多只需要录制几百个语音就可以了。
在合成的时候需要一张汉字对应拼音的对照表,汉字拼音输入法也依赖这张表,可以在网上找到,不过通常没有4声音调,大不了自己加上,呵呵,要不怎么说是力气活呢。
这样做出来的TTS效果也还可以,特别是朗读一些没有特别含义的如姓名,家庭住址,股票代码等汉语句子,听起来足够清晰。这要归功于我们伟大的母语通常都是单音节,从古代的时候开始,每个汉字就有一个词,表达一个意思。而且汉字不同于英语,英语里面很多连读,音调节奏变化很大,汉字就简单多了。
当然,你仍然要处理一些细节,比如多音字,把"银行"读成"yin xing"就不对了;再比如,标点符号的处理,数字、字母的处理,这些问题对于写过很多程序的你,当然不难了。
国内的一些语音板卡带的TTS,不管是卖钱的还是免费的,大体都是这样做出来的,也就是这样的效果。
如果要把TTS的效果弄好一点,再来点力气活,把基本的词录制成语音,如常见的两字词,四字成语等,再做个词库和语音库的对照表,每次需要合成时到词库里面找。这样以词为单位,比以字为单位,效果自然是好多了。当然,这里面还是有个技术,就是分词的技术,要把复杂的句子断成合理的词序列,也有点技术。这也要怪新文化那些先驱们,当初倡导白话文,引进西文的横排格式、标点符号的时候,没有引进西文中的空格分词。不过即使分词算法那么不高效,不那么准确,也问题不大,如前面所说,汉字是单音节词,把声音合起来,大体上不会有错。
当然,科大讯飞的力气活又干的多了些,据说已经进化到以常用句子为单位来录音了,大家可以想像,这要耗费更多的力气,换来更好的效果。
至于增加一些衔接处的"词料",弄一些修饰性的音调,我认为是无关紧要的,对整体的效果改进不是太大。
市面上商品化TTS一般还支持粤语,请个粤语播音员录音,把上面的力气活重做一遍就是了。
再说句题外话,很多人觉得录音最好找电台、电视台的播音员,其实找个你周围的女同事来录制,只要吐字清晰就可以了。在某种情况下,寻常声音比字正腔圆的新闻联播来得可爱。
再来说说文本的标识,对于复杂文本,某些内容程序没有办法处理,需要标识出来。比如,单纯的数字"128",是应该念成"一百二十八"还是"一二八"?解决办法通常是加入XML标注,如微软的TTS:"<context ID = "number_cardinal">128</context>"念成"一百二十八","<context ID = "number_digit">128</context>"将念成"一二八"。TTS引擎可以去解释这些标注。遗憾的是,语音XML标注并没有形成大家都完全认可的标准,基本上是各自一套。
再说说TTS应用编程,微软的TTS编程接口叫SAPI,是COM接口,开发起来还是有点麻烦,还好MSDN的网站上资料很全面。微软的TTS虽然免费,但其中文角色目前是个男声,声音略嫌混浊,感觉不爽。
国内一般的厂家提供API调用接口,相对比较简单,可以方便地嵌入应用程序中去。
商品化的TTS还有个并发许可限制,就是限制同时合成的并发线程数,我觉得这个限制用处不大。无论哪种TTS,都可以将文本文件转换成语音文件,供语音卡播放。大部分应用句子比较短小,一般不会超过100个汉字,合成的时间是非常短的,弄个线程专门负责合成,其它应用向该线程请求就是了,万一句子很长,把它分解成多个短句子就是了,播放的速度总是比合成的速度慢。
也很多应用是脱机合成,没有实时性要求,就更不必买多个许可了。
更多情况下,我们甚至没有必要购买TTS,比如语音开发中常见的费用催缴,拨通后播放:"尊敬的客户,您本月的费用是:212元",前面部分对所有客户都一样,录一个语音文件就是了,而数字的合成是很简单的,你只要录制好10个数字语音,再加上十,百,千,万,再加上金钱的单位"元"。
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。
自动语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
语音评测技术,又称计算机辅助语言学习(Computer Assisted Language Learning)技术,是一种通过机器自动对发音进行评分、检错并给出矫正指导的技术。语音评测技术是智能语音处理领域的一项研究前沿,同时又因为能显著提高受众对语言(口语)学习的兴趣、效率和效果而有着广阔的应用前景。
自然语言是几千年来人们生活、工作、学习中必不可少的元素,而计算机是20世纪最伟大的发明之一,如何利用计算机对人类掌握的自然语言进行处理、甚至理解,使计算机具备人类的听说读写能力,一直是国内外研究机构非常关注和积极开展的研究工作。
“面对面翻译”是讯飞输入法升级的新增功能。该功能支持中英、中俄、中日、中韩四种对话翻译模式,并配备有真人发音,中文用户通过它可以直接与外国友人面对面交流。
文字扫描识别是讯飞输入法新上线的又一功能。该功能可通过拍照和上传已有图片实现。但是受限于文字特别是艺术字体文字的颜色及阴影等变量的干扰,该功能尚不能实现较高的识别率。
方言识别是科大讯飞在AI能力开发上独具特色的“卖点”,支持22种方言,其中粤语、四川话、东北话、河南话等方言的识别率均已超过90%。
语音答疑:
建造师答疑提供语音提问服务,将问题通过语音清晰表述,系统将进行自动语音识别,分析问题性质,分类筛选,找到最适合的答疑老师,及时给出最准确的深度解析。
拍照答疑:
建造师答疑提供拍照提问服务,将问题及复杂公式通过手机拍照上传,即可将问题送达分析系统或指定答疑名师,用极简的操作步骤完成疑问的解答。
最直白的解析:
解析作为对问题的解答与分析,需要通俗易懂,对深入的问题进行通俗的解答,用最直白和形象的语言,力求清晰诠释误解点,建造师答疑应用通过答疑团队对问题的深入讨论和探究,从提问的角度出发,完全站在问题发生点解决问题,做到透彻明了。
疑难知识点,名师举例解答:
对于晦涩难懂的知识点,通过一个经典案例,进行透彻解析,让死的知识点活起来,赋予每一个知识点生命,从枯燥的学习过程中解放出来,让学习过程变的更有乐趣,生动鲜活。
经典问题,精彩解析,大家推选:
基于用户的不断筛选,实时更新问题及解析推选榜单,大家共同推选和预测本年度最有可能在考试中遇到的问题。
热播视频解析推送,只推重点:
热播视频是根据历年来考试中容易犯错的问题,制作的视频解析,通过对必考点、易错点、重难点的讲解,将碎片时间合理运用,视频长度1-3分钟,从繁杂的工作中抽空学习,已经是更多用户迫不得已的选择。