自动语音识别

自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。

自动语音识别基本信息

中文名称 自动语音识别 外文名称 Automatic Speech Recognition
俗    称 语音听写机 简    称 ASR
别    称 语音识别或计算机语音识别

自动语音识别造价信息

市场价 信息价 询价
材料名称 规格/型号 市场价
(除税)
工程建议价
(除税)
行情 品牌 单位 税率 供应商 报价日期
语音识别模块 1.语音识别输入;2.语音识别转写;3.语音实体标注核查. 查看价格 查看价格

海康威视

13% 河南大邦安防工程有限公司
语音识别模块 YZS-MultiModing-0001 查看价格 查看价格

云知声

13% 中软国际科技服务有限公司
讯飞语音识别系统 功能参数:1.实时语音转写:是对音频流做实时语音识别,可以做到"边说话边同步输出文字"的效果.会话初始化成功之后便可持续的调用接口,向服务发 查看价格 查看价格

13% 广州市锐丰音响科技股份有限公司
语音对讲 高档铝合金面板,防护等级IPX5. 查看价格 查看价格

世邦 XC-9137AV

13% 烟台华东电子软件技术有限公司
自动扶梯 自动扶梯;倾斜角度30°;提升高度5.3m;梯级宽度:1000mm 查看价格 查看价格

蒂森克虏伯

13% 广西欧日电梯有限公司
自动扶梯 自动扶梯;倾斜角度30°;提升高度5.3m;梯级宽度:1000mm 查看价格 查看价格

日立

13% 广西欧日电梯有限公司
自动扶梯 自动扶梯KS-SBF,0.5m/s,30°,4.8m提升高度,梯级宽度1000mm,水平梯级2级 查看价格 查看价格

三菱

13% 广西欧日电梯服务集团有限公司
自动扶梯 自动扶梯KS-SBF,0.5m/s,30°,4.5m提升高度,梯级宽度1000mm,水平梯级2级 查看价格 查看价格

三菱

13% 广西欧日电梯服务集团有限公司
材料名称 规格/型号 除税
信息价
含税
信息价
行情 品牌 单位 税率 地区/时间
自动送丝机 查看价格 查看价格

台班 韶关市2010年8月信息价
自动式铲运机 斗容量10m3 查看价格 查看价格

台班 广州市2008年2季度信息价
自动式铲运机 斗容量12m3 查看价格 查看价格

台班 广州市2008年2季度信息价
自动式铲运机 斗容量16m3 查看价格 查看价格

台班 广州市2008年2季度信息价
自动式铲运机 斗容量7m3 查看价格 查看价格

台班 广州市2007年3季度信息价
自动式铲运机 斗容量16m3 查看价格 查看价格

台班 广州市2007年3季度信息价
自动式铲运机 斗容量10m3 查看价格 查看价格

台班 广州市2007年9月信息价
自动式铲运机 斗容量12m3 查看价格 查看价格

台班 广州市2007年9月信息价
材料名称 规格/需求量 报价数 最新报价
(元)
供应商 报价地区 最新报价时间
语音识别服务引擎 讯飞智元语音转写引擎系统V1.0|7路 1 查看价格 天地伟业技术有限公司 四川  成都市 2020-08-28
语音转写识别系统 语音转写识别系统可实现对普通话连续语音的实时转写,并提供对已转写文字的后处理及字音同步对齐能力;包含实时转写、历史音频转写、会议信息管理三大核心功能,可实现对实时会议语音及导入录音的转写功能,并提|1套 3 查看价格 深圳立通电子有限公司 公司 广东  深圳市 2021-12-06
IVR自动语音系统搬迁 IVR自动语音系统搬迁|1.00项 1 查看价格 广州市熹尚科技设备有限公司 全国   2019-12-20
IVR自动语音系统搬迁 IVR自动语音系统搬迁|1.00项 1 查看价格 广州曹易智能科技有限公司 全国   2019-12-30
语音识别服务软件 1.实时语音转写:是对音频流做实时语音识别,可以做到"边说话边同步输出文字"的效果.2.语音识别准确率:普通话准确率最高可达98%(清晰普通话中文语音实时转写效果). 3.支持多种音频编解码格式|2套 2 查看价格 广州市锐丰音响科技股份有限公司 广东   2022-08-08
语音识别服务软件 1.实时语音转写:是对音频流做实时语音识别,可以做到"边说话边同步输出文字"的效果.2.语音识别准确率:普通话准确率最高可达98%(清晰普通话中文语音实时转写效果). 3.支持多种音频编解码格式|1套 2 查看价格 广州市锐丰音响科技股份有限公司 广东   2022-08-08
语音识别系统 功能指标:1. 能够针对非实时录音文件进行离线音频转写.2、支持http协议端口以及websocket协议端口3、支持个性化热词加载使用4、支持音频压缩性能指标:1.、普通话音频转写识别率不小于85%.2、1小时录音转写不大于15分钟|1套 3 查看价格 深圳市华拓科技有限公司 全国   2021-09-23
语音识别主机(含软件) 语音识别系统主机是多路音频采集设备,音频输入输出可192K/24bit采样,内嵌ARM-A9构架核心系统板对采集的音频数据进行处理(数字采集包含16K/16Bit采样数据格式),并将处理后的音频|1台 3 查看价格 深圳讯豪信息技术有限公司 广东  阳江市 2022-03-09

自动语音识别常见问题

  • 语音识别电灯开关怎么制作?

    首先制作简易开关,用两个贴片相互错开,按下相连即可,可以简单参考一下,你们家里的开关,看看原理;其次,你可以把导线连载电极上,让灯泡连接在导线上不就可以了吗。这些你都可以参考一下实物,简单分析一下即可...

  • 语音识别电灯开关怎么制作?

    这个只要在声控开关的基础上加一个语音芯片(要定做你的“亮电灯”和“关电灯”的语音芯片),再用一个识别电路与你声音进行比对相同时输出控制信号.这还要有一个声控取样电路,就是模数转电路.元件不多,但要调试...

  • 语音识别开关价格大概是多少?

    智能语音控制开关在目前在中国也有十多年,家庭安防,智能家电,自动窗帘,智能终端,空中控制,智能照明,集中控制,家电控制,电脑遥控器,智能开关,无线控制,安防系统,智能家居,智能空调,智能插座,电器控制...

自动语音识别文献

基于B/S结构的语音识别考试系统设计与实现 基于B/S结构的语音识别考试系统设计与实现

格式:pdf

大小:349KB

页数: 1页

评分: 4.3

随着高等职业教育和网络技术的快速发展,传统的C/S结构的考试系统已不能满足使用需求,运用B/S结构设计一套语音识别考试系统体现了许多优势。本文以齐齐哈尔工程学院考试系统为背景,描述了采用B/S结构模式设计系统的模块、数据流图,使用ASP语言设计技术搭建系统平台,让学生、教师、管理员三类用户随时注册和登录,在不同的用户界面实现不同的系统功能。

立即下载
电梯语音识别外招串行通信板设计 电梯语音识别外招串行通信板设计

格式:pdf

大小:349KB

页数: 5页

评分: 4.7

通过语音识别技术在电梯系统的应用研究,文章提出一种具有语音识别功能的电梯外招串行通信板的设计,其以STM32作为主控制芯片,结合LD3320语音识别集成芯片,加入软硬件抗干扰设计,应用于电梯各层门厅外招系统中,能够通过语音方式实现呼梯。经过实践测试,系统工作稳定,实时性良好,通信信号稳定。在安静环境下,呼梯识别率约达90%;在嘈杂环境中,呼梯识别率还有待进一步提高。

立即下载

TTS就是Text To Speech,文本转语音,文本朗读,差不多是一个意思。在语音系统开发中经常要用到。

目前市场上的TTS很多,实现方式也各式各样,有的很昂贵,如科大讯飞,据说当初得到863计划的资助,有很高的技术;有的相对便宜,如捷通华声, InfoTalk;也有免费的,如微软的TTS产品。

相对于ASR(Automatic Speech Recognition,自动语音识别)来说,实现一个TTS产品所需要的技术难度不算大,在我看来也就是个力气活。

要是让我们来做一个能够把汉语句子朗读出来的TTS,我们会怎么做呢?

有一种最简单的TTS,就是把每个字都念出来,你会问,岂不要录制6千多个汉字的语音?幸运的是,汉语的音节很少,很多同音字。我们最多只是需要录制: 声母数×韵母数×4,(其实不是每个读音都有4声),这样算来,最多只需要录制几百个语音就可以了。

在合成的时候需要一张汉字对应拼音的对照表,汉字拼音输入法也依赖这张表,可以在网上找到,不过通常没有4声音调,大不了自己加上,呵呵,要不怎么说是力气活呢。

这样做出来的TTS效果也还可以,特别是朗读一些没有特别含义的如姓名,家庭住址,股票代码等汉语句子,听起来足够清晰。这要归功于我们伟大的母语通常都是单音节,从古代的时候开始,每个汉字就有一个词,表达一个意思。而且汉字不同于英语,英语里面很多连读,音调节奏变化很大,汉字就简单多了。

当然,你仍然要处理一些细节,比如多音字,把"银行"读成"yin xing"就不对了;再比如,标点符号的处理,数字、字母的处理,这些问题对于写过很多程序的你,当然不难了。

国内的一些语音板卡带的TTS,不管是卖钱的还是免费的,大体都是这样做出来的,也就是这样的效果。

如果要把TTS的效果弄好一点,再来点力气活,把基本的词录制成语音,如常见的两字词,四字成语等,再做个词库和语音库的对照表,每次需要合成时到词库里面找。这样以词为单位,比以字为单位,效果自然是好多了。当然,这里面还是有个技术,就是分词的技术,要把复杂的句子断成合理的词序列,也有点技术。这也要怪新文化那些先驱们,当初倡导白话文,引进西文的横排格式、标点符号的时候,没有引进西文中的空格分词。不过即使分词算法那么不高效,不那么准确,也问题不大,如前面所说,汉字是单音节词,把声音合起来,大体上不会有错。

当然,科大讯飞的力气活又干的多了些,据说已经进化到以常用句子为单位来录音了,大家可以想像,这要耗费更多的力气,换来更好的效果。

至于增加一些衔接处的"词料",弄一些修饰性的音调,我认为是无关紧要的,对整体的效果改进不是太大。

市面上商品化TTS一般还支持粤语,请个粤语播音员录音,把上面的力气活重做一遍就是了。

再说句题外话,很多人觉得录音最好找电台、电视台的播音员,其实找个你周围的女同事来录制,只要吐字清晰就可以了。在某种情况下,寻常声音比字正腔圆的新闻联播来得可爱。

再来说说文本的标识,对于复杂文本,某些内容程序没有办法处理,需要标识出来。比如,单纯的数字"128",是应该念成"一百二十八"还是"一二八"?解决办法通常是加入XML标注,如微软的TTS:"<context ID = "number_cardinal">128</context>"念成"一百二十八","<context ID = "number_digit">128</context>"将念成"一二八"。TTS引擎可以去解释这些标注。遗憾的是,语音XML标注并没有形成大家都完全认可的标准,基本上是各自一套。

再说说TTS应用编程,微软的TTS编程接口叫SAPI,是COM接口,开发起来还是有点麻烦,还好MSDN的网站上资料很全面。微软的TTS虽然免费,但其中文角色目前是个男声,声音略嫌混浊,感觉不爽。

国内一般的厂家提供API调用接口,相对比较简单,可以方便地嵌入应用程序中去。

商品化的TTS还有个并发许可限制,就是限制同时合成的并发线程数,我觉得这个限制用处不大。无论哪种TTS,都可以将文本文件转换成语音文件,供语音卡播放。大部分应用句子比较短小,一般不会超过100个汉字,合成的时间是非常短的,弄个线程专门负责合成,其它应用向该线程请求就是了,万一句子很长,把它分解成多个短句子就是了,播放的速度总是比合成的速度慢。

也很多应用是脱机合成,没有实时性要求,就更不必买多个许可了。

更多情况下,我们甚至没有必要购买TTS,比如语音开发中常见的费用催缴,拨通后播放:"尊敬的客户,您本月的费用是:212元",前面部分对所有客户都一样,录一个语音文件就是了,而数字的合成是很简单的,你只要录制好10个数字语音,再加上十,百,千,万,再加上金钱的单位"元"。

科大讯飞股份有限公司语音合成技术

语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。

科大讯飞股份有限公司语音识别技术

自动语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

科大讯飞股份有限公司语音评测技术

语音评测技术,又称计算机辅助语言学习(Computer Assisted Language Learning)技术,是一种通过机器自动对发音进行评分、检错并给出矫正指导的技术。语音评测技术是智能语音处理领域的一项研究前沿,同时又因为能显著提高受众对语言(口语)学习的兴趣、效率和效果而有着广阔的应用前景。

科大讯飞股份有限公司自然语言

自然语言是几千年来人们生活、工作、学习中必不可少的元素,而计算机是20世纪最伟大的发明之一,如何利用计算机对人类掌握的自然语言进行处理、甚至理解,使计算机具备人类的听说读写能力,一直是国内外研究机构非常关注和积极开展的研究工作。

科大讯飞股份有限公司面对面翻译

“面对面翻译”是讯飞输入法升级的新增功能。该功能支持中英、中俄、中日、中韩四种对话翻译模式,并配备有真人发音,中文用户通过它可以直接与外国友人面对面交流。

科大讯飞股份有限公司文字扫描识别

文字扫描识别是讯飞输入法新上线的又一功能。该功能可通过拍照和上传已有图片实现。但是受限于文字特别是艺术字体文字的颜色及阴影等变量的干扰,该功能尚不能实现较高的识别率。

科大讯飞股份有限公司方言识别

方言识别是科大讯飞在AI能力开发上独具特色的“卖点”,支持22种方言,其中粤语、四川话、东北话、河南话等方言的识别率均已超过90%。

语音答疑:

建造师答疑提供语音提问服务,将问题通过语音清晰表述,系统将进行自动语音识别,分析问题性质,分类筛选,找到最适合的答疑老师,及时给出最准确的深度解析。

拍照答疑:

建造师答疑提供拍照提问服务,将问题及复杂公式通过手机拍照上传,即可将问题送达分析系统或指定答疑名师,用极简的操作步骤完成疑问的解答。

最直白的解析:

解析作为对问题的解答与分析,需要通俗易懂,对深入的问题进行通俗的解答,用最直白和形象的语言,力求清晰诠释误解点,建造师答疑应用通过答疑团队对问题的深入讨论和探究,从提问的角度出发,完全站在问题发生点解决问题,做到透彻明了。

疑难知识点,名师举例解答:

对于晦涩难懂的知识点,通过一个经典案例,进行透彻解析,让死的知识点活起来,赋予每一个知识点生命,从枯燥的学习过程中解放出来,让学习过程变的更有乐趣,生动鲜活。

经典问题,精彩解析,大家推选:

基于用户的不断筛选,实时更新问题及解析推选榜单,大家共同推选和预测本年度最有可能在考试中遇到的问题。

热播视频解析推送,只推重点:

热播视频是根据历年来考试中容易犯错的问题,制作的视频解析,通过对必考点、易错点、重难点的讲解,将碎片时间合理运用,视频长度1-3分钟,从繁杂的工作中抽空学习,已经是更多用户迫不得已的选择。

自动语音识别相关推荐
  • 相关百科
  • 相关知识
  • 相关专栏