引言 辨识技术原理概述 核心技术应用领域 成功案例应用 辨识流程图

过去由于电脑运算能力不足,想利用自然的口语方式与电脑沟通几乎是不可能,随着电脑硬体发展成熟,电脑整体的效能已大大提升。智慧型人机介面技术的应用,特别像是语音辨识等相关功能,已经被广泛应用于各式资讯产品之中。

透过智慧型语音命令与语音合成技术,轻松自在地操控个人电脑、各式手持式装置,甚至是IA资讯家电,这些听得懂使用者自然对话的科技产品将不再是冷冰冰的机器,取而代之的将会是更具人性化的互动式电子产品。例如,使用者可以利用手机进行声控拨号,或是在PDA上直接以声控方式操控或是进行即时资料搜寻,各种IA产品及玩具也可透过语音命令与语音合成技术,增加产品与使用者的互动性,预估语音辨识相关技术的市场规模可观。

语音辨识相关技术在企业的应用则可以协助企业减低人力成本,并增进服务品质,带来新的实质收益。例如协助证券业者,让广大的投资人直接透过电话语音方式下单购买股票,或是听取股市行情等。

 
 蒙恬科技目前研发两项语音技术,包括‘语音命令’与‘语音合成’两项技术,皆是实现人机互动的关键技术。语音命令(VC)是Voice Command,指声控指令,透过电脑识别人所发出的语音指令,进而操控电脑的动作。语音合成(TTS)是Text-To-Speech,指将输入的文字转换成语音输出的技术。

  智慧型语音命令技术的原理

智慧型语音命令技术是先由话筒、麦克风等输入设备输入语音命令,先进的语音技术会将输入的语音转换成语音数位信号,并且对该信号进行语意分析处理,同时提取语音特征,接下来会在预先建立的语音词库里,进行资料搜索与比对,并找最相似的语意作为辨识后的结果,并输出成文字或直接执行指令。

蒙恬科技现有的智慧型语音命令技术,是采用‘非特定人大辞汇量连续语音’的方式进行开发,可以适应不同发音人和不同发音环境,并且蒙恬科技智慧型语音命令技术已针对所使用的特征、声学模型、搜索方法等进行了‘最优化设计’,可以在像是嵌入式系统中,或是仅具小处理能力的CPU和小存储量的情况下进行即时语音识别,而对于识别精度却仅有小幅损失。

  智慧型语音合成技术的原理

     智慧型语音合成技术是先将输入文字作“语言学预处理”,这是对文章段落进行特殊符号(如数位元元串、英文字串、货币符号等)与断句分析,根据文章中的标点、段落等作文本的划分,并将之转换成相应的读音。

接着进行“文本分析”,即是针对文章中的语句作“词”的切分,并将“字码”转换成相应的“音码”,再来便是透过语音韵律规则资料库,或类神经网路技术以演算出准确的音高(Pitch)、音长(Duration)、音强(Energy)、与音节间的停顿(Pause)大小,以正确的表达语意,并透过电脑模拟真人智慧发音。

由于实际言语千变万化,各种语言现象极其丰富,难以用有限的韵律规则资料库涵盖所有情况,因此蒙恬科技研发的智慧型语音合成系统,同时兼有韵律规则库和类神经网路技术,这两种演算法以生成语音韵律,以确保语音合成之自然流畅。

现阶段虽然语音辨识的市场很大,但是整体而言,中文语音辨识技术仍然有许多方面需要改进,例如必须解决输入时环境的噪音等问题。蒙恬科技现有的语音技术,已可以提供90%以上的辨识率,目前先自PC平台移转到个人数位助理(PDA)上,已开发完成WinCE作业系统上的语音合成及语音命令技术。

 
个人电脑声控系统
  个人电脑上的各种语音互动功能,包括语音代理人(语音秘书)、语音上网、语音建立表格、语音计算机、语音字典、语音互动游戏、设定即时语音提示、文稿语音校对、语音电子邮件等。
手持式电子装置声控系统
  各式手机、PDA等手持式电子装置上的语音操作与查询,并进行资料朗读。
声控拨号系统
  应用于固定式电话的声控拨号功能。
声控家电系统
  以语音方式控制IA资讯家电,或应用于多媒体商务/办公、语言学习教学、购物系统。
车用语音导航系统
  应用于智慧型汽车中,透过语音命令方式控制音响与汽车导航,以及车载电话的声控制系统。
工业机器之声控系统
公众资讯查询与播报系统
  可透过语音方式查询与听取如天气、交通、电话号码、广播电视节目和新闻等生活资讯。
银行业帐务语音查询服务系统
  让使用者透过语音方式取得帐户、线上交易、取得用户资料等。
证券业股票查询交易系统
  让使用者透过语音方式进行下单、交易确认与查询、最新股市行情查询等。
银行业帐务语音查询服务系统
  让使用者透过语音方式取得帐户、线上交易、取得用户资料等。
自动总机系统
  让使用者透过语音方式进行拨号、分机查询等。
声控玩具
  让使用者透过语音方式与智慧型玩具进行对话与互动。
导盲阅读系统
  残疾人语音辅助学习系统。
 
            蒙恬自行研发产品成功案例
 
嵌入式语音人机介面应用范围相当广泛,涵盖通讯、电脑、生活IA、车用等领域,尤其在荧幕和键盘输入受限的智慧型装置上,更彰显出应用价值。
 

  蒙恬听写王系列产品:整合中文语音与手写辨识之系统,其中整合既有之语音命令与语音合成技术,包括像是语音代理人(语音秘书)、语音上网、语音建立表格、语音计算机、语音字典、语音互动游戏、设定即时语音提示等。

 

 蒙恬笔系列产品:中文手写辨识之系统,并整合既有之语音命令与语音合成技术,包括像是语音上网、语音朗读机等。

蒙恬名片王系列产品:20种语文之名片辨识系统,并整合既有之语音命令与语音合成技术,使用者可以用中文语音搜寻名片资料。

 蒙恬扫译笔系列产品:中英文扫描翻译辨识之系统,整合既有语音合成技术,使用者可以指定将扫描之文字以国语或是粤语朗读出来。

 蒙恬声控王(Voking)语音辨识软体:行动语音命令系统,整合既有之语音命令技术,使用者用命令的方式,即可让 Pocket PC手机聪明地执行,举凡搜寻连络人资料、接受语音命令拨打电话、传送简讯、撰写 Email 给连络人、声控点歌、开启行事历、操作浏览器、相簿、档案总管及小算盘等应用程式。

            蒙恬企业核心技术授权成功案例
 
  研勤科技:整合蒙恬语音命令与合成技术,应用在智慧型声控3D卫星导航系统,利用声控操作手机导航,让使用者轻松驾驭,享受生活乐趣。
  语音地址技术:整合蒙恬语音命令技术,让邮务人员可透过语音方式直接输入台湾省全省地址所须的资讯,并将文字结果输出到邮务资讯资料库系统中。
  语音下单技术:整合蒙恬语音命令技术,利用语音文法分析、语音辨识及整合资料库存取特性,让证券营业员直接透过语音方式,直接输入股票买卖交易所需的资讯,并于确认后将资料即时传送到证交所完成股票交易。
 
  辨识流程图