蒙恬科技目前研发两项语音技术,包括‘语音命令’与‘语音合成’两项技术,皆是实现人机互动的关键技术。语音命令(VC)是Voice Command,指声控指令,透过电脑识别人所发出的语音指令,进而操控电脑的动作。语音合成(TTS)是Text-To-Speech,指将输入的文字转换成语音输出的技术。
智慧型语音命令技术的原理
智慧型语音命令技术是先由话筒、麦克风等输入设备输入语音命令,先进的语音技术会将输入的语音转换成语音数位信号,并且对该信号进行语意分析处理,同时提取语音特征,接下来会在预先建立的语音词库里,进行资料搜索与比对,并找最相似的语意作为辨识后的结果,并输出成文字或直接执行指令。
蒙恬科技现有的智慧型语音命令技术,是采用‘非特定人大辞汇量连续语音’的方式进行开发,可以适应不同发音人和不同发音环境,并且蒙恬科技智慧型语音命令技术已针对所使用的特征、声学模型、搜索方法等进行了‘最优化设计’,可以在像是嵌入式系统中,或是仅具小处理能力的CPU和小存储量的情况下进行即时语音识别,而对于识别精度却仅有小幅损失。
智慧型语音合成技术的原理
智慧型语音合成技术是先将输入文字作“语言学预处理”,这是对文章段落进行特殊符号(如数位元元串、英文字串、货币符号等)与断句分析,根据文章中的标点、段落等作文本的划分,并将之转换成相应的读音。
接着进行“文本分析”,即是针对文章中的语句作“词”的切分,并将“字码”转换成相应的“音码”,再来便是透过语音韵律规则资料库,或类神经网路技术以演算出准确的音高(Pitch)、音长(Duration)、音强(Energy)、与音节间的停顿(Pause)大小,以正确的表达语意,并透过电脑模拟真人智慧发音。
由于实际言语千变万化,各种语言现象极其丰富,难以用有限的韵律规则资料库涵盖所有情况,因此蒙恬科技研发的智慧型语音合成系统,同时兼有韵律规则库和类神经网路技术,这两种演算法以生成语音韵律,以确保语音合成之自然流畅。
现阶段虽然语音辨识的市场很大,但是整体而言,中文语音辨识技术仍然有许多方面需要改进,例如必须解决输入时环境的噪音等问题。蒙恬科技现有的语音技术,已可以提供90%以上的辨识率,目前先自PC平台移转到个人数位助理(PDA)上,已开发完成WinCE作业系统上的语音合成及语音命令技术。