- 新一代人工智能与语音识别
- 马延周
- 869字
- 2021-03-31 00:39:39
前言
随着人工智能、计算技术和信号处理技术的飞速发展,以及自然语言与计算机网络的结合,语言的功能已由人际交流延伸至人机交流和机机交流,而实现这一目标的重要前提是计算机能够听懂并识别和理解人类的语言。当前,作为人机交互的关键技术,语音信息智能处理已成为网络空间环境下世界各国研究者广泛关注的热点问题之一。尤其是随着新媒体的出现和大数据的兴起,人们迫切需要对具有多通道、多来源、多语言特征的海量语音信息技术进行深化研究与创新突破,此项技术的战略意义和安全价值日渐突显。
近年来,国内外众多科研院所和企业都对英文和中文语音识别进行了深入的探索和研究,开发了一系列实用化系统,但是在俄语语音识别领域,尤其是对连续语音识别的研究还相对薄弱。本书通过考察分析国内外语音识别技术的研究现状及存在的难题,重点研究俄语连续语音识别的基本原理和关键技术,尝试采用深度神经网络(DNN)的声学模型优化训练方法,设计俄语连续语音识别原型系统。
本书试图解决以下三个问题:
(1)俄语新闻语音语料和文本语料的采集、过滤、清洗、标注及建库方法;
(2)建立基于DNN的声学模型和基于SRILM的语言模型,分析两类模型的训练算法优化和训练结果,并通过对比预测生成适用于语音识别的俄语发音词典;
(3)设计与实现兼具在线和离线识别功能的俄语连续语音识别原型系统,并对原型系统的性能进行测试验证。
本书取得的主要成果如下:
(1)在俄语声学模型训练过程中设计了基于众包的语音标注平台,建立了360小时的俄语新闻标注语音语料库,形成俄语语音识别音素集,采用DNN的优化训练方法生成了大小为59.7MB的声学模型;
(2)在俄语语言模型训练过程中设计了俄语新闻文本语料过滤清洗系统,建立了10GB规模的纯净可训练俄语文本语料库,采用SRILM的优化训练方法生成了大小为1.21GB的四元剪枝语言模型;
(3)通过数据驱动的方法预测生成包含76277个词形的俄语发音词典,利用该词典的数据资源,并基于Kaldi进行二次开发,实现了具有在线识别和离线识别功能的俄语连续语音识别原型系统,可以为面向特定领域的俄语语音识别实用系统的研发提供基础理论和关键技术支撑。
马延周
2019年7月