研究人员希望将自动语音识别扩展到2000种语言
卡内基梅隆大学的一组研究人员正在寻求将自动语音识别扩展到2,000种语言。截至目前,全世界估计有7,000到8,000种口头语言中只有一部分会受益于现代语言技术,例如语音到文本的转录或自动字幕。
李新建是博士。计算机科学学院语言技术研究所(LTI)的学生。
“这个世界上有很多人会说多种语言,但并没有为所有人开发语言技术工具,”他说。“为所有人开发技术和良好的语言模型是这项研究的目标之一。”
Li属于一个专家团队,他们希望简化语言开发语音识别模型所需的数据要求。
该团队还包括LTI教职员工Shinji Watanabe、Florian Metze、David Mortensen和Alan Black。
在韩国举行的Interspeech 2022上展示了题为“ASR2K:大约2,000种无音频语言的语音识别”的研究。
大多数现有的语音识别模型都需要文本和音频数据集。虽然存在数千种语言的文本数据,但音频却并非如此。该团队希望通过关注多种语言通用的语言元素来消除对音频数据的需求。
语音识别技术通常专注于一种语言的音素,这是将其与其他语言区分开来的独特声音。这些对于每种语言都是独一无二的。同时,语言有描述一个词物理发音的音素,多个音素可以对应一个音素。虽然不同的语言可以有不同的音素,但底层的音素可能是相同的。
该团队正在研究一种语音识别模型,该模型较少依赖于音素,更多地依赖于有关电话如何在语言之间共享的信息。这有助于减少为每种语言构建单独模型所需的工作量。通过将模型与系统发育树(一种映射语言之间关系的图表)配对,它有助于制定发音规则。该团队的模型和树结构使他们能够在没有音频数据的情况下逼近数千种语言的语音模型。
“我们正在努力消除这种音频数据要求,这有助于我们将语言从100种增加到2000种,”李说。“这是第一个针对如此大量语言的研究,我们是第一个旨在将语言工具扩展到这个范围的团队。”
该研究虽然仍处于早期阶段,但已将现有的语言近似工具改进了5%。
“每种语言都是其文化中非常重要的因素。每种语言都有自己的故事,如果你不努力保护语言,这些故事可能会丢失,”李说。“开发这种语音识别系统和这个工具是试图保护这些语言的一个步骤。”