6月24日,2023年度国家科学技术奖在京揭晓,共评选出250个项目。其中,由科大讯飞股份有限公司牵头,联合中国科学技术大学、清华大学、华为终端有限公司、中移(杭州)信息技术有限公司等高校及行业领军企业联合完成的“多语种智能语音关键技术及产业化”项目获2023年度国家科技进步奖一等奖。
这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域的首个国家科学技术进步奖一等奖,也是科大讯飞继2002年和2011年两次获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。
多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义。然而,智能语音也面临着如何突破复杂场景语音技术大规模使用门槛,如何基于自主可控的平台、实现国产软硬件的语音产业链自主可控等问题。
为解决语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题,科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,使得复杂场景下语音识别准确率得到重大突破。
如何应对小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题?科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终显著提升了小语种语音系统性能。
同时,为解决复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题,科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。
在解决使用国产芯片开展智能语音算法模型训练和推理面临的性能低、适配难方面,科大讯飞提出的硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。
通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。
大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等等未来智能产品创新。
6月27日,讯飞星火V4.0也将正式发布,底座能力全面对标GPT-4 Turbo,语音大模型也将迎来全新升级。
南方+记者 郜小平
下一篇:股票投资哪家强?一文看懂最佳选择