腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎
近日,腾讯云语音识别(Automatic Speech Recognition,ASR)方案基于大模型能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,可为不同行业、不同需求的客户提供高质量的语音识别服务,精准、高效助力千行百业持续创造应用价值、繁荣产业生态。
腾讯云ASR是将语音转化成文字的PaaS产品,依托微信智聆实验室自研技术,有效提高复杂场景的识别准确性,极大地改善复杂音频和低信噪比音频识别的效果。通过业界首创的高性能引擎,能够实现23种方言的语音识别,让用户无需事先定义方言,即可让模型进行自动化适应。另外,突破现有ASR引擎的场景局限,腾讯云ASR在线下销售、下沉市场等不同场景都能够灵活、广泛地进行使用。
目前,腾讯云ASR已经在微信、王者荣耀等腾讯内部产品以及外部不同行业持续落地,覆盖录音质检、会议实时转写、语音输入法等多个场景,产品单日调用量达到百亿次,单月服务的内外部企业客户数达到数千个。
自研多模态融合、蒸馏算法,带来更准确的语音识别性能
语音识别(ASR)是AI最早的应用场景之一,业界不少方案目前仅能针对简单场景进行精准识别,一旦音频环境复杂,或者多人交错说话、声音重叠,识别准确率就会大打折扣。为了助力解决上述语音识别应用难题,腾讯云ASR自研多模态融合算法、蒸馏和半监督算法等,强化上下文理解能力,大幅减少语音数据的标记工作,更好地提升复杂识别环境的准确率。
通过自研多模态融合算法,腾讯云在模型预训练阶段加入文本大语言模型(LLM),增加上下文预测的准确率,对部分通过纯音频识别无法正确识别的场景有了更好的提升作用,在各行业数据集中(尤其是低信噪比数据集)取得更佳效果。同时采用无监督学习,使得模型中加入大量未经标注的低资源数据,在垂类行业音频和方言音频上取得了重大突破。
同时,腾讯云还自研蒸馏和半监督算法,利用有监督数据,可以让ASR的小参数模型同时学习真值数据和知识蒸馏的数据,利用蒸馏算法,让小模型学习更多数据的相似性,从而提升各自的性能水平。
业界首创高性能引擎,支持多语言和多方言的混合识别
随着智能汽车普及、短视频配音、企业出海等趋势的兴起,多语种、多方言的语音识别需求逐渐加大。如何应对不同口音、语言的准确识别,也成为腾讯云发力ASR大模型创新的焦点。
腾讯云通过采用自研的高新技术,打造多项业界首创的高性能引擎,进一步增强ASR混合识别能力。依托业界首创的支持多种语言和多方言的混合识别引擎,腾讯云成功构建了中文方言大模型能力。提升23个方言语种的平均识别准确率(平均提升指标在7%以上),识别过程无需事先定义方言种类,实现对“普通话+方言”识别场景的自动化适应,为不同语种用户提供更全面的服务,有效满足了跨省市的语音识别需求。
混合识别引擎之外,腾讯云ASR还支持热词增强版、ASR情绪识别等多项业界首创功能,极大地改善复杂音频和低信噪比音频识别的效果,提升高达20%。通过高准确率、业界首创的语音识别功能创新,腾讯云ASR解决市场上ASR引擎需求问题的同时,成功构建适配多个领域的语音识别大模型,进一步扩展了其在不同场景的应用范围。
灵活、广泛适配多种应用场景,成本可控、性价比更高
将智能客服通话录音转化成文本,可能出现违规用语、危险用语;多数厂商需要依赖有监督数据进行模型的优化,因此在部分对识别要求较高的场景上,客户无法寻求到更合适的解决方案。面对语音识别要求越来越高的现状,如何让客户获取到识别率更好、覆盖面更广、性价比更高的语音识别服务,成为腾讯云ASR努力的目标。
腾讯云语音识别方案不仅能够更好地解决现有ASR引擎在高并发、高可用性方面的局限,在智能客服、语音输入法、下沉市场等多种应用场景,展现出了强大的灵活性和广泛性,使得各行业、各种特征迥异的音频都能获得相对高性能和更准确地转写服务。
例如在智能客服场景,百应科技通过腾讯云ASR强化电话外呼、智能外呼场景的录音文件识别、实时语音识别,大幅提升呼叫中心工作质量管控能力,完成人力难以完成的超大规模呼叫中心的电话录音质检问题;在语音输入法场景,KK键盘依托腾讯云ASR进一步提升产品的趣味性,满足了客户语弹聊天、游戏键盘、趣聊等核心功能的设计,有效提升了产品的留存和转化,以及品牌商业价值。
当前,腾讯云ASR已经落地在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业,积累了丰富的行业词库和标杆案例。未来,腾讯云将继续推动语音识别能力创新升级,帮助更多应用场景将大模型的技术力价值转化生产力价值,助力产业发展。