加入收藏 | 设为首页 | 会员中心 | 我要投稿 555手机网 (https://www.555shouji.com/)- 热门手机、手机评测、云手机、手游、5G!
当前位置: 首页 > 智能家居 > 正文

搜狗AI交互技术颠覆语音背后,超强T4助力AI+语音猛冲行业领先

发布时间:2020-04-11 15:41:17 所属栏目:智能家居 来源:网络整理
导读:搜狗AI交互技术深耕行业背后:GPU集群助力,性能效率成倍提升

搜狗AI交互技术颠覆语音背后,超强T4助力AI+语音猛冲行业领先

在陈伟看来,AI语音领域对运算的需求只会越来越大。他说,尽管近几年语音识别颠覆性的创新和突破越来越少,但现有技术还在持续迭代中,模型本身的学习能力也将不断加强。

与此同时,随着5G、IoT技术的推动,大数据也在急剧爆发和增长,这对于AI公司来说无疑意味着更复杂的模型和更庞大的训练数据,从而对GPU的算力提出了更高要求。

在搜狗的语音转写应用中,语音识别准确率是影响用户体验和应用的重要因素之一。

据介绍,目前搜狗语音输入法在业内具有领先的中英自由说能力、远场语音识别解决方案,以及业界首创的语音修改能力。例如,搜狗语音输入法能识别日韩英法等10余种外语和粤川等10种方言,支持语音增强和个性化交互,同时其语音识别准确率最高为98%,日均语音输入调用次数突破十亿次。

实际上,搜狗语音识别准确率的提升,主要依靠算力、深度学习技术和语料数据训练。在算力方面,搜狗从2017年起开始采用英伟达Tesla P4来加速和优化语音识别模型。

早在2017年,搜狗通过P4的并行计算推理速度,将语音识别请求效率提升50%。在之后的两年时间里,随着Cuda升级至9.1以及算力的持续优化,搜狗的语音识别请求效率不断提升。2019年11月,搜狗将P4升级至T4后效率再度实现突破,提升20%。

搜狗AI交互技术颠覆语音背后,超强T4助力AI+语音猛冲行业领先

伴随着引进T4 GPU,其语音识别峰值日均调用量也从2017年的3.2亿次,迅速增长到了2019年第三季度的8.3亿次,有效实现了对海量识别请求的处理,进一步强化了自身语音识别技术的潜力,为行业创新和变革提供了新的发展方向。

搜狗AI交互技术颠覆语音背后,超强T4助力AI+语音猛冲行业领先

四、T4优化WaveRNN声码器,推动源技术从学界落地产业

除了语音识别之外,语音合成亦是检验语音技术公司实力的标准之一。

搜狗语音合成支持男女多风格和中英俄多语种共数十种音色,同时系统只需用户上传5分钟的音频,即可生成该说话人的音色,甚至能实现说话人的风格迁移。

技术方面,搜狗的语音合成技术基于WaveNet和WaveRNN声码器研发,但由于WaveNet运算复杂度较高,因此它最初很难实现搜狗线上实时生成语音的服务。

为了优化WaveRNN声码器,搜狗一方面在WaveRNN源技术论文的基础上进行了大量的研究工作,并为了实用化修改大量代码结构;另一方面则基于T4对WaveRNN进行优化,并定制开发实现的gemm算子,进一步降低了语音合成的实时解码率。

搜狗通过T4的优化性能,也进一步打破学界与产业之间的迁移壁垒,真正实现国内语音行业首创,让WaveRNN声码器技术更好地服务AI语音行业的创新和发展。

搜狗AI交互技术颠覆语音背后,超强T4助力AI+语音猛冲行业领先

不仅如此,随着搜狗AI交互技术开始涉及更多图像相关的应用,如虚拟人、OCR、手写识别、唇语识别、图像以及视频生成等,其深度学习平台对高可用、并行训练服务能力的需求亦进一步提升。

例如,在搜狗AI平台对外开放的过程中,会有大量的用户涌入,基于平台进行训练并定制自己的模型,而在这一过程中,搜狗AI平台需要在任务之间做好排队调度,并充分考虑GPU的负载均衡等问题。

“因此从平台层面看,我们的服务会通过AI开放平台借助深度学习的能力,去帮助更多的用户实现定制化AI的可能性。”陈伟说到。

值得一提的是,随着英伟达Tensor RT7的推出,目前搜狗也开始在部分任务上尝试使用该平台。未来,随着搜狗AI技术和业务的迭代和创新,也会将Tensor RT7逐步引入到更多任务中。

五、高算力GPU助推语音交互和AI计算平台未来发展

如今,搜狗在AI语音听写方面,已与爱国者、纽曼、索尼、万城四家录音笔行业头部企业成立AI创新联盟,联合搜狗输入法为市场超90%的录音笔提供接入服务。

除此之外,搜狗通过语音+唇语的多模态识别技术研发唇语识别系统,嘈杂环境下识别准确率提升40%以上,同时搜狗还通过搜狗翻译、合成和识别等技术,在跨语言交流、机器同传等多个应用领域拿下行业领先的成绩。

未来,随着AI交互技术应用范围的不断扩展,搜狗也将针对搜狗AI开放平台、多模态技术融合等方面进行升级。

搜狗将借助AI开放平台加速推动AI核心能力对外开放;语音识别和语音合成两方面,包括个性化语音合成、语音变声、多模态交互、手写识别、多模态同传等技术也将带来更多的体验创新和升级。

从内部看,搜狗也将真正打通各个研究团队在GPU资源上的共享能力,并基于平台为公司提供一个相对通用的、统一的一套深度学习的并行训练能力。

而这些由内而外的技术升级,也将对GPU性能产生更大的需求。

“不仅仅是对GPU算力需求的增强,同时也需要GPU能够为我们提供更丰富的配套服务。”在陈伟看来,英伟达已逐渐打造了一个良好的AI生态,而搜狗作为生态的一份子,同样也希望它能够在生态上进一步支持搜狗的自身业务,继续助力搜狗AI技术的创新发展。

结语:AI交互技术应用全面爆发,GPU助力催化行业创新

语言的多模态应用,不知不觉间已成为人们生活中习以为常的技术,一句简单的语音识别转写、一次跨语种的同传翻译……这些都是AI交互技术应用在全面爆发的过程中,为人们生活带来的便利。

而在这些便利技术背后所催生的巨大算力需求,也为包括搜狗在内的许多企业提出了新的技术挑战。而搜狗通过借助强大的GPU计算平台,不仅突破了庞大AI计算负载给AI语音带来的算力瓶颈,亦为搜狗在AI语音领域的创新发展提供了重要的算力支持。

面对海量的数据分析请教,以及比以往更复杂的模型训练。在这一背景下,AI技术公司如何开拓并寻找更优质的技术支撑,对自身的基础设施进行更好的优化和提升,亦是每一家公司在AI落地和应用过程中需要考量的。

(编辑:555手机网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读