搜狗AI交互技术颠覆语音背后，超强T4助力AI+语音猛冲行业领先

发布时间：2020-04-11 15:41:17 所属栏目：智能家居来源：网络整理

导读：搜狗AI交互技术深耕行业背后：GPU集群助力，性能效率成倍提升

副标题[/!--empirenews.page--] 搜狗AI交互技术颠覆语音背后，超强T4助力AI+语音猛冲行业领先

智东西（公众号：zhidxcom）
文 | 韦世玮

随着AI技术的爆发和发展，智能语音技术已逐渐成为人们生活中最普遍的AI交互技术之一。

事实上，语言作为维系人与人之间情感和交际的重要纽带，一直以不同的承载形式为人们所用。例如在搜狗以语言为核心的AI技术布局中，从中文、多方言和外国语种的语音识别转写、AI同传翻译，再到个性化的语音合成和变声……在人们生活中语言应用的方方面面，都不乏搜狗的身影。

如今，搜狗作为国产AI+语音领域颠覆传统语音行业领先者之一，AI语音技术具有高识别率、高准确率、低时延和多模态融合等优势，已广泛应用到教育、商务、旅游等多个应用场景，并已深入你我身边的千家万户中。

其中，搜狗语音识别准确率最高可达98%，语音日均请求量已达十亿级，尤其在录音笔行业，其搜狗输入法通过AI赋能，也已为市场超90%的录音笔提供接入服务。

智东西发现，在搜狗AI技术体系一次次引领行业创新，颠覆传统行业生态的背后，是搜狗AI算法平台和深度学习平台Eva搭建起的“骨架”。而AI平台和深度学习框架的背后，强大的算力平台也助力其构筑起了语音领域的强大的竞争力和领先性。

那么，在搜狗多年的AI业务布局中，搜狗是如何逐渐构筑起自己庞大的AI交互技术生态？近日，智东西与搜狗AI交互事业部首席科学家陈伟进行了深入交流，试图探寻搜狗AI交互技术其背后的故事，进一步挖掘智能语音技术的核心与发展。

搜狗AI交互技术颠覆语音背后，超强T4助力AI+语音猛冲行业领先

一、国内AI语音行业先锋，语音处理日请求量超十几亿次

2020年开年以来，新型冠状肺炎病毒疫情一直影响着国内市场的复工和发展，但陈伟带领的搜狗AI交互技术团队在科研领域的技术应用和研究，并没有受到影响而减缓。

“搜狗在AI领域始终坚持的就是以语言为核心。”陈伟谈到，他所带领的搜狗AI交互事业部团队，核心解决的问题则是围绕自然交互领域，让人机交互更加自然，尤其是多模态的交互。

实际上，搜狗以语言为核心的AI技术主要布局自然交互和知识计算两大赛道。

搜狗AI主要通过语音和图像的感知、对话、翻译等来实现人与计算机之间的交互；另一方面，知识计算则更多地围绕基于海量的网络数据或已有数据，通过搜索和自然语言处理（NLP），从中抽取出真正的知识以解决问题。

从2012年起，随着搜狗开始投入智能语音技术的研发，其AI团队规模已发展至将近1000人。

而在搜狗AI体系构建的背后，有一个名为Eva的搜狗深度学习平台则发挥了关键作用。

“在深度神经网络建立之前，搜狗的每一项技术如语音合成和语音识别，是两个独立的方向。”陈伟介绍到，但在Eva构建之后，从底层的模型架构到算法设计等方面都形成了一个端到端的有机整体。

通俗地说，就是它能够将语音、图像、NLP等技术集成在一起，为研发人员统一提供深度学习模型的训练。

搜狗AI交互技术颠覆语音背后，超强T4助力AI+语音猛冲行业领先

由于最初的模型和算法并不复杂，搜狗一开始的深度神经网络仍然依靠CPU来运行。但随着数据的增长和算法复杂度的提升，模型训练的数据规模十分庞大，CPU早已无法满足深度神经网络的训练需求。

例如，在语音模型训练过程中，动辄需要十几万小时的数据。“别说CPU，就算用数十块英伟达GPU来进行训练，也需要数月的时间才能完成。”陈伟说。

因此，随着深度神经网络并行计算需求的增加，以及模型愈发复杂，搜狗从2013年后开始逐渐探索用GPU来对模型进行训练，以持续迭代线上的AI服务性能。据了解，基于英伟达强大的GPU算力支持，目前搜狗语音的日均请求量已达十亿以上。

二、英伟达GPU+超大规模推理平台，助力搜狗AI语音两大创新方向

而在搜狗强大AI交互技术过程中，英伟达T4和Tensor RT为搜狗实现算力突破，创新行业提供了强劲的技术支持。

在陈伟看来，英伟达GPU在训练和推理两个方向都提供了强大的算力支持。

一是面向线下的模型训练，需要GPU具有充分强大的算力和足够的显存，以驱动模型基于大数据的训练，如目前使用的Tesla V100和P40；二是面向线上的推理和部署，这对GPU显存和算力的需求相对较小，适合对大规模海量计算机进行部署，如Tesla P4和T4。

其中，T4 GPU专为优化和提升AI性能而打造，配备了英伟达TurningTensor核心，能够在实现高效算力的同时，进一步支持服务器实现AI训练和推理的横向扩展。

T4 GPU具有三大性能优势。一是其能够优化可扩展服务器，能效高出CPU的50倍以上，大大降低运营成本；二是它具有多精度计算特性，可实现FP32、FP16到INT8以及INT4精度的突破性AI性能，其训练性能达到CPU的9.3倍，推理性能超36倍；三是它能够加速深度学习和机器学习的训练、推理、视频解码和虚拟桌面，并支持所有AI框架和网络模型，进一步提高大规模部署的效用。

搜狗AI交互技术颠覆语音背后，超强T4助力AI+语音猛冲行业领先

此外，搜狗在使用GPU推理的过程中，还利用了英伟达超大规模推理平台Tensor RT，以加速深度神经网络的推理。

据了解，Tensor RT超大规模推理平台是英伟达专为全球开发者和数据科学家们开发，其配备了英伟达T4 GPU，能够加速图像、语音、翻译和推荐系统等广泛领域的神经网络。同时，它还支持加速业内各大主流的深度学习框架，例如TensorFlow、PyTorch、MXNet、Chainer和Caffe2。

“好的算法和庞大的数据，一定需要好的运算平台。”在陈伟看来，英伟达的GPU和AI推理平台为搜狗AI技术体系的构建，提供了批量运算或并行运算的能力，并逐渐形成良好的开发生态。

三、T4加持，语音识别准确率高达98%

如今，搜狗在自然交互和知识计算两个AI战略方向上，布局了语音、计算机视觉、对话、翻译、问答多个领域，并在搜狗分身、搜狗同传、搜狗变声等多个差异化赛道持续领跑，对算力需求进一步提升。

“随着搜狗语音识别、多模态识别（语音+唇语）、OCR、机器翻译、语音合成、图像生成等应用场景和需求的扩展，它们对算力资源的需求是根据不同任务而定的。”陈伟举例，搜狗的多模态识别服务，是将语音和唇语的两个模态融合后再进行识别，而这一多模态感知的方式也使得模型对运算的要求更加复杂。

（编辑：555手机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

4K超高清小米电视EA	电视销量创12年冰点年
3380元佳明公布首款智	小米又缔造了一个爆款