微软小冰养成计划古怪精灵小丫头的蜕变记

发布时间：2019-11-25 20:49:17 所属栏目：手机新闻来源：网络整理

导读：自2014年，微软小冰诞生以来，这个侧重在人工智能拟合人类情商维度发展的小冰，不断加强着自身在EQ各方面的成长。截至目前，小冰共历经了7次演进3大阶段，从早期基本的人工智能交互→初级感官→拥有高级感观的第七代小冰，对话引擎帮助其实现了主导式对话的

副标题[/!--empirenews.page--]

　　【家电频道】自2014年，微软小冰诞生以来，这个侧重在人工智能拟合人类情商维度发展的小冰，不断加强着自身在EQ各方面的成长。截至目前，小冰共历经了7次演进3大阶段，从早期基本的人工智能交互→初级感官→拥有高级感观的第七代小冰，对话引擎帮助其实现了主导式对话的迈进。

　　如果说小冰近年来较为耀眼的成就，无疑是5代时向外界展现的媲美甚至超越人类偶像的唱功实力，以及近期7代在央美美术馆首次举办的个人绘画展。

　　在小冰成长的背后，离不开微软的“养成”。此次，有幸与3位微软(亚洲)互联网工程院科学家进行对话，聊了聊小冰背后那些鲜为人知的技术故事。

　　朝向自我完备的对话机器人

　　在NLP领域，微软对小冰的期望是，不仅能从人类对话中学习怎样去说话，更要与垂直在其他领域的机器人进行信息分享与能力互补。微软曾在ACL上做过这样一次尝试，让两个检索模型在训练过程中互为师生，每次迭代，都能将知识传达给另外一个模型，同时亦能从另外一个模型中接触到知识，从而实现互相学习。

　　据微软小冰首席NLP科学家武威介绍称：“从一开始做检索模型，通过重用已有的人类对话来实现人机交互。到后来研发的生成模型，小冰实现了能够自主去合成回复。再到现今的共感模型，让小冰拥有了把控整个对话流程的能力。”

微软小冰养成计划古怪精灵小丫头的蜕变记

　　微软小冰首席NLP科学家武威

　　这些能力的背后，均是由核心的对话引擎进行贯穿。从早期简单的LSTM模型到当下的BERT预训练的模型，模型的质量有了极大飞跃。模型的演进历程，也印证着小冰从单轮到多轮、从浅层次匹配到深层次表示的成长之路。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　而在业界，很多人认为深度学习的本质就是表示学习，其中表示指的是通过模型参数，采用何种方式与形式来表示模型的输入观测样本，表示学习则是指对观测样本的有效表示，说通俗来讲，便是怎么样表示用户输入以及回复侯选。

　　但微软的做法是，让输入和回复侯选在每一个词上都进行交互，得到一个充分的交互矩阵，再把交互的信息从这个矩阵中通过神经网络抽取出来。也就是将外部知识引入到匹配里来，在知识层面、词语层面、短语层面进行表示，并在多种力度上进行交互，最终把多种力度上进行交互的信息抽出，融合成最后输入和回复侯选的匹配。

　　在生成模型方面，为了从人类的对话中学习说话的技巧，自第5代小冰开始，微软便建立了一个1:1的生成模型。得益于这套模型，让小冰从一个只能进行单一模态回复的AI，跨越到了进行多样化的信息回复(含声音、视觉、语言)的对话机器人。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　举个具象化例子来讲，现今如果你跟小冰说“脸上有些红血丝”，小冰便会进行“我也是敏感肌”此类回复。这其中，是通过外部的无监督训练话题模型，产生一些话题语料(如敏感肌话题)，随后生成模型通过一个话题注意力机制，去进行话题语料的遴选，并在解码的过程中单独做出一个话题的生成概率。

　　当然，除检索和生成模型外，小冰成长的另一位“导师”共感模型则不得不提，自第6代共感模型出现后，其左右着小冰应该说什么以及怎样去说。武威称：“这个模型让小冰从原来基于上下文直接产生回复的模式，变为了从上下文到决策，再决策回复的模式。其中最大的灵活性就在于所谓的策略，这个策略可以是一些小冰想要表达的意图，或是听一听对方在表达什么。”

　　微软的意图其实很明确，就是要将让AI通过多模态将知识连结在一起，进行消化、吸收，最终形成一套有机的输出，让小冰能够更具感情的与人类进行对话。

　　不仅要能说更要会唱

　　除了会说外，微软的另一个养成计划便是要培养小冰开口唱歌。但唱歌与对话是两种截然不同的课题，面对的挑战也大相径庭。

　　比如说，让每个人学好普通话容易，但若想让每个人唱歌都不跑调却很难。此外机器学习主要依赖于数据，在对话训练中，网络有着大量文档、知识图谱、图片、视频，以及搜索引擎此类天然优势，而歌曲库中显然没有太多高质量的资源，曲库往往留存的是最终成型板，这便要求机器有将人声与伴奏音轨区分而出的能力。再者，唱歌还要面临发音、节拍、旋律等多元化的挑战。

　　而此前，传统合成的方法是，将单元进行拼接，录制不同长度、不同音高的独立发音，从而建立一个单元库。在合成时，从单元库挑选一个最合要求的单元，处理它的时长、音高达到预期效果，再将这些单元串起来，进行单元拼接，得到理想的音频。

　　虽然这个方法比较简单也能得到最佳音质，但其最大的问题便是在单元采集环节。用这种方法生成出的歌往往比较生硬一些，字符之间听起来更像是在“蹦”而非“唱”。因此，微软选择了另一条道路——参数合成。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　据微软小冰首席语音科学家栾剑介绍称：“参数合成的方法差异点在于，前者是建立单元库，后者则是将所有录音的数据提取出声学参数(时长、音高等)进行建模，合成时根据所要发音到模型里预测，再通过这个声学参数、声码器重构音频波形。”

微软小冰养成计划古怪精灵小丫头的蜕变记

　　微软小冰首席语音科学家栾剑

（编辑：555手机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

谷歌Pixel 7系列手机售	索尼PS5新机将采用6nm
格兰仕预制菜微波炉家	年轻人第一台入门级智

微软小冰养成计划 古怪精灵小丫头的蜕变记

微软小冰养成计划古怪精灵小丫头的蜕变记