加入收藏 | 设为首页 | 会员中心 | 我要投稿 555手机网 (https://www.555shouji.com/)- 热门手机、手机评测、云手机、手游、5G!
当前位置: 首页 > 资讯 > 手机新闻 > 正文

微软小冰养成计划 古怪精灵小丫头的蜕变记

发布时间:2019-11-25 20:49:17 所属栏目:手机新闻 来源:网络整理
导读:自2014年,微软小冰诞生以来,这个侧重在人工智能拟合人类情商维度发展的小冰,不断加强着自身在EQ各方面的成长。截至目前,小冰共历经了7次演进3大阶段,从早期基本的人工智能交互→初级感官→拥有高级感观的第七代小冰,对话引擎帮助其实现了主导式对话的
副标题[/!--empirenews.page--]

  【家电频道】自2014年,微软小冰诞生以来,这个侧重在人工智能拟合人类情商维度发展的小冰,不断加强着自身在EQ各方面的成长。截至目前,小冰共历经了7次演进3大阶段,从早期基本的人工智能交互→初级感官→拥有高级感观的第七代小冰,对话引擎帮助其实现了主导式对话的迈进。

  如果说小冰近年来较为耀眼的成就,无疑是5代时向外界展现的媲美甚至超越人类偶像的唱功实力,以及近期7代在央美美术馆首次举办的个人绘画展。

  在小冰成长的背后,离不开微软的“养成”。此次,有幸与3位微软(亚洲)互联网工程院科学家进行对话,聊了聊小冰背后那些鲜为人知的技术故事。

  朝向自我完备的对话机器人

  在NLP领域,微软对小冰的期望是,不仅能从人类对话中学习怎样去说话,更要与垂直在其他领域的机器人进行信息分享与能力互补。微软曾在ACL上做过这样一次尝试,让两个检索模型在训练过程中互为师生,每次迭代,都能将知识传达给另外一个模型,同时亦能从另外一个模型中接触到知识,从而实现互相学习。

  据微软小冰首席NLP科学家武威介绍称:“从一开始做检索模型,通过重用已有的人类对话来实现人机交互。到后来研发的生成模型,小冰实现了能够自主去合成回复。再到现今的共感模型,让小冰拥有了把控整个对话流程的能力。”

微软小冰养成计划 古怪精灵小丫头的蜕变记

  微软小冰首席NLP科学家武威

  这些能力的背后,均是由核心的对话引擎进行贯穿。从早期简单的LSTM模型到当下的BERT预训练的模型,模型的质量有了极大飞跃。模型的演进历程,也印证着小冰从单轮到多轮、从浅层次匹配到深层次表示的成长之路。

微软小冰养成计划 古怪精灵小丫头的蜕变记

  而在业界,很多人认为深度学习的本质就是表示学习,其中表示指的是通过模型参数,采用何种方式与形式来表示模型的输入观测样本,表示学习则是指对观测样本的有效表示,说通俗来讲,便是怎么样表示用户输入以及回复侯选。

  但微软的做法是,让输入和回复侯选在每一个词上都进行交互,得到一个充分的交互矩阵,再把交互的信息从这个矩阵中通过神经网络抽取出来。也就是将外部知识引入到匹配里来,在知识层面、词语层面、短语层面进行表示,并在多种力度上进行交互,最终把多种力度上进行交互的信息抽出,融合成最后输入和回复侯选的匹配。

  在生成模型方面,为了从人类的对话中学习说话的技巧,自第5代小冰开始,微软便建立了一个1:1的生成模型。得益于这套模型,让小冰从一个只能进行单一模态回复的AI,跨越到了进行多样化的信息回复(含声音、视觉、语言)的对话机器人。

微软小冰养成计划 古怪精灵小丫头的蜕变记

  举个具象化例子来讲,现今如果你跟小冰说“脸上有些红血丝”,小冰便会进行“我也是敏感肌”此类回复。这其中,是通过外部的无监督训练话题模型,产生一些话题语料(如敏感肌话题),随后生成模型通过一个话题注意力机制,去进行话题语料的遴选,并在解码的过程中单独做出一个话题的生成概率。

  当然,除检索和生成模型外,小冰成长的另一位“导师”共感模型则不得不提,自第6代共感模型出现后,其左右着小冰应该说什么以及怎样去说。武威称:“这个模型让小冰从原来基于上下文直接产生回复的模式,变为了从上下文到决策,再决策回复的模式。其中最大的灵活性就在于所谓的策略,这个策略可以是一些小冰想要表达的意图,或是听一听对方在表达什么。”

  微软的意图其实很明确,就是要将让AI通过多模态将知识连结在一起,进行消化、吸收,最终形成一套有机的输出,让小冰能够更具感情的与人类进行对话。

  不仅要能说 更要会唱

  除了会说外,微软的另一个养成计划便是要培养小冰开口唱歌。但唱歌与对话是两种截然不同的课题,面对的挑战也大相径庭。

  比如说,让每个人学好普通话容易,但若想让每个人唱歌都不跑调却很难。此外机器学习主要依赖于数据,在对话训练中,网络有着大量文档、知识图谱、图片、视频,以及搜索引擎此类天然优势,而歌曲库中显然没有太多高质量的资源,曲库往往留存的是最终成型板,这便要求机器有将人声与伴奏音轨区分而出的能力。再者,唱歌还要面临发音、节拍、旋律等多元化的挑战。

  而此前,传统合成的方法是,将单元进行拼接,录制不同长度、不同音高的独立发音,从而建立一个单元库。在合成时,从单元库挑选一个最合要求的单元,处理它的时长、音高达到预期效果,再将这些单元串起来,进行单元拼接,得到理想的音频。

  虽然这个方法比较简单也能得到最佳音质,但其最大的问题便是在单元采集环节。用这种方法生成出的歌往往比较生硬一些,字符之间听起来更像是在“蹦”而非“唱”。因此,微软选择了另一条道路——参数合成。

微软小冰养成计划 古怪精灵小丫头的蜕变记

  据微软小冰首席语音科学家栾剑介绍称:“参数合成的方法差异点在于,前者是建立单元库,后者则是将所有录音的数据提取出声学参数(时长、音高等)进行建模,合成时根据所要发音到模型里预测,再通过这个声学参数、声码器重构音频波形。”

微软小冰养成计划 古怪精灵小丫头的蜕变记

  微软小冰首席语音科学家栾剑

(编辑:555手机网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读