网站推广.NET

网站推广.NET

微软件语音AI技术和微软件听力文档小程序做法

来源:互联网

扬声器|赵胜和张鹏整理吴兴玲

生产| CSDN(ID:CSDNnews)

[CSDN编者注] 9月7日,在CSDN主办的“ AI ProCon 2019”上,微 Soft(Asia)互联网赵胜,工程院人工智能语音团队首席研发总监,微 Soft(Asia)互联网工程学院的Office 365高级产品经理,办公室小程序主任张鹏共同发表了关于“ 微 Soft Voice AI和微 Soft Listening小程序练习”,共享微 soft人工智能语音技术以及微 soft听力和听力小程序的实现。

详细信息是什么?让我们一起看看。​​

以下是演讲内容:

赵胜:

小程序是移动发展的新生态和新趋势。语音AI技术与移动开发非常相关。驾驶时用手输入不方便。您可以使用语音输入。如果您想在开车时听到一些声音,可以使用文本语音转换技术来收听这些内容。基于这些考虑,微 Soft Voice AI和微 SoftTingTing 小程序进行了一些尝试,今天我将与您分享这个故事。

赵升

微软语音AI的技术突破

微 soft在30年前成立微 soft研究所时,已经在语音和语言上投入了大量的人力和物力。近年来,微 soft在语音识别方面取得了突破。 2016年,语音识别的准确性达到了与人类相似的水平。

2018年,在将中英文机器翻译与人类进行比较时,发现机器翻译的质量可以与专业翻译人员完全媲美。

2018年9月,微 soft首次发布了基于神经网络的语音合成产品服务。它的自然分数与人声的比率达到98.6%,这意味着它非常接近人声。

微 soft在语音识别方面的具体突破是什么?

语音识别的主要核心指标是单词错误率,它是单词识别错误的比例。在SwitchBoard会话数据集上,语音识别错误率开始变得很高,根本无法使用。到2016年,微 soft取得了突破,错误率达到5.的9%,并在2017年进一步降低为5. 1%的错误率,该错误率等同于专业转录记录的错误率。

让我们听听这个数据集的例子:电话里有两个人在交流。语音具有间断性,噪音和重音,因此机器的识别难度非常大。 微 Soft运用了10条神经网络 CNN,ResNet,VGG等技术,多模型输出评分和多系统融合,都实现了这一显着突破。

从1980年的传统机器翻译到1990年的统计机器翻译,再到2010年,深度学习机器翻译技术开始兴起。 2018年,微 soft首次提出一项任务,比较汉英新闻翻译中的机器和人,从而使专业翻译人员和机器翻译相同的句子。翻译后,懂双语的师生应检查翻译结果。得分为0-100分。

可以看出,微软性奇偶校验机器翻译系统已经超过或接近专业翻译水平。它的突破是使用双重学习等新技术来改进现有翻译系统,其中包含大量未标记的数据。 网络上也有检查。首先,有一个初始转换,然后使用另一个网络进行另一个更正。同时,采用多系统融合技术来实现这一突破性成果。

让我们看一下语音合成技术。文字转语音技术也是一种非常悠久的语音AI技术。

一开始,它是基于人类发音原理的合成器。然后在1990年代,使用拼接方法将一个句子分成非常小的单元,然后进行拼接。开始时的拼接是一个小语料库,平均程度自然。在1999年左右,出现了基于大型语料库的拼接。这时,有必要收集成千上万个句子,将其切开,然后使用选择策略选择最合适的单元进行拼接。自然度明显改善。但这带来了新的问题,例如某些拼接不顺畅。

大约在2006年,出现了基于HMM模型的合成技术。它的优点是非常平滑,但同时也会带来负面影响,即声音太平滑,使人感到它的表现力不足。深度学习的兴起也已应用于合成领域。最近两三年推出的神经网络 TTS是语音合成技术的一项突破。 Google提出了Tacotron和WaveNet等模型,以将语音的自然性提高到一个新的水平。

微 Soft在2018年,2019年提出了Transformer TTS,Fast Speech和其他高度自然的神经网络 TTS模型,并于2018年9月推出了首款与人类声音接近的产品化端到端神经网络TTS。

为什么神经TTS模型接近人的声音?

传统的TTS是一个复杂的过程。必须分别优化每个步骤。有些模块需要经验规则,权重的手动优化等。Neural网络的TTS简化了合成过程。我们可以看到它基本上由三段组成,包括前端文本分析,声学模型和神经语音编码器。 Neural 网络的声码器可以非常接近人类的语音质量。

使用最新的基于注意力的声学模型对节奏进行建模,该节奏更接近于人声的节奏。当两者叠加时,可以获得与人的节奏和声音质量更一致的高质量合成语音。当然,负面影响是计算量很大。

Neural 网络 TTS的体系结构非常可扩展。每个公司都针对自己的特点提出了不同的声学和声码器模型。有些计算量更大,有些计算量少,并且具有质量差异。

神经TTS的另一个功能是转移学习。我们可以提取条件参数并控制综合。例如,我们可以首先训练一个多说话者的基本模型,然后使用数十小时到数千小时的数据训练来获得一个模型。使用基本模型,您可以做很多有趣的事情,例如训练自己的声音,或生成情感的,多种风格的和跨语言的声音。这些都可以完成。

语音服务概述

我谈到了新语音技术的突破。有人可能会问,有这么多新技术,如何在产品中使用它?让我向您介绍语音服务的功能,以供所有人使用。

微软件语音服务基本上位于微软件Azure平台上,提供诸如语音到文本和文本翻译之类的标准服务。

Azure语音云服务

语音转文本具有许多功能,例如实时文本识别,一个人讲话,多人对话和会议场景。一个典型的情况是,每个人都希望在会议后看到会议的内容。您可以使用语音服务将语音转换为文本并进行一些自动处理摘要,以便快速查看会议内容。

当前,已经启动了一种接近人类的文本翻译系统,更新了神经网络模型,并大大提高了翻译质量。

文本到语音,我们提供神经网络 TTS,4种语言,5种声音。这些服务都可以通过Rest和WebSocket SDK调用。

我们还提供了语音到语音翻译系统,例如翻译场景,输入中文语音,将其翻译成英语并获得语音流,无需配置其他服务即可直接播放,从而简化了开发步骤。可以在以下网站上访问这些服务。

我前面提到的API都是标准模型。所谓的标准模型是由微 soft数十年来收集的数据制成的大型模型。大型模型适用于大量一般情况。但是,人工智能的一个特点是,它可以适应与不同场景相关的数据,从而获得更好的结果。

一个典型的例子是,某些公司有自己的硬件来收集语音,也有自己的关键词。如果这些场景数据可用,则语音识别的准确性可以大大提高。我们提供语音识别,翻译和合成模型中的自定义功能,以便开发人员可以一起创建生态系统。您可以将数据放入其中并将其构建为供客户使用的行业模型。

模型定制地址:

如前所述,基于云的语音服务,云模型定制以及另一个非常重要的场景是需要将AI置于离线或私有云中,这通常称为边缘计算。由于这些端的计算能力得到了极大的提高,因此可以运行复杂的模型。

手机上的Tensorflow与使用Edge部署的想法类似。我们的语音服务在Edge中有一个部署计划,该计划是基于Docker的容器,它带来许多好处,例如安全性和可靠性,低延迟,充分利用现有硬件以及与云部署保持一致的接口,这非常方便使用。

例如,在呼叫中心中存在大量的客户服务语音对话,并且可以通过对此进行分析来理解服务的满意度。我们已经形成一个解决方案:在呼叫中心自定义模型,将其用于录音的大量处理,然后将自然语言处理用于智能分析。在中国,我们联合利华和联合利华使用集装箱语音服务来完成这些服务。

可以在这里使用容器:

在客户端,SAPI和SpeechFX是Windows系统随附的传统开发SDK。现在,我们提出了Unified SDK,该SDK支持在云中访问语音服务,例如语音识别,语音合成和语言翻译。该SDK还支持容器化语音服务和离线语音引擎。它是真正的跨平台,并支持Windows,Linux,Android,iOS和浏览器平台。该SDK采用跨平台架构,提供了多种语言的绑定,中间具有统一的C API,底部具有跨平台库,可以快速支持跨平台迁移。

短语音识别代码

简要查看一些语音识别示例。各种演讲者助手需要认识。这是一个短句子语音识别方案。您可以创建语音识别对象并异步启动识别。它从声卡中收集数据以进行识别,然后将结果返回给您。

SDK可免费下载和使用:

语音合成平台

语音合成平台的任务是让每个人和组织拥有最喜欢的数字语音。内部客户和外部客户都使用此语音合成平台。内部客户(例如微软件语音助手)使用相同的语音合成平台。我们一直在不断迭代该平台,将其部署在18个数据中心中,真正实现了全球部署,并且海外公司可以使用我们的国外数据中心。

让我们看看基于神经网络 TTS的各种演讲风格。为什么会有多种风格的声音?因为合成一条语音时,文本和语音之间必须有一定的匹配,并且在阅读新闻时需要正式的声音。当机器人做出响应时,它需要考虑环境并采取情感反应。我们提供风格化的声音供所有人使用,通过输入的SSML express-as标签进行样式控制非常容易使用。

我们还用中文开发了新样式,例如友好的助手场景。在客户服务场景中,客户服务机器人的语气应该更加热情。有时机器人需要一些技巧,我们中的小孝也可以唱歌。另外,新闻现场需要更正式的语调来阅读新闻。在微信官方帐户上阅读文章并不那么正式,但必须相对标准化。情感故事场景中,每个人都可以在晚上睡觉前听灵魂鸡汤等。声音可能会不断变化,我们会根据用户需求定制样式,而且还会出现不同的音调,例如男孩,老人和儿童的声音。这些都可以自定义。

语音合成API调用

这是语音合成API调用。创建一个合成器对象。您可以向其发送文本,并且它可以开始合成。这正在合成声卡。不同的语言非常相似,而且很容易学习。

调用API需要配置语言。我们有多种语言,因此我们需要配置语言参数。也可以先配置不同的音调和声音。输出格式,即输出为MP3压缩的语音,也可以通过属性进行配置。

合成为文件并保存。有时,在开发服务时,您需要将音频合成为流,然后将其转发到其他地方。然后创建一个PullStream。以下综合代码是相同的。您可以像文件一样阅读综合信息。数据。还有一个PushStream,等效于回调方法。不同的开发人员有不同的偏好。我们提供了不同的API供所有人使用。回调过程中的数据通过回调方法进行处理。

语音合成API还提供了一些元数据,例如单词边界,可以告诉您您阅读了哪个单词。另外,某些场景需要嘴唇匹配。此时注册一个事件,您可以获得这些元数据。此功能已在微软边缘浏览器的最新版本中使用。大声阅读时,文本会突出显示,以便读者可以了解当前的进度。

语音助手综合

让我们看一下语音助手的典型解决方案。典型场景包括扬声器,客户服务机器人,互联网汽车语音和小程序集成。

结构图

这是我们建议的解决方案或体系结构:可以通过语音激活客户端,并使用自定义唤醒字,例如“ Hello,Xiaona”,首先唤醒服务,您可以收集数据并将其发送到通过SDK进行云计算,云计算具有唤醒词验证功能,然后确认唤醒是否为真,减少误触发,然后识别音频流,并将识别出的文本发送给机器人服务。

这是实现松散耦合的好方法。类似机器人的服务是自然语言,文本输入和文本输出。所有这些服务都可以在我们的框架中注册。回复文本后,返回语音服务并执行语音合成。合成的语音可以流回客户端并通过SDK播放。这就是整个通话流程。这种架构的优点是将云语音服务和唤醒词放在一起,可以减少客户端调用云的次数。全双工对话也可以类似的方式实现,并且连接协议为WebSocket。

有关更多信息,请参见:

在微信小程序中,您可以使用类似的体系结构来完成它,我们在GitHub上提供了一个示例:

语音内容制作

当前现代快节奏的生活使信息获取变得支离破碎,并且需要多任务处理。我们经常遇到一些痛点:传统的音频内容制作主要依靠配音演员的录音;大量的文本内容正在等待发声;音频内容的生产受到人员,时间,环境等因素的限制,并且无法最大化生产力。

那么如何提高人们的阅读效率呢?

一种好方法是通过收听来消化此信息。您可以在开车时或上床之前听音乐。人们会阅读传统程序,这非常受限制。借助基于神经网络的TTS,我们想知道是否可以提供更有效的解决方案。

此解决方案的工作原理如下。各种信息流可以通过云服务进行分类,然后发送到语音调整服务。您可以选择调音,例如和弦字符,并且批处理综合API会将调音后的SSML合成为音频。将其放在存储服务中以供您的应用程序使用。

举一个电子书的例子,这本电子书听起来更加生动,角色也有所变化。说到调整工具,TTS输入或语音合成输入为SSML格式。我们提供的界面工具可以直观地调整发音,暂停和背景音乐。在某种程度上,您可以使用它来调出与录音完全接近的效果。

自定义语音

声音是一个品牌,每个人的声音都是他自己的品牌。我们支持每个公司自定义自己的声音。自定义语音有两种类型:

1、自助服务开发人员使用网页或API来操作,训练和部署语音。他们自己为单个开发人员执行此操作。支持三种类型的模型的服务:

(1)基本模型:30-500个句子,相对相似,清晰度高。

(2)标准模型:3000-6000个语音句子,相对自然,接近Windows上的标准模型。

([3)高质量的模型:6000-8000个句子,非常自然,接近JessaRUS。

2、全包服务

全过程定制语音,专家工程师控制着最高质量,还支持基于神经网络的定制,300个句子可以达到以前6000-8000个句子的效果。当然,要特别注意神经的自定义网络。我们希望AI技术不会被滥用。太相似之后,人们会担心别人的声音会变成TTS,而他们会出门打电话等等。因此,需要非常严格的过程,并且客户可以同意使用它。目前,通过业务合作模型进行神经网络 TTS定制,以确保不滥用该技术。

在自助服务界面中,所有数据都可以上传,我们将自动对其进行处理,例如检测发音。如果发音不是标准的,则训练后的声音将不是标准的。如果数据良好,则可以提交培训。将在后台设置培训过程以在GPU上进行培训。训练后,您可以聆听效果。部署后,您可以通过代码调用它,也可以在网页上输入文本以进行实时测试。

模型定制还可以调用API。该API是Rest接口,可以在微信小程序或在后台调用。该代码支持SWAGGER标准,并可以自动生成多种语言的代码。我们提供用于管理数据的API和用于管理模型的API。

取得良好音效存在技术障碍。首先,您必须了解场景所需的样式和色调,选择适当的样式,然后为录制文本选择常规文本或与域相关的文本。

记录也是一项技术任务。它需要尽可能安静,无噪音并保持录制风格。数据越好,质量越高。训练模型后,可以将其部署到云或容器中,并且可以非常灵活地部署在各个地方。 微软语音AI技术在微信小程序中有很好的实践,张鹏将在下面与AI分享小程序的实践。

为什么语音AI + 小程序?

张鹏

张鹏:

Office 365是基于云平台的一组服务解决方案。除了熟悉的Office编辑工具服务外,还有电子邮件,社交网络,对话以及可视数据和报告。这些共同构成了一组服务。我们称此服务为Office365。我们希望使Office 365成为更多中国用户的习惯。我们重视的第一件事是微信。

我们为什么要在微信中这样做?

有两个主要注意事项:

首先,微信是一种月寿命超过11亿美元的产品。这就是任何跨国公司产品进入中国的过程,必须研究本地创新。 微信哪些功能可以满足用户需求,哪些功能不能满足用户需求,因此要使Office 365在中国取得成功,我们必须要做的是满足微信用户对文档协作的需求。

第二,微信建立了极其稳定的社会关系。基于这些社交关系,您可以在通讯簿中看到,各个组不仅是家人和朋友。看看我们的各个微信小组,您的同事,客户以及上下游合作伙伴更多,这意味着许多小组是由于工作而产生的。因此,微信中散发了许多文档。我们如何在微信中制作这些文档?可以更有效地创建生态系统,可以对其进行安全管理,并且可以更顺利,高效地交付生态系统。这是我们要在中国探索的方向。

第三,小程序出生于2017年1月。市场上有小程序的各种解释,有些是乐观的,有些则不是。我认为现在定义任何定义还为时过早。我们看到的是小程序已解决或将解决信息孤岛的问题,即各种应用之间的信息失败的问题。

办公室也有同样的问题。很多文档内容都留在每个人的PC或用户的各种云磁盘上。无法有效地协调此信息,并且没有共享有价值内容的有效方法。我们认为微信小程序是将来解决此问题的方法。

基于这些观点,我们在2018年投资了小程序。

今天共享的小程序被称为“ 微软听力文档”。 “ 微 Soft Listening Document”探讨的第一个问题是PPT在移动终端上应该是什么样?如何更好地与他人合作。

我们有很多小组,并且有许多文件正在散发,并且这些文件在该组中以静态形式散发。在许多情况下,用户会从PC中拉出PPT并将其扔到小组中。这种PPT已完成。它实际上是一个静态的Word文档。

如果是PPT的下一个定义,则突出其主要功能是如何使您的语音更加有力,并改善语音效果。这是我们移动终端的目的。因此,我们创建了“ 微 Soft Listening Document”。

我们迅速在移动终端上记录文档的每一页,快速发布,并通过微信固有的社交关系进行传播和发布。除了PPT每页下方的声音外,还具有各种社交属性:传播,发给朋友,加入群组,喜欢和奖励。这就是我们认为PPT在移动终端上的外观。更重要的是人的声音,这是演讲者的参与。

在今天的AI会议上,我观察到许多人会拍照并张贴到Moments和组中。这也是一种共享内容的方式,但是这种共享方式不是很有效。为什么?

因为这种共享方法缺少最重要的因素,这是说话者和创作者在PPT之后传达的观点。通过几张图片很难传达它。这就是本产品的目的。

微柔和的聆听小程序

进行此探索时,我们专注于:

首先,创建。我们可以记录每个文档,背景音乐可以通过微软AI技术学习文本和图片,并自动匹配背景音乐,而无需所有人积极选择。

第二,PPT具有设计内容,而Office365具有AI设计灵感。将来,在移动终端上,您还可以帮助您从手机相册中选择图片进行演讲。图片可以通过设计功能自动剪切和排版,以获得更好的效果。

第三,自动语音。当您在移动终端上录音时,许多人不喜欢他们的声音,并觉得自己的声音不好。由于环境限制,很多人不方便记录。我们可以使用深层的神经网络声音与文本完美匹配。

第四,听文章是文章。如果您在旅途中或不方便阅读文字时,只需将官方帐户URL链接复制到其中,即可快速创建一个可以在数十秒内查看的文字。可听文本是一种向所有人展示的新形式。我们有以这种方式使用的真实业务案例。

就聆听而言,与AI有哪些组合?让听众更身临其境地聆听人们的分享。

1、引入了字幕。字幕对于协助阅读非常重要。有时,人们听讲座时可能会跟不上进度。字幕在这里起着非常重要的作用。 微轻声用于转换文本。表格已转出。

2、社交,喜欢,转发等

3、PPT动画引入了视频播放功能,为每个人提供了更丰富的表达方式。

以下是语音文档的创建过程:

第一步是选择生产方法。

拥有微软帐户之后,您可以选择文件。您可以从计算机上拖动文件或从电话簿中选择它,然后输入录音。

第二步是手动录制或AI录制。

第三步是发布。

您可以选择许可设置,无论是仅针对微信个朋友,还是发布给整个互联网个人,或者仅针对您自己,包括启用赞赏。如果您认为自己的内容很有价值,请期望别人奖励您,也可以将其打开。

第四步是检查个人页面并遵循建议。

在作品集中发布您的作品后,您可以知道有多少用户关注您,有多少人观看和收听每个共享,这也方便您管理自己的内容,还可以让其他人查找你分享。

以下是一个真实的例子,《新民晚报》。他们以前有问题。每天早上6点,编辑人员将在一小时之内每天24小时编辑新闻。 7点将进行一次内部审核。审核通过后,它将在7:30在公共帐户上发布。

在此过程中,需要重复进行修订。某人无法记录或修改官方帐户。他们现在可以使用上述方法非常快地将小程序嵌入到官方帐户中,我们的小程序非常快,大约需要十秒钟。在这种情况下,人工智能的效率得到了极大的利用。

微软件办公室微信小程序布局

将来,微 Soft Office 微信小程序布局本地化策略具有三个方向:信息输入;信息管理;信息输出。

如何创建文档,如何管理,如何输出协作。这是我们要探索的三个方向。

我认为哪种小程序具有强大的生命力?我们已经完成了很多功能,但是我们发现它会使用户在这里花费更多的时间,因此工具的小程序时间很长,而且由于发现成本很高,因此每个人都不会慢慢使用它。因此,从生产率小程序的角度来看,只要生产率小程序能够真正帮助用户节省时间并提高效率,它就具有继续传播的更好活力。最终,让用户受益是所有业务逻辑的起点。

您可以在微信中搜索“ 微软收听和收听文档”来体验它。

客人资料:

赵胜,微 Soft(亚洲)互联网工程学院,人工智能语音团队首席研发总监。目前,语音技术负责微 Soft Azure语音服务的产品开发,开发的语音技术服务于微 Soft Office,Windows,Azure Cognitive Services,Xiaobing Xiaona和大量第三方开发人员。在微 Soft Asia Research Institute担任研究员,在微 soft Xiaona担任高级研发经理。他长期从事语音和语言技术的开发,包括语音合成,自然语言处理,语音识别等,他的多语言合成项目还获得了微软中国杰出工程奖。

张鹏,微软件(亚洲)互联网工程学院Office 365高级产品经理,办公室主任小程序。 2013年加入微 soft MSN,从事产品设计和市场营销工作,例如MSN和Bing搜索。自2016年以来,他一直负责在中国开发Office 365的创新产品,并成功发布了微 soft AI图像识别,收听文档和其他产品。

[END]

热门文章推荐