数据智能

一文读懂智能助理的前世今生

字号+ 作者:汇讯智能 来源:网络整理 2018-10-12 20:13 我要评论( )

本文从智能助理的基本逻辑出发,详细分析了国内外主要智能助理亚马逊ALEXA、Google Assistant、苹果Siri、微软Cortana、百度度秘、腾讯叮当、天猫精灵和阿里小蜜

本文从智能助理的基本逻辑出发,详细分析了国内外主要智能助理亚马逊ALEXA、Google Assistant、苹果Siri、微软Cortana、百度度秘、腾讯叮当、天猫精灵和阿里小蜜的发展历史和主要功能,并给出自己对微软小娜、苹果Siri、百度度秘、腾讯叮当的体验和分析预测。

一文读懂智能助理的前世今生

随着人工智能行业的发展,智能个人助理作为人工智能系统应用相对成熟的领域也慢慢被大众熟知。

智能助理可以理解为利用AI技术通过统一的对话交互界面来一站式给用户提供需要的信息和服务。

目前苹果、谷歌、微软、亚马逊已投入大量资源,积极研发并推出了Siri、Google Assistant、Alexa、Cortana等具有代表性的智能助理。

而国内互联网三大巨头BAT也通过组建实验室、招募AI高端人才等方式紧锣密鼓地发布了百度度秘、阿里小蜜、腾讯叮当等,力图从智能助理的场景切入,完成在未来人工智能市场的布局。

一、智能助理基本逻辑

智能助理也可以看作是任务导向的chatbot,实现逻辑与chatbot相似,但是多了业务处理的流程,智能助理会根据对话管理返回的结果进行相关业务的处理。

一个包括语音交互的chatbot的架构如下图所示:

一文读懂智能助理的前世今生

一般chatbot由语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块组成,其中:

语音识别:完成语音到文本的转换,将用户说话的声音转化为语音。

自然语言理解:完成对文本的语义解析,提取关键信息,进行意图识别与实体识别。

对话管理:负责对话状态维护、数据库查询、上下文管理等。

自然语言生成:生成相应的自然语言文本。

语音合成:将生成的文本转换为语音。

通常智能助理一个完整的交互流程是这样的:

首先:音频被记录在设备上,经过压缩传输到云端。通常会采用降噪算法来记录音频,以便云端“大脑”更容易理解用户的命令。然后使用“语音到文本”平台将音频转换成文本命令。 通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据,分析数字数据以确定音素的出现位置。 一旦识别出音素,就使用算法来确定对应的文本。

然后:使用自然语言理解技术来处理文本,首先使用词性标注来确定哪些词是形容词、动词和名词等,然后将这种标记与机器学习模型相结合起来,推断句子的含义。

最后:进入对话管理模块,确认用户提供的信息是否完整,否则进行多轮对话直至得到所需全部信息。根据得到的信息进行相应的业务处理,执行命令。同时将结果生成自然语言文本,并由语音合成模块将生成文本转换为语音。在这些模块中,对话管理(DM)模块的首要任务是要负责管理整个对话的流程

通过对上下文的维护和解析,对话管理模块要决定用户提供的意图是否明确,以及实体槽的信息是否足够进行数据库查询或开始履行相应的任务。

当对话管理模块认为用户提供的信息不全或者模棱两可时,就要维护一个多轮对话的语境,不断引导式地去询问用户以得到更多的信息,或者提供不同的可能选项让用户选择。

对话管理模块要存储和维护当前对话的状态、用户的历史行为、系统的历史行为、知识库中的可能结果等。当认为已经清楚得到了全部需要的信息后,对话管理模块就要将用户的查询变成相应的数据库查询语句去知识库(如知识图谱)中查询相应资料,或者实现和完成相应的任务(如购物下单,或是类似Siri拨打xx的电话,或是智能家居去拉起窗帘等)。

实际实现中,对话管理模块因为肩负着大量杂活的任务,是跟使用需求强绑定的,大部分使用规则系统,实现和维护都比较繁琐。

规则的描述主要基于正则表达式或者类似正则表达式的pattern,用户的问题匹配到这样的pattern上,从而取得答案结果。

使用规则的好处是准确率高,但是缺点也很明显:用户的句式千变万化,规则只能覆盖比较少的部分。

而越写越多的规则也极其难维护,常常有可能会发生互相矛盾的规则,而往往一个业务逻辑的改动就要牵一发而动全身。另一个方法是维护一个庞大的问答数据库,对用户的问题通过计算句子之间的相似度来寻找数据库中已有的最相近的问题来给出相应答案。

目前任务导向chatbot也在逐渐使用基于深度学习的端到端来实现架构

简要来说就是将用户输入的内容直接映射到系统的回答上,但是这种方式也存在需要大量的训练数据的问题,还不能完全取代传统规则系统。

智能助理发展至今也遇到一些瓶颈问题,人脑毕竟十分复杂,用户问出的问题有时即使是人也需要结合多年生活经验和知识才能理解,所以这些问题对智能助理来说意图理解难度很高,知识复杂度也比较高。所以现在不少公司的思路是做垂直领域的智能助理,场景比较小,语料库、语义相对有限,对话容易收敛。

了解了智能助理的基本实现逻辑之后我们来看下目前比较主流的智能助理产品。

二、亚马逊ALEXA

一文读懂智能助理的前世今生

亚马逊于2014年推出智能音箱Echo,主要功能集中在语音购物和对智能家居的控制上。随着Echo成为家庭的交互入口,其搭载的“大脑”Alexa智能语音助手也开始遍地开花。

通过亚马逊Alexa与智能家居设备的连接,用户可以轻松控制智能家居设备,如开关灯、开关窗帘、开关电视等。Alexa还可以通过多个信息源播放流媒体音乐和阅读新闻,提供天气、交通等信息,以及通过语音在Amazon Prime会员服务上购物,甚至还可以预订披萨。

2015年6月,亚马逊宣布将Alexa开放给第三方开发者,发布了 Alexa Skills Kit(ASK)和Alexa Voice Service (AVS)两套工具包,越来越多非亚马逊产品设备也开始支持Alexa了。

强大的开放性加上全面阵线的拉开,Alexa逐渐取得先发入场优势。

目前Alexa已经可以支持亚马逊语音设备(Echo、Echo Dot、Tap)和Fire TV机顶盒,亚马逊正在尝试让Alexa支持其他可连接设备,比如闹钟和宠物喂食器。不过Alexa目前在国内还不可用,必须“科学”上网才可以使用Alexa的服务。

对于智能音箱用户而言,与音箱中语音助手的每一句对话都需要通过重复使用唤醒词才能实现,无法与之进行一场正常的,具备连续性的对话,在感觉上极不自然。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • Teradata天睿公司推出数据智能平台Teradata Vantage 助力企业随

    Teradata天睿公司推出数据智能平台Teradata Vantage 助力企业随

    2018-10-12 19:46

  • 任学堂首席科学家张永锋:智能科学研究的本质和实现技术

    任学堂首席科学家张永锋:智能科学研究的本质和实现技术

    2018-10-12 19:38

  • 云栖大会友盟+数据智能实践专场,映客分享直播个性推荐中的AI实践

    云栖大会友盟+数据智能实践专场,映客分享直播个性推荐中的AI实践

    2018-10-12 19:11

  • 从感觉驱动到数据驱动 这个作业APP让教学有迹可循

    从感觉驱动到数据驱动 这个作业APP让教学有迹可循

    2018-10-12 18:54

网友点评

永利国际娱乐平台