售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!
实现人与机器的自然交互,一直以来都是全世界人类的共同愿望,无数科学家倾尽毕生精力致力于实现这个目标。语言,作为人与外界交流最有效的工具,成为机器智能的重点研究对象,而对话型机器人则成为实现人机交互最早的突破口。
从图灵测试开始,对话机器人探索从未停
自计算机科学和密码学的先驱阿兰·麦席森·图灵于1950年提出图灵测试,人们对于让机器具备人类智能的探索就从未停止。如1966年MIT开发的精神治疗师Chatbot Eliza,1995年基于模式匹配的NLP chatbot Alice,2011到2012年兴起的Siri、Watson、Google Now,2015年声名鹊起的Amazon Alexa、Microsoft Cortana、微软⼩冰,以及2017年开始掀起国内聊天机器人热潮的百度度秘、阿里小蜜、腾讯云小微、小爱同学、天猫精灵等等,都是对话机器人不断成熟和商业化探索落地的成果。
在商业化和落地上,在线智能客服是最早应用对话机器人的应用领域之一。国外应用对话机器人的时间较早,但由于国内电商业更加发达,所以国内在智能客服机器人上的应用范围更加广泛,也更加成熟,智能客服商业化产品五花八门,在医疗、教育、智能汽车等众多行业得到大量应用。
易聊科技的智能AI客服,也是其中的佼佼者。
国内最早入局的一批人
易聊科技是国内最早一批入局智能客服领域的科技企业,2014年从在线客服SaaS与定制起家,如今在医疗、教育等20多个行业领域深耕智能客服多年,在国内售前机器人市场份额已超过80%,转化率也处于行业较高水平,如在医疗领域,细分场景的转化率分别可以达到:整形35%,男科30%,口腔(齿科)30%,白癜风35%,精神科38%;在教育领域,细分场景转化率可达到:资格证类55%,职业技能60%,学历提升58%。
2014年,国外的聊天机器人话题已经相当火热,亚马逊Alexa,微软Cortana、小冰等聊天机器人经常出现在媒体头版头条上,而在国内百度、阿里、腾讯等国内科技巨头开始大面积布局聊天机器人之前,易聊科技就已经率先一步入局售前智能客服领域,占得先机,先后推出两款智能客服产品:Easy Liao 智能在线客服系统(IM)和Each Bot AI智能接待机器人。
售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超
在广阔的客服机器人领域,易聊选择了市场应用更加广泛,难度也相对更高的售前机器人阵列。Easy Liao 智能在线客服系统提供售前数据打通、线索跟进控制和售后客户管理的传统客服系统解决方案,Each Bot AI则是基于客服聊天大数据作为深度学习语料, 应用自然语言理解、神经网络等人工智能技术为核心的商业应用的智能营销服务机器人。
EachBot 机器人运营示意图
在这里,不得不提一下售前和售后机器人之间的差异。从技术角度来说,两种机器人的侧重点和实现难度差别是非常大的,简而言之,售前机器人的逻辑控制较后者更为复杂。这也意味着做好售前机器人难度更大。
易聊售前机器人与售后机器人的主要差别,在于以下几点
1. 通常是多轮对话,对话更具深度。售前场景不仅仅是对单句问题的解答,相较而言,售后面对的访客,往往已经对问题有一定认识,能够提出较为明确的问题,并具有组织,售前访客很多情况下不知道要问什么问题,或只能提出模糊的问题,或最初提出的问题并不能满足自身需求,所提问题只是一系列问题的开始,售前机器人需要引导对话,让访客不断明确问题,因此并不是解释一件事情,而是协助访客发现问题再做解答。
2. 多轮对话内在逻辑必须紧密,无论话题是否一致。售前机器人必须把控对话实质,以自身目标为导向,对话始终围绕主题,或暂时看似偏离主题,但内在逻辑不变,因为话题的变化也是为最终达成目标。
3. 机器人的反应要求更迅速。售后场景下,访客解决问题的意愿明确、强烈,因此对售后反馈的响应速度相对宽容,而售前场景下,访客的意愿模糊,如果响应不及时,流失严重。
因为最早有效进入售前机器人领域,易聊科技在售前机器人领域里形成了一定的技术和产品壁垒。在王函石看来,AI三要素为算法、数据、算力,其中算法和数据的结合非常紧密,数据很大程度上决定了算法的效果,这也是大数据时代的特征,由于易聊先行获得客户数据,第一时间对算法、模型、知识库进行了优化,因此其算法的性能随之提高,客户体验的提高带来了更多的客户和数据,进而为算法的提升提供更大的空间。在这种正向循环下,客户对AI产品的应用就是对AI产品性能的优化,这种AI技术上的马太效应,必然使易聊与潜在竞品之间拉开距离。
另一方面,当越来越多玩家进入智能客服领域时,很难单纯通过大规模数据的后发优势打破先入者的优势壁垒。
因为算法效果虽然基于数据,但并不能完全自动化将数据转化为知识和智慧,单纯依靠数据和算力很难解决售前问题。售前机器人的逻辑控制较售后复杂,多轮对话造成在对活进入较深层次后所需数据不足,即存在数据稀疏问题,需要人类专家知识,涉及到对客户价值的理解,在这一点上我们的运营部门有丰富的经验。
这种细分条件后的数据不足问题,大数据时代仍然普遍存在,为提高效果,数据细分是必然,而相对数据不足,也成为必然。纯粹从理论上讲,在不考虑持续提升效果的情况下,即静态地看,数据、算力才有足量的可能。算法研发的一大目标是无限接近全自动解决问题,路径则是利用算法不断提升人工效率,减少人工。——易聊首席科学家 王函石
技术“尖兵团”攻克核心算法模型问题
如何搭建这个技术挑战更大的系统,是易聊技术团队的任务。在CTO邴立新的带领下,由自然语言处理科学家和机器学习算法研究员组成,拥有十三年即时通讯技术的团队,与融合最新AI技术的团队一起攻克核心算法模型的问题。
市面上智能客服产品不少,但真正“智能”,能够达成目标的产品就少之又少了,问题就在于核心的系统架构上。易聊的智能客服促成的成交率在60%以上,之所以能够做到比较自然地引导用户达成交易,与其独特的系统架构与核心AI算法创新有关。
系统架构
据了解,易聊的EachBot AI基于Python语言开发,使用了TensorFlow引擎,应用了Apache Spark大数据平台。自然语义理解和行业知识图谱可以实现毫无违和感的话术合成、词义消岐、多轮对话、上下文理解、情绪识别,以及长短时间记忆网络、自动归纳、特征值、词语省略与语言行为等功能,这使得机器人能够更加灵活、全面、精准、智能地处理访客信息。而利用Python简单高效的处理逻辑,灵活多样可移植和丰富的可扩展性,易聊机器人平台更加简洁、清晰,能够轻松整合其他模块,不断完善自己。
易聊即时通讯的底层系统架构,则采用了J2EE体系结构,比业界通用的.NET/PHP更加灵活、稳定。运行环境为Unix/Linux,比Windows更加稳定、安全。在通信安全上采用客HTTPS及SSL加密,安全性更强。
即时通讯的底层系统架构
核心算法创新:意图识别、对话控制及知识库构建自动化
意图识别正确率达到98%以上
在核心算法上,易聊智能客服系统的很多创新使得效果大幅提升,如采用了意图识别、对话控制及知识库构建中的自动化方法。
通俗地说,意图识别指的就是分析访客话语,抽取特征(语义标签),识别访客意图和信息;对话逻辑控制,就是根据意图、访客信息,在场景间转换,特征迁移,根据更加细节的特征以及规则产生式,生成回答,该过程形成图状结构,控制对话流以导向既定目标,比如索联。
目前在业界,模型方法主要应用在意图识别部分,提高识别正确率是模型优化的目标。而易聊售前机器人经过6个大版本的迭代,识别正确率已经从86%提升到98%以上,在部分场景下接近100%的识别正确率。
结合BERT等预训练模型,多项核心算法创新
易聊智能客服的机器学习过程基于多种训练模型,从较简单的线性判别模型(如LinearSVC)、集成判别模型(如xgboost),到较为复杂的深度神经网络(DNN,如Transformer),动态贝叶斯网络(DBN,如耦合马尔科夫链),结合Bert等预训练语言模型,依存文法分析、语义角色分析等计算语言学方法,并独创了一些模型算法。
当然,模型算法上的创新是易聊客服机器人性能大幅提升的关键,易聊自研了如适用于语言文本的图聚类算法,以及融合多种语言特征的分层判别算法,在效果提升的同时,把时间、空间复杂度控制在较低水平,并根据模型占用算力的差异,采用分层识别架构,降低了算力代价和对数据规模的要求。相较于早期简单识别方法,新方法在大幅提高识别精度的前提下,识别速率几乎没有下降。
自研知识库构建自动化方法
另一方面,从更加宏观的AI角度看,售前机器人其实是一个典型的专家系统,包括了知识库和推理逻辑,而专家系统是知识工程的一种应用形式,因此售前机器人的技术特点、难点与知识工程相似,除机器人运行过程中的意图识别和对话逻辑控制外,即除了运用知识外,真正的难点在于如何获取知识,构建知识库。
客服场景下的对话是不断实时更新的,因此医疗需要构建的是一个产生式多轮对话控制知识库,自2014年以来,易聊积累了海量对话数据,系统需要打标的有超30亿条对话记录,超5亿通对话。如此大规模的对话数据,需要更便捷地被构建到知识库中。
为此,易聊放弃了费时费力的纯人工构建方式,自研了知识库构建半自动化方法,如自动索联判别、话术抽取、QA提取等,可以在不增加人力的前提下大幅提高构建效率,并提供了自主搭建功能和预制模板,将构建知识库的功能开放给客户,以提高构建知识库的效率和效果,满足客户个性化需求。目前,易聊表示正在研发更少人力的自动构建知识库方法,包括从客户提供的数据中自动提取出结合上下文的成对问答并直接用于推理,目标是逐渐逼近全自动方式,以极少的人力完成知识库构建。
易聊售前机器人产生式知识库(目前)包含了:
1、1000000+语义标签(特征,分为100+版本、1000+维度);
2、近60000场景;
3、近1000000迁移产生式。
深耕医疗与教育行业7年多,易聊在这两大领域积累了行业知识库,这些知识语义消歧和语义填充,让机器人更好地了解用户的意图,提升转化率。
值得注意的是,易聊智能客服还使用了多种机器学习技术,如主动学习、小样本学习、迁移学习、强化学习等。
这些技术都是什么概念呢?我们举例简单解释一下。首先,当数据进入学习系统后,系统会对数据做一次自动标注,如果标注正确率不够高,则接入训练模型,算法从中抽取出置信度较低,接近判别边界的数据,然后交给人工标注后再标注,之后再进行学习。这其实就是一个主动学习的过程,算法自动筛选出可靠性差的标注数据,交由人工更正,反复触发这个机制,就可以得到更加高质量的标注数据,提高系统判别精度。
小样本学习方面,系统首先使用启发式规则做标注,结合主动学习过程,由人工标注纠正标注质量差的样本,最终基本上可以达成足量样本学习的目标。模型的迁移学习能力指,所训练出的模型,在实际数据与开发数据存在差异时仍然可以保持其处理效果。
强化学习原理
除此之外,易聊表示目前还在研发适用于对话逻辑控制的强化学习方法,即通过达成的处理结果反推处理过程及其组合的优劣,以寻找最优的处理过程,这种优化机制非常适合售前对话型机器人训练,因为售前场景下,虽然容易判断是否达成最终目的,比如判断是否获得线索,却很难评判中间的每句对话及处理过程在达成最后目标的角度上是否合理。
售前机器人计算逻辑的革新
对于售前机器人,王函石还从计算逻辑层面给出了一个全新的思路。他认为,用更加现代的AI角度来看,售前场景可以视为机器人(座席)与访客2个智能体间的博弈(并非零和博弈),因此可以采用智能决策理论对传统计算逻辑重构。智能决策基于以效用为基础的经济学理论,在AI复现此理论的过程中,采用了贝叶斯网络及效用函数,并以期望效用最大化作为计算模型的优化目标,其中贝叶斯网络通过对话数据计算在特定上下文下不同应答的条件概率,即对客观世界进行建模,而效用函数刻画对话结果的优劣,即对客户主观价值进行建模,两者结合后最大程度的贴合营销场景。
在优化模型的过程中,易聊客服机器人系统将采用主动学习方法对容易偏离标准(容易出错)的样本进行重点学习,采用强化学习,以对话结果为出发点,逆向追踪对话过程中的不同环节并加以奖惩,以结果为导向优化过程。
相较于原来计算逻辑和知识库构建方法,新的计算逻辑因为基于最本质的决策过程,是不限行业的通用方法,不局限于售前或售后的对话场景,适应范围提升至全领域,既适应于新客户、新行业的问题,也可以用于营销的其他环节。
在这些AI技术的加持下,易聊客服机器人系统逐步克服AI领域的很多技术“顽疾”,如模糊性问题、情绪识别、内在表示、潜在标识等。
对话机器人的未来:智能决策
目前,易聊售前机器人的知识逻辑已支持单次对话能力达到30-50轮,接下来,易聊表示还要在对话逻辑上进行革新,最大的变化将是要引入智能决策能力。因为对话控制主要是在知识库上进行推理,实际上是条件判断在场景下的迁移,未来引入智能决策后,就不仅可以根据规则判断是或不是,还可以判断概率有多大的问题,用强化学习的方式从效率进行反推,找出概率背后的问题所在,实现对话的结果最优,是易聊智能系统下一个阶段的目标。
回顾从第一代自研系统到如今多次系统更新迭代,易聊系统认为智能机器人最重要的就是逻辑,而逻辑的核心部分就是知识,而现在知识构建过程中,大多数厂商其实人工参与量非常大,而因为易聊入局较早,前期工作充足,所以在整个行业中具有先发优势。提高构建速度,就占据了高地。
而在竞争越来越激烈的智能客服市场中,要想维持这个壁垒,创造更多的壁垒,就需要更多的创新。
未来,真正的智能对话机器人应该是更灵活的,目前机器人目的比较单一,以后需要更加智能,完成更多样化的任务,达到强人工智能的水平。——易聊科技CTO 邴立新
大数据和云计算时代的到来,让对话机器人正在经历着技术与应用、商业化的深刻变化,也让实现更加智能的人机交互系统的目标变得前所未有的清晰。让我们一起期待,下一次对话机器人质的蜕变!
相关文章:

JAVAEclipse:could not find the main class,program will exit!
JAVAEclipse:could not find the main class,program will exit! 遇到这个错误主要是当前的工程的jdk与eclipse的版本配置不匹配造成的,修改方法如下: 在当前工程点右键选择Properties->Java Compiler->选中Enable project specific settings->…

ASP.NET2.0 文本编辑器FCKeditor的冰冷之心 【月儿原创】
ASP.NET2.0 文本编辑器FCKeditor的冰冷之心 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.4.9 FCKeditor是目前最好的html文本编辑器,如果还不明白的话看了下图就知道了效果图: 那么为什么说是FC…

转:strcat与strcpy与strcmp与strlen
转自:http://blog.chinaunix.net/uid-24194439-id-90782.html strcat 原型:extern char *strcat(char *dest,char *src);用法:#include <string.h>功能:把src所指字符串添加到dest结尾处(覆盖dest结尾处的\0)并添加\0。说明…

2021 EdgeX中国挑战赛盛大开幕,英特尔赋能开发者,助力创新方案落地
2021年7月12日,北京中关村论坛隆重举行。论坛上,英特尔研究院副总裁、英特尔中国研究院院长宋继强博士,北京市科委、中关村管委会高科技产业促进中心主任徐剑发表致辞并联合Linux基金会、VMware威睿等单位代表共同宣布2021 EdgeX中国挑战赛开…

构建安全的 ASP.NET 应用程序
最近开发的系统因为用到Asp.net的安全性方面的东西,所以拼命看MSDN,E文看着有点慢,还好现在在MSDN 中文网站中很多文章都有了翻译,所以今天索性在MSDN中文网站上找了一把,还真有。有感兴趣的朋友可以看看,不…

.NET2.0隐形的翅膀,正则表达式搜魂者【月儿原创】
.NET2.0隐形的翅膀,正则表达式搜魂者 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.4.14 本文实现了:只能输入1个数字只能输入n个数字只能输入至少n个数字只能输入m到n个数字只能输入数…

连华为都在研究的计算机视觉,到底有多牛?
去年,华为在CCF-GAIR 大会上介绍了在人工智能领域的愿景,华为为了实现这个战略目标,从中梳理出深耕基础研究、打造全栈方案、投资开放生态和人才培养、解决方案增强、内部效率提升五大方向,以此打造无所不及的AI,构建万…

JS 点击弹出图片/ 仿QQ商城点击左右滚动幻灯片/ 相册模块,点击弹出图片,并左右滚动幻灯片...
1, 点击弹出图片 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns"http://www.w3.org/1999/xhtml"><head><meta ht…

Nginx+Tomcat实现反向代理与动静分离
1. 什么是动静分离 所谓动静分离就是通过nginx(或apache等)来处理用户端请求的静态页面,tomcat(或weblogic)处理动态页面,从而达到动静页面访问时通过不同的容器来处理。 2. 为什么做动静分离 Nginx处理静态…

白话经典算法系列之七 堆与堆排序
堆排序与高速排序,归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前,先解说下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是全然二叉树或者是近似全然二叉树。二叉堆满足二个特性:1.父结点的键值总是大…

.NET2.0抓取网页全部链接【月儿原创】
.NET2.0抓取网页全部链接 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.4.18 该方法经过对各大门户网站测试结果是抓取率100%! 效果图 后台代码: using System;using System.Data;…

腾讯会议又一黑科技,屏蔽超过 200 种会议噪声是如何做到的?
作者 | 伍杏玲出品 | AI 科技大本营(ID:rgznai100)远程会议已成为我们常规的工作沟通方式,在线交流打破时间、空间的限制,给予我们便利之际,也屡遭尴尬:忘记静音,一边听会一边敲键盘,…

zabbix之日志文件监控
一、日志item介绍 下面介绍zabbix另一个“重量级”的功能——日志文件监控,它最主要的是监控日志文件中有没有某个字符串的表达式,对应日志轮转与否,zabbix都支持。 在配置Item的时候,Type选择Zabbix agent (active)ÿ…

深度学习三巨头共同发文,聊聊深度学习的过去、现在与未来
作者|Yoshua Bengio,Yann LeCun,Geoffrey Hinton译者|香槟超新星出品|AI科技大本营(ID:rgznai100)人工神经网络领域的研究是基于对人类智能的观察而来:人类智能从高度并行的网络中产生,这些网络由结构相对简单的非线性神经元组成,通过调整连接…

ASP.NET2.0图片格式转换【月儿原创】
ASP.NET2.0图片格式转换 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.4.20 说明:本文实现了图片格式随意转换(下拉框选择);点击FileUpload立即显示图片…
org.apache.hadoop.fs-ChecksumException
当ChecksumFileSystem出现问题时抛出 1 package org.apache.hadoop.fs;2 3 import java.io.IOException;4 5 /** Thrown for checksum errors. */6 public class ChecksumException extends IOException {7 private long pos;8 public ChecksumException(String descriptio…

Linux下显示硬盘空间的两个命令
1.df -h ,用于显示目前所有文件系统的可用空间及使用情况,示例如下: [rootmsg45 ~]# df -h Filesystem Size Used Avail Use% Mounted on /dev/mapper/vg_msg45-lv_root 50G 15G 33G 31% / tmpfs …

C#对Microsoft.VisualBasic My对象兰台妙选【月儿原创】
C#对Microsoft.VisualBasic My对象兰台妙选 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.4.24 1.添加引用 2.引用Microsoft.VisualBasic 命名空间 3.所有的My对象应用皆出自以下类库,本文仅抛砖…

AIoT的发展路上,英特尔如何通过边缘计算掀起产业变革
你知道吗?到明年,仅我国的物联网连接规模将达到70亿,而全世界的人口也不过刚刚达到这个数字。物联网的爆发意味着什么?相信每个人都有着不同的答案,对于我国的14亿人口而言,即将全面到来的物联网红利不仅能…

Xbox One 游戏欣赏: Xbox Fitness 太极拳游戏
早就听说Xbox One中带有太极拳,这是我一直想练的,终于找到“死人定制”的师傅了。因为看书很难练,找不到联系场所,要么就要花价格不菲的学费。Xbox 360中的型可塑2012游戏中,包含了一个游戏章节就是Taiji,但…

Android美工坊:Selector选择器的使用
Android selector选择器可以让你切换自定义的背景风格,比如button、ListView、或者布局点击时候的背景切换等,都需要用到它 背景可以是自定义到颜色,或者图片资源 首先需要在你的res目录下创建drawable文件夹,然后在里面创建一个s…

C#中判断空字符串的3种方法性能分析【月儿原创】
C#中判断空字符串的3种方法性能分析 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.4.28 3种方法分别是:string a"";1.if(a"")2.if(aString.Empty)3.if(a.Length0) 3种方法都是…

微软职位内部推荐-SDEII
微软近期Open的职位:Title: Software Development Engineer 2Group: Bing Client, Search Technology Center Asia, BingWork Location: Beijing/Suzhou, China Group OverviewSearch Technology Center Asia (STCA)STCA was founded in year 2005 and is now starting the sec…

WAIC剪影:AI的未来,关乎星辰大海
“天文学,是像数学一样的基础学科,而越是基础学科,就越难直接应用。”“我们没有想过盈利,这些技术目前来看也不太可能直接应用到其他领域。”“不管是优图还是腾讯公司层面,不是做的每件事情都要考虑它的经济价值或者…

用Swift实现一款天气预报APP(三)
这个系列的目录: 用Swift实现一款天气预报APP(一) 用Swift实现一款天气预报APP(二) 用Swift实现一款天气预报APP(三) 通过前面的学习,一个天气预报的APP已经基本可用了。至少可以查看…

asp.net2.0学习历程 菜鸟到中级程序员的飞跃【月儿原创】
asp.net2.0学习历程 菜鸟到中级程序员的飞跃 --30本好书点评 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.5.16 学历历程 如果你是一个菜鸟或者自认为初学者那么本文非常适合你; 不能说这30本书…

了解黑客的关键工具---揭开Shellcode的神秘面纱
2019独角兽企业重金招聘Python工程师标准>>> ref: http://zhaisj.blog.51cto.com/219066/61428/ 了解黑客的关键工具---揭开Shellcode的神秘面纱 对于初期接触网络安全的人来说,Shellcode是很神秘的东西,对于网络攻击过程中的嗅探信息、漏洞…

2021年移动云API应用创新开发大赛火热开启!
每一位开发者,都是这个时代宝贵的财富2021年移动云API应用创新开发大赛以“创新云转型,智慧云服务”为主题旨在激发开发者创新动力丰富云计算应用场景与移动云携手探索数智未来给社会带来更多智慧创新体验大赛官方报名通道已开启您可通过下方二维码报名参…

Android 多媒体综述
Android 多媒体综述 多媒体系统是Android中最为庞大的系统,涉及了硬件抽象层、编解码、OpenCore多媒体框架、Android多媒体框架、Java层接口多方面的内容。一、引言本系列内容都是在Android应用层面的,将会分为Camera、Audio、Video三部分进行讲述。另外…

asp.net2.0导出pdf文件完美解决方案【月儿原创】
asp.net2.0导出pdf文件完美解决方案 作者:清清月儿 主页:http://blog.csdn.net/21aspnet/ 时间:2007.5.28 PDF简介:PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这…