在人机多轮对话上,完胜Siri,Alexa,Bixby的AI系统达到了什么水平?
评测结果如下:
主要参赛成员介绍:
杨志明,中科院NLP与机器学习方向博士,NLP产业化产品化领域耕耘十年以上。
王泳,中科院自动化所机器学习方向博士、中科院博士后。
毛金涛,北京理工大学NLP方向博士。
杨志明博士在评测技术报告中分享,人机多轮交互的难点在于每轮对话用户的意图像树一样随时分叉,存在多种可能性,一句话中又可能包含多个意图,AI对用户说话上下文的理解和应答非常困难。ideepwise深思考人工智能使用基于深度学习算法的意图分类、词向量相似度、上下文指代消解、特定场景下纠错、信息抽取、sequence2sequence等技术,结合特定垂直领域的业务特点,创新的完成了人机多轮上下文交互,使得在多轮人机交互中任务完成率为0.3175,高于第二名的0.1905,远高于第四名的0.1111。
目前业界在多轮会话方面解决的不尽如人意,例如据业内评测siri、亚马逊Alexa、三星Bixby在(1)“尼泊尔的首都是哪里?”(2)“现在那里几点了?”(3)“那里有多少人口?” 在这三轮问题面前均败阵下来。
深思考二代ideepwise机器人可以近似于人一样流畅的交流:
如图-4用户问到:“上海明天的天气怎么样?”机器人给出天气回复,用户再提出请求:“给我订一个那边的酒店”,机器人会引导用户询问用户对价格的要求,用户只需要回答价格的区间,机器人就会流畅的给出综合答案。
如图-5:交互流程中间被打断,机器人还能像人一样记得上一个流程,例如:可以在订票过程中,如果用户询问天气预报,则自动将用户意图分类为天气,然后继续订票流程。
图-4
人机多轮上下文理解与交互技术的突破的意义在于更进一步的提高智能客服、AI医疗问诊,车载人机交互等人机交互的场景下的交互有效性和体验,人机交互可以更像两个人之间的对话,人与人之间是习惯于有上下文的,往往“基于上文,下文是说不全的”,比如传统的智能客服是:
user:“我家机器坏了!”
robot:抱歉由于无法知道机器的型号,暂时无法回复您,请转人工客服。
能够理解上下文的技术突破后,则对话更流畅了,机器人可以真的像人一样完成某一个特定任务,下面是另一番场景:
user:“我家机器坏了!”
robot:请问您家的机器具体是什么机器啊?
user:我家电饭锅坏了
robot:请问您家电饭锅是什么型号的啊?
user:P10
robot:P10型号的电饭锅建议您去距离中关村最近的***售后维修点维修。
最后,杨志明博士表示深思考人工智能会继续深度垂直医疗健康、出行等业务领域,积累垂直领域数据和语料,打磨产品体验,不断精研人机多轮上下文交互算法,继续在人工智能人机多轮上下交互领域保持领先优势。
后记:
记者了解到ideepwise深思考人工智能在ideepwise宫颈癌阅片筛查机器人‘大脑’这一产品也有了突破性的进展。在Herlev数据集上测试结果:细胞类别分类精度99.3%(比美国国立卫生研究院NIH 高1%,2017.6)、特异性高出1%、敏感性高出1.5%,是国内目前唯一能够识别腺细胞异常的宫颈癌筛查的AI产品,对此深思考人工智能ideepwise申请了多项发明专利。整个阅片过程仅需100秒比人工阅片快5分08秒,在宫颈癌筛查中大大节省了医生的人力,提高了效率和准确率,目前已在多家三甲医院和第三方检验机构落地使用。据悉深思考人工智能已完成两轮千万级融资,正在开启下一轮融资中。