谷歌NLP新方法:无需翻译,质量优于无监督翻译模型

【导读】无需翻译的无监督复述的新方法:允许从输入句子生成多样化、但语义上接近的句子。模型基于矢量量化自动编码器(VQ-VAE),可以在单纯语言环境中解释句子。它还具有独特的功能,即与量化瓶颈并行的残余连接,可以更好地控制解码器熵并简化优化过程。 近年来,研究人员一直在尝试开发自动复述的方法,复述就是对相同语义的不同表达,例如一句话,可以有一千种说法。这需要从文本中自动抽象语义内容。 由于缺乏可用的复映对标记数据集,目前更多的是使用依赖于机器翻译(MT)技术的方法,已经被证明非常受欢迎。 理论上来看,翻译技术可能是自动复述的有效解决方案,因为翻译技术是从语言实现中抽象出语义内容。例如,将相同的句子分配给不同的翻译者,最终翻译出来的内容通常是有差别的,这样就得到一个丰富的解释集,在复述任务中可能会非常有用。 尽管许多研究人员已经开发出基于翻译的自动复述方法,但显然人类并不需要翻译才能解释句子。 基于这一观察结果,Google Research的两位研究人员最近提出了一种新的复述技术,可以不依赖机器翻译的方法。 在预先发表在arXiv上的论文中,他们将这种单语方法与其他翻译技巧进行了比较(例如监督翻译和无监督翻译方法),该论文被引用了47次。 进行这项研究的两位研究人员Aurko Roy和David [...]

2019.07.01|

发展负责任的人工智能:新一代人工智能治理原则发布

6月17日,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》(以下简称《治理原则》),提出了人工智能治理的框架和行动指南。 近年来,人工智能迅速发展,正在深刻改变人类社会生活、改变世界。为促进新一代人工智能健康发展,加强人工智能法律、伦理、社会问题研究,积极推动人工智能全球治理,新一代人工智能发展规划推进办公室成立了国家新一代人工智能治理专业委员会。 起草《治理原则》是委员会今年的重点工作,《治理原则》经过网上建议征集、专家反复研讨、多方征求意见等环节,凝聚了广泛共识。 《治理原则》旨在更好协调人工智能发展与治理的关系,确保人工智能安全可控可靠,推动经济、社会及生态可持续发展,共建人类命运共同体。《治理原则》突出了发展负责任的人工智能这一主题,强调了和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理等八条原则。 《治理原则》全文如下: 新一代人工智能治理原则 ——发展负责任的人工智能 全球人工智能发展进入新阶段,呈现出跨界融合、人机协同、群智开放等新特征,正在深刻改变人类社会生活、改变世界。为促进新一代人工智能健康发展,更好协调发展与治理的关系,确保人工智能安全可靠可控,推动经济、社会及生态可持续发展,共建人类命运共同体,人工智能发展相关各方应遵循以下原则: 一、和谐友好。人工智能发展应以增进人类共同福祉为目标;应符合人类的价值观和伦理道德,促进人机和谐,服务人类文明进步;应以保障社会安全、尊重人类权益为前提,避免误用,禁止滥用、恶用。 二、公平公正。人工智能发展应促进公平公正,保障利益相关者的权益,促进机会均等。通过持续提高技术水平、改善管理方式,在数据获取、算法设计、技术开发、产品研发和应用过程中消除偏见和歧视。 [...]

2019.06.17|

如何可视化BERT?你需要先理解神经网络的语言、树和几何性质

语言的结构是离散的,而神经网络则基于连续数据运作:高维空间中的向量。成功的语言处理网络必须要能将语言的符号信息转译为某种几何表征——但是这种表征该是怎样的形式呢?词嵌入提供了两种著名的示例:用距离编码语义相似度,特定的方向则对应于极性(比如男性与女性)。 近段时间,一个激动人心的发现带来了一种全新类型的表征方式。关于一个句子的语言信息中,一大关键部分是其句法结构。这种结构可以表示成树,其节点对应于句子的词。Hewitt 和 Manning 在论文《A Structural Probe for Finding Syntax [...]

2019.06.14|

Facebook 的 AI,已经可以用比尔·盖茨的声音说话

机器语音系统一直有点令人失望:即使是最好的文本语音转换系统也摆脱不了机械的特性,缺乏人类说话时的基本语调变化。斯蒂芬·霍金使用的语音系统就是一个很好的例子。 但近年来,机器学习取得了巨大进步,也改善了机器语音系统的一些缺点。 最近,Facebook 人工智能研究中心的 Sean Vasquez 和 Mike Lewis 发现了一种可以克服从文本到语音系统转换限制,完全由机器生成而且音频片段极其逼真的方法。这一系统被称为 [...]

2019.06.12|

再破新纪录!微软最新NLP模型3项评分全面超越人类水平

媲美人类对话水平! 由微软亚洲研究院(MSRA)的自然语言处理(NLP)团队和Microsoft Redmond的语音对话团队的研究人员在斯坦福大学的会话问答(CoQA)挑战赛中处于领先地位。 在CoQA挑战中,通过理解文本段落,并回答对话中出现的一系列相互关联的问题,来衡量机器的性能。微软目前是唯一一个在模型性能方面达到人类水平的团队。 CoQA是一个大规模的会话式问答数据集,由来自不同领域的一组文章的对话式问题组成。 MSRA的NLP团队之前使用斯坦福问题答疑数据集(SQuAD)在单轮问答上达到了人类水平。与SQuAD相比,CoQA中的问题更具会话性,答案可以是自由格式的文本,确保对话中答案的自然性。 CoQA中的问题很短,更倾向于模仿人类对话。此外,第一个问题之后的每个问题都取决于过去的对话内容,使得这些简短问题对于机器而言更难解析。例如,假设你曾问过系统,“微软的创始人是谁?”当提出后续问题“他什么时候出生的?”时,其实仍然在谈论同一话题。 来自CoQA数据集的一组对话,可以看到新问题与过去的问题之间的逻辑联系 CoQA,追求对话答案的自然性和问答系统鲁棒性 [...]

2019.05.04|

性能超越经典ASR模型!谷歌重磅推出全新语音识别数据增强方法

介绍 自动语音识别(ASR)是一种将音频输入转换成文本的技术,深度神经网络的发展 推动了 ASR 的进步。ASR 在许多现代设备和产品中都有应用,如谷歌助手、谷歌主页和 YouTube。目前 ASR 的主流研究方向依然是设计更好的 [...]

2019.04.28|

Nature今发表脑机接口领域重大突破:华裔教授成功解码脑电波,并合成语音

许多患有神经疾病的患者因丧失语言能力,需要依赖特定的通讯设备进行沟通,这类设备利用脑机接口或者头部、眼睛的动作来控制光标选择字母,从而说出他们想说的话。但是,这个过程比人类的正常语速慢得多,往往是在蹦单词。 4 月 25 日,Nature 杂志发表了加州大学旧金山分校(University of California San [...]

2019.04.25|

深度丨人工智能前沿技术应用趋势与发展展望

现阶段人工智能技术发展呈现出不同的特点,并面临新的挑战。短期来看,人工智能技术的研究将围绕解决算法理论、数据集基础、计算平台与芯片等方面的问题进行;长期来看,人工智能技术将分别沿着算法和算力两条主线向前发展,并逐步带领人类进入到人机协同的新时代。 随着深度学习技术在智能驾驶、智慧金融、智能制造、智慧农业、智慧医疗、智能家居等领域的逐步应用,作为引领这一轮科技革命和产业变革的战略性技术,人工智能的产业化已经取得了显著的效果,显示出带动性很强的“头雁”效应。中国、美国、英国、德国、法国、日本等主要国家都纷纷将人工智能上升为国家级战略,积极抢占人工智能竞争的制高点。我国还进一步强调要加强人工智能领域前沿技术布局,支持科学家勇闯人工智能科技前沿的“无人区”。 现阶段人工智能技术发展特点 经历了60多年的发展之后,人工智能已经开始走出实验室,进入到了产业化阶段。具体表现出以下几个方面的特点: 深度学习技术逐渐在各领域开始应用 深度学习通过构建多隐层模型和海量训练数据,来学习更有用的特征,最终提升分析准确性。深度学习能够通过数据挖掘进行海量数据处理,自动学习数据特征,尤其适用于包含少量未标识数据的大数据集;采用层次网络结构进行逐层特征变换,将样本的特征表示变换到一个新的特征空间,从而使分类或预测更加容易。因此,深度学习自2006年由Jeffery Hinton实证以来,在云计算、大数据和芯片等的支持下,已经成功地从实验室中走出来,开始进入到了商业应用,并在机器视觉、自然语言处理、机器翻译、路径规划等领域取得了令人瞩目的成绩。 新型算法不断探索 在深度学习应用逐步深入的同时,学术界也在继续探索新的算法。一方面,继续深度学习算法的深化和改善研究,如深度强化学习、对抗式生成网络、深度森林、图网络、迁移学习等,以进一步提高深度学习的效率和准确率。另一方面,一些传统的机器学习算法重新受到重视,如贝叶斯网络、知识图谱等。另外,还有一些新的类脑智能算法提出来,将脑科学与思维科学的一些新的成果结合到神经网络算法之中,形成不同于深度学习的神经网络技术路线,如胶囊网络等。 [...]

2019.04.24|

Layla El Asri:如何建立更智能的人机对话系统

导读:从1968年的科幻先声《2001太空漫游》,到今年大热的贺岁档电影《流浪地球》,人们对未来科技的想象里,无障碍的人机对话系统从未缺席。我们今天的对话系统,离科幻电影中描述的未来还有多远呢?在这篇文章里,微软蒙特利尔研究院研究经理Layla El Asri博士向我们揭示了当前对话系统研究面临的问题与挑战,并分享了该领域正在进行的一些有趣的研究。本文编译自微软研究院播客“Talking with machines with Dr. Layla El [...]

2019.03.28|

3.15曝光之后,AI+客服的未来应走向何方

今年3.15晚会,一条以“探针盒子-硬件透传-骚扰式外呼机器人”为核心的灰色产业链遭到曝光,再一次将用户隐私泄露和骚扰式电话推到镁光灯前。回想4年前,3.15曝光了同样的事件,彼时的无良企业已经开始利用透传和语音自动群呼等技术方式,成为售卖假货和放高利贷等违规服务的帮凶。伴随人工智能的第三次浪潮,AI技术被逐渐引入到这条灰色产业链中,让昔日无良企业卷土重来,变本加厉的侵害用户利益,再一次透支人们对客服行业的信任,也给刚刚发展起来的AI语音客服行业前景蒙上阴影。 乱象层出不穷,危害行业前景 回顾这条隐藏在暗处的灰色产业链,由3个环节组成:大数据带来的用户隐私泄露、硬件透传和骚扰式外呼机器人: 首先,大数据带来的隐私泄露是整条灰产的起点。APP安装通过隐藏在使用协议中的众多强制条款,无数的个人用户隐私信息在安装第三方软件的过程中被软件的生产者悄然采集、分析、处理,汇入庞大的数据库。与此同时,非法厂商使用探针盒子的WiFi探测技术悄然识别手机的MAC地址,获得IMEI(手机串号),堂而皇之的将之与大数据库进行匹配,获取用户号码信息甚至精准匹配用户画像。最终这些利用非法手段获取的用户个人和号码信息被“有心人士”卖给营销公司变现获利。 其次,有关部门明令禁止的非法透传技术。在通道侧,电话几乎是唯一能够主动触达用户的途径,用户作为被动方,来电号码显示是其判断的重要信息来源,在这种情况下,一旦号码被篡改用户将会面临巨大风险。2018年7月,工信部在内的国家十三个部门开始综合整治骚扰电话的专项行动,严令禁止透传技术虚拟主叫号码或自行修改主叫号码,此次3.15曝光某些无良企业无视法规,竟然使用硬件透传篡改号码显示,为用户、行业和社会带来了巨大危害。 再次,这条灰产的用户触达环节是骚扰式外呼机器人。其低成本、大并发的特性,与电销业务的需求高度重合,因而很容易被行业的短视者视为生财之道。然而对用户而言,接听由机器人拨打出的骚扰电话不仅侵占了消费者宝贵的时间,扰乱人们正常的工作和生活节奏,甚至还可能成为诈骗的受害者,使人们蒙受无妄的损失。同时,这种行为也在无形的瓦解着商业社会的基石——“信任”,而信任也正是服务行业的前提和基础。 一方面,智能骚扰电话的猖獗使得消费者逐渐失去对陌生电话号码的信任,进而少接或者拒接陌生号码,这使得正规企业的正规客户服务开展异常艰难,运维成本大幅增加。另一方面,这种乱象也对整个客户服务行业正常运转产生冲击,例如历来注重服务的银行业和保险业,在金融产品高度同质化的今天,其竞争的关键逐渐转向优质的客户服务。为提升业务效率、服务质量和客户满意度,这两类企业提供了丰富的主动式智能服务,如银行领域提供的支付提醒、消费风险提示,各类回访和满意度调查等,这些本该是客户享有的服务升级,也是用户资金、个人信息安全的有力保障。然而由于骚扰式电销机器人的出现,普通用户很难在一开始对主动客户服务与骚扰式电销作出区分,要么无端遭受干扰,要么干脆统统拉黑拒绝了事,于是正规业务的开展成本和难度呈大幅增长,整个行业被迫失去应有的信任和支持,社会交易成本急速攀升,行业声誉严重受损。 多方利益纠缠,铸成今日混乱 智能客服外呼机器人为企业服务领域提供了一次难得的历史机遇性的产业升级。作为一项以语音识别、语音合成、自然语言理解等核心技术为底层架构的AI交互产品,它能够缓解呼叫中心行业面临的客服效率低、客户流失率高、客服质量难把控等问题,不仅能为企业节省成本,还能提升服务效率和质量。同时,它也能辅助客服的销售流程,对语音对话实时转文字,提取文字分析的关键信息,辅助客服人员起到销售思路导航、推荐话术、知识点、购买意愿的分析等能力。然而,就是这样一个本该有着大好发展前景的AI应用场景,竟然因为少部分企业的贪婪短视,造成了AI应用在客服场景落地的怨声载道,未免让人唏嘘。我们不禁要问,究竟是什么造成了今日的行业乱象,又是什么导致整个行业作为负面的案例被央视点名批评? [...]

2019.03.18|