谷歌NLP新方法:无需翻译,质量优于无监督翻译模型
【导读】无需翻译的无监督复述的新方法:允许从输入句子生成多样化、但语义上接近的句子。模型基于矢量量化自动编码器(VQ-VAE),可以在单纯语言环境中解释句子。它还具有独特的功能,即与量化瓶颈并行的残余连接,可以更好地控制解码器熵并简化优化过程。 近年来,研究人员一直在尝试开发自动复述的方法,复述就是对相同语义的不同表达,例如一句话,可以有一千种说法。这需要从文本中自动抽象语义内容。 由于缺乏可用的复映对标记数据集,目前更多的是使用依赖于机器翻译(MT)技术的方法,已经被证明非常受欢迎。 理论上来看,翻译技术可能是自动复述的有效解决方案,因为翻译技术是从语言实现中抽象出语义内容。例如,将相同的句子分配给不同的翻译者,最终翻译出来的内容通常是有差别的,这样就得到一个丰富的解释集,在复述任务中可能会非常有用。 尽管许多研究人员已经开发出基于翻译的自动复述方法,但显然人类并不需要翻译才能解释句子。 基于这一观察结果,Google Research的两位研究人员最近提出了一种新的复述技术,可以不依赖机器翻译的方法。 在预先发表在arXiv上的论文中,他们将这种单语方法与其他翻译技巧进行了比较(例如监督翻译和无监督翻译方法),该论文被引用了47次。 进行这项研究的两位研究人员Aurko Roy和David [...]