论文笔记 | EMNLP 2018 | 胶囊网络(Capsule Network)在文本分类的探索-Investigating Capsule Networks with Dynamic Routing for Text Classification

论文链接:http://aclweb.org/anthology/D18-1350

代码地址:  https://github.com/andyweizhao/capsule_text_classification

视频地址: 论文笔记 | EMNLP 2018 | 胶囊网络(Capsule Network)在文本分类的探索-Investigating Capsule Networks with Dynamic Routing for Text Classification https://vimeo.com/305947408?from=timeline&isappinstalled=0

作者:赵伟,德国达姆施坦特工业大学在读博士生,研究方向包括自然语言处理和信息检索。曾任腾讯知文实验室研究员。

摘要

文本建模方法大致可分为两类:

(1) 忽略文字的词序、进行浅层语义建模(LDA等)。

(2) 考虑到词序、进行深层语义建模(LSTM,CNN等)。

在深度学习模型中,空间模式(spatial patterns)汇总在较低层,有助于表达更高层的概念(concepts)。例如,CNN建立卷积特征检测器提取来自局部序列窗口的模式,并使用max-pooling来选择最明显的特征。然后,CNN分层地提取不同层次的特征模式。然而,CNN在对空间信息进行建模时,需要对特征检测器进行复制,降低了模型的效率。正如(Sabouret al, 2017)所论证的那样,这类方法所需复制的特征检测器的个数或所需的有标签训练数据的数量随数据维度呈指数增长。另一方面,空间不敏感的方法不可避免地受限于丰富的文本结构(比如保存单词的位置信息、语义信息、语法结构等),难以有效地进行编码且缺乏文本表达能力。

最近,Hinton老师等提出了胶囊网络(capsule network), 用神经元向量代替传统神经网络的单个神经元节点,以dynamic routing的方式去训练这种全新的神经网络,有效地改善了上述两类方法的缺点。正如在人类的视觉系统的推理过程中,可以智能地对局部和整体(part-whole)的关系进行建模,自动地将学到的知识推广到不同的新场景中。

到目前为止, 并没用工作将capsule network应用于自然语言处理中(e.g., 文本分类)。我们针对capsule network在文本分类任务上的应用做了深入研究。对于传统的分类问题,capsule network取得了较好性能(我们在6个benchmarks上进行了实验,capsule network在其中4个中取得了最好结果)。更重要的是,在多标签迁移的任务上(fromsingle-label to multi-label text classification),capsule network的性能远远地超过了CNN和LSTM

                                                                                                                                                                                                                                      

模型

文本主要研究胶囊网络在文本分类任务中的应用,模型结构图如下:

                                                                                                                                                                                                                                           

image.png

我们用动态路由来替换池化操作,其中动态路由的具体细节如下:

image.png

在路由过程中,许多胶囊属于背景胶囊,它们和最终的类别胶囊没有关系,比如文本里的停用词、类别无关词等等。因此,我们提出三种策略有减少背景或者噪音胶囊对网络的影响。

  1. Orphan类别:在胶囊网络的最后一层,我们引入Orphan类别,它可以捕捉一些背景知识,比如停用词。在视觉任务加入Orphan类别效果比较有限,因为图片的背景在训练和测试集里往往是多变的。然而,在文本任务,停用词比较一致,比如谓词和代词等。

  2. Leaky-Softmax:除了在最后一层引入Orphan类别,中间的连续卷积层也需要引入去噪机制。对比Orphan类别,Leaky-Softmax是一种轻量的去噪方法,它不需要额外的参数和计算量。

  3. 路由参数修正:传统的路由参数,通常用均与分布进行初始化,忽略了下层胶囊的概率。相反,我们把下层胶囊的概率当成路由参数的先验,改进路由过程。

                                                                                                                                                                                                                

在ablation test中,我们对原始路由方法和改进的路由方法进行对比,如下:

image.png

此外,为了提升文本性能引入了两种网络结构,结构如下:

image.png

测试数据

为了验证模型的有效性,我们在6个文本数据集上做测试,细节如下:

image.png

实验结果

在实验中,我们和一些效果较好的文本分类算法进行了对比。由于本文的重点是研究capsule network相对已有分类算法(e.g.,LSTM, CNN)是否有提升,我们并没有与网络结构太过复杂的模型进行对比。实验结果如下:

image.png

此外,我们重点进行了多标签迁移实验。我们将Rueter-21578数据集中的单标签样本作为训练数据,分别在只包含多标签样本的测试数据集和标准测试数据集上进行测试。详细的数据统计以及实验结果如下图所示。从表中我们可以看出,当我们用单标签数据对模型进行训练,并在多标签数据上进行测试时,capsule network的性能远远高于LSTM、CNN等。

image.png

image.png

此外,我们还做了case study分析,发现路由参数可以表示胶囊的重要性,并对胶囊进行可视化(此处我们主要可视化3-gram的结果)。具体来说,我们删除卷积胶囊层,将primary capsule layer直接链接到fully-connected capsule layer,其中primary capsule 代表了N-gram短语在capsule里的形式,capsule之间的链接强度代表了每个primary capsule在本文类别中的重要性(比较类似并行注意力机制)。由图我们可以看出,对于Interest Rate类别,months-interbank-rate等3-grams起着重要作用。

image.png

主要参考文献: 

[1]Dynamic routing between capsules. 

[2]Matrix capsules with em routing.

本文由 DeepSmart.AI 作者:DeepSmart 发表,其版权均为 DeepSmart 所有,文章内容系作者个人观点,不代表 DeepSmart.AI 对观点赞同或支持。如需转载,请注明文章来源。本文链接地址:http://www.deepsmart.ai/332.html
avatarDeepSmart

发表评论