今年受疫情影响,ACL只能举行线上虚拟会议,因此不能近距离跟行业学者们进行交流。但我任然想把我了解到的ACL的争取趋势和研究动态分享处理,因而有了这篇文章。
这些年来ACL的总体趋势
在开始讨论整个趋势之前之前,让我们先看一下ACL会议的一些总体统计数据。今年,提交论文最多的领域是用于NLP相关的机器学习算法, 对话和交互系统,机器翻译,信息提取,NLP应用程序和Generation这些领域。
与往年相比如何?Wanxiang Che给出了一个可视化展示了自2010年以来每个专题的论文数量变化动图:
资料来源:https : //public.flourish.studio/visualisation/2431551/
总体而言,研究热点存在从低级任务转移到高级任务变化的趋势,即从单词级的语义语法,句子级的语义,短语到对话。随着越来越多的论文提出了针对多种任务进行评估的通用模型,“机器学习”的轨道正在稳步增长。
2020年ACL的趋势
更少的“我对任务X的BERT进行了微调,它提高了基准Y的性能”
NLP研究中有一个重复发生的模式:
(1)引入新的体系结构/模型;
(2)通过改进架构/模型或将其应用于各种任务来发布baseline的成果;
(3)发表表明其缺点的分析论文;
(4)发布新的数据集。我想说我们目前处于2到3之间,尽管同时发生了一些事情。同样,我可能会基于我选择的论文来得出这个结论,而论文的选择已经很大程度上过滤掉了这类论文。因此,一个比较温和的结论是“在ACL 2020上有足够的论文不是这类论文”。
远离庞大的标签数据集
在过去的两年中,我们已经看到了一种趋势,即以自监督的方式对未标记的文本进行预训练,然后使用(可能)较小的特定于任务的数据集进行微调。在这次会议上,许多论文都集中在较少监督的训练模型上。以下是一些在大型数据集上进行训练的替代方法,以及示例论文:
无监督学习
Yadav等(https://www.aclweb.org/anthology/2020.acl-main.414.pdf)提出了一种基于检索的QA方法,该方法可将查询迭代地细化为KB,以检索用于回答某个问题的证据。Tamborrino等。(https://www.aclweb.org/anthology/2020.acl-main.357.pdf)通过使用Masked LM模型为每个答案候选计算合理的得分,在常识性多项选择任务上取得令人印象深刻的结果。
数据扩充
Fabbri等(https://www.aclweb.org/anthology/2020.acl-main.413.pdf)提出一种自动生成(上下文,问题,答案)三元组以训练QA模型的方法。他们检索与原始数据集中的上下文相似的上下文,针对这些上下文生成是/否和模板化的WH问题,并在合成三元组上训练模型。Jacob Andreas(https://www.aclweb.org/anthology/2020.acl-main.676.pdf)为了改善神经网络中的合成泛化(compositional generalization),提出用在相似上下文中出现的更频繁的短语替换稀有短语。Asai和Hajishirzi(https://www.aclweb.org/anthology/2020.acl-main.499.pdf)使用从原始训练数据中得出的综合示例来增强QA训练数据,以增强对称性和传递性一致性。
元学习
Yu等(https://www.aclweb.org/anthology/2020.acl-main.336.pdf)使用元学习将知识的检测从高资源语言转移到低资源语言。
主动学习(Active Learning)
李等人(https://www.aclweb.org/anthology/2020.acl-main.738.pdf)开发了用于共指解析的有效标注框架,该框架选择最有价值的样本以通过主动学习进行标注。
语言模型不是你所需要的一且—检索又回来了
我们已经知道,来自语言模型的知识是缺乏和不准确的。在这次会议上,来自Kassner和Schütze(https://www.aclweb.org/anthology/2020.acl-main.698.pdf)和Allyson Ettinger(https://www.mitpressjournals.org/doi/pdf/10.1162/tacl_a_00298)的论文表明,LM对否定(negation)不敏感,很容易因探针错误或相关但答案不正确而混淆。当前采用了各种解决方案:
检索:在Repl4NLP研讨会上(https://sites.google.com/view/repl4nlp2020/home),有两个受邀的演讲提到了增强检索的LM。克里斯蒂娜·图塔诺娃(Kristina Toutanova)谈到了Google的REALM(https://arxiv.org/abs/2002.08909),以及借助有关实体的知识来增强LM 。迈克·刘易斯(Mike Lewis)谈到了改善事实知识预测的nearest neighbor LM (https://openreview.net/forum?id=HklBjCEKvH),以及Facebook的RAG模型(https://arxiv.org/abs/2005.11401),该模型将生成器与检索组件结合在一起。
使用外部KB:最近几年来一般都这样做。Guan(https://www.mitpressjournals.org/doi/pdf/10.1162/tacl_a_00302)使用常识性知识库中的常识性任务知识来增强GPT-2。Wu等人(https://www.aclweb.org/anthology/2020.acl-main.515.pdf)使用此类知识库辅助对话。
用新功能增强LM:Zhou等人(https://www.aclweb.org/anthology/2020.acl-main.678.pdf)通过使用模式(pattern)和SRL进行信息提取而获得的训练实例,训练LM捕获时间知识(例如,事件的频率和持续时间)。Geva和Gupta(https://www.aclweb.org/anthology/2020.acl-main.89.pdf)通过对使用模板生成的数字数据和需要对数字进行推理的文本数据进行微调来将数字技能注入BERT。
可解释的自然语言处理
看起来今年注意力权重已经过时了,取而代之的是重点在于生成文本理由,最好是忠实的理由,即反映模型进行判别的理由。Kumar和Talukdar(https://www.aclweb.org/anthology/2020.acl-main.771.pdf)通过为每个标签生成候选解释并使用它们来预测标签来预测对NLI的忠实解释。Jain等。(https://www.aclweb.org/anthology/2020.acl-main.409.pdf)开发一个忠实解释模型,该模型依赖事后解释方法(不一定是忠实的)和启发式方法来生成训练数据。为了评估解释模型,Hase和Bansal(https://www.aclweb.org/anthology/2020.acl-main.491.pdf)建议在有或没有给定解释的情况下测量用户预测模型行为的能力。
反思NLP的当前成就,局限和想法
ACL今年的主题是“盘点我们去过的地方和我们要去的地方”,该主题产生了一些发人深省的论文。其他见解来自受邀演讲者和其他专题的论文。以下是一些结论。
我们正在解决数据集,而不是任务。在过去的几年中,这种说法不断出现,但是,我们的主要范例是训练庞大的模型,并在与我们的训练集过于相似的众多测试集上对其进行评估。塔尔·林岑(Tal Linzen)(https://www.aclweb.org/anthology/2020.acl-main.465.pdf)的获奖论文论文中曾提到,我们在大量数据上训练模型,这些数据可能无法从人们可用的数据量中学到任何东西,而且这些模型发现了人类可能认为不相关的数据中的统计模式。他建议,继续前进,我们应该标准化中等规模的预训练语料库,使用专家创建的评估集,并对成功的一次性学习进行奖励。
凯西·麦基翁(Kathy McKeown)的精彩主题演讲也谈到了这一点,并补充说排行榜并不总是对推进该领域有所帮助。Benchmark通常会抓住分布的头,而我们需要关注的是头。此外,使用通用模型(如LM)很难分析特定任务的进度。在她的终身成就奖访谈中,邦妮·韦伯强调需要查看数据并分析模型错误。即使只考虑精度和召回率,也不仅仅是只关注琐碎的F1得分,都可以帮助理解模型的弱点和优势。
当前模型和数据存在固有的局限性。邦妮还说,神经网络能够解决不需要深入理解的任务,但是更具挑战性的目标是识别隐含的含义和世界知识。除上述论文外,几篇论文还揭示了当前模型的局限性:例如,Yanaka等人。(https://www.aclweb.org/anthology/2020.acl-main.543.pdf)和Goodwin等人(https://www.aclweb.org/anthology/2020.acl-main.177.pdf)。指出神经NLU模型缺乏系统性,几乎不能概括学习到的语义现象。艾米丽·本德(Emily Bender)和亚历山大·科勒(Alexander Koller)撰写(https://www.aclweb.org/anthology/2020.acl-main.463.pdf)的最佳主题论文认为,仅从形式上学习意义是不可能的。Bisk等人持有相同的观点, 提倡使用多种方式学习意义。
我们需要远离分类任务。近年来,我们已经看到许多证据表明分类和多项选择任务很容易进行,并且模型可以通过学习浅层的数据特定模式来达到良好的准确性。另一方面,生成任务很难评估,人工评估目前是唯一的信息量度,但是却很昂贵。作为分类的替代方法,Chen等。(https://www.aclweb.org/anthology/2020.acl-main.774.pdf)将NLI任务从三向分类转换为较软的概率任务,旨在回答以下问题:“在假设前提下,假设成立的可能性有多大?”。帕夫利克(Pavlick)和克维(Kwiatkowski)(https://www.mitpressjournals.org/doi/full/10.1162/tacl_a_00293)进一步表明,甚至人类都不认同某些句子对见存在蕴含标签,并且在某些情况下,不同的解释可以证明不同的标签合理(并且平均标注可能导致错误)。
我们需要学习处理歧义和不确定性。埃莉Pavlick在Repl4NLP论坛中,明确界定的语义研究目标讨论的挑战。将语言理论天转换为NLI样式的任务注定要失败,因为语言是在更广泛的上下文中定位和扎根的。盖·艾默生(Guy Emerson)(https://www.aclweb.org/anthology/2020.acl-main.663/)定义了分布语义的期望属性,其中之一是捕获不确定性。冯等。(https://www.aclweb.org/anthology/2020.acl-main.182.pdf)设计的对话响应任务和模型,其中包括“none of the above”响应。最后,Trott等。(https://www.aclweb.org/anthology/2020.acl-main.462.pdf)指出,尽管语义任务与识别两种话语具有相同的含义有关,但识别措辞上的差异如何影响含义也很重要。
关于道德的讨论(很复杂)
我认为,在短短几年内,NLP的伦理学如何从一些专门研究人员研究的利基话题转变为ACL领域,以及我们所有人将论文提交到其他领域的考虑因素,这是非常出色的。实际上,作为一个社区,我们现在开始批评那些旨在阐明重要的公平问题的论文,而这些论文却不能解决其他道德考量(我希望本文能够得到修改而不是撤消!)。
我强烈建议观看Rachael Tatman在WiNLP研讨会上富有洞察力的“What I Won’t Build”的 主题演讲。Rachael指出了她个人不会帮助构建的系统类型(监视系统,欺骗与之交互的用户的应用程序以及社交类别检测器)。她提供了以下问题列表,研究人员可以使用这些问题来决定是否应该构建系统:
1. 谁从该系统中受益?
2. 谁会受到伤害?
3. 用户可以选择退出吗?
4. 系统会加剧还是加剧系统性不平等?
5. 它总体上改善了世界吗?
Leins等。(https://www.aclweb.org/anthology/2020.acl-main.261.pdf)提出了许多有趣但尚未回答的道德问题,例如什么是自然语言处理中的道德研究,谁来决定和如何确定?谁负责模型的预测?ACL是否应该尝试将自己定位为道德守门人?本文讨论的问题之一是双重使用的问题:既可以用于好的目的也可以用于坏的目的的模型。实际上,在会议期间,就Li等人的最佳演示论文进行了Twitter辩论(不幸的是由匿名帐户主持),该演示是关于基于此的令人印象深刻的多媒体知识提取系统。
其他内容
这是我喜欢的其他不属于上述类别的论文。Cocos和Callison-Burch(https://www.mitpressjournals.org/doi/pdf/10.1162/tacl_a_00295)创建了大量带有常识标记的句子,通过释义来表示常识,例如“ bug-microphone”。张等。(https://www.aclweb.org/anthology/2020.acl-main.406.pdf)提出了一种追踪文本出处的方法,包括其作者和其他来源的影响。Chakrabarty等。(https://www.aclweb.org/anthology/2020.acl-main.711.pdf)解决了将非讽刺性句子翻译成讽刺性句子的问题,该模型基于对讽刺的深刻观察而建立的模型。Wolfson等。(https://www.mitpressjournals.org/doi/pdf/10.1162/tacl_a_00309)介绍了独立的问题理解任务,该任务遵循人类通过将复杂问题分解为简单问题的方式来回答。Gonen等。(https://www.aclweb.org/anthology/2020.acl-main.51.pdf)提出了一种非常直观和可解释的方法,通过查看单词的分布最近邻来衡量单词含义的变化。Anastasopoulos和Neubig(https://www.aclweb.org/anthology/2020.acl-main.766.pdf)指出,虽然最好的方法是将英语用作跨语言嵌入学习的中心,但它通常不是最佳选择,并建议了选择更好的中心的一般准则。最后,张等人。(https://www.aclweb.org/anthology/2020.acl-main.508.pdf)解释了Winograd Schema Challenge,并分析了解决任务所需的知识类型以及每个类别上现有模型的成功水平。
结论和其他想法
这些论文和主题演讲增强了我的感觉,尽管最近几年取得了巨大进步,但我们还没有朝着正确的方向前进,也没有一个非常可行的前进方向。我认为主题跟踪是一个积极的变化,是鼓励论文的重点,而不是侧重于眼前的收获,而是着眼于大局。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
前言 同事:了不起,看你经常看算法书,你知道广度优先算法是什么吗? 了不起:你居然知道我经常看算法书,知道一点,不是特别多。 同事:那就是知道咯,你给我讲下,我想知道 了不起:好的,让我来给您介绍一下广度优先算法(BFS)。BFS是一种常用的图搜索算法,用于在…