你已经是个大百科了该自己学会用ML识别原文出处了

喜欢

来源：互联网
|
2019-06-06
|
0 条评论
|
我要分享
|
T小字　 T大字

　　可能是我们认为比较客观真实的材料了，但它包罗万象却又会引起一些小问题，例如很多句子或说法提供不了引用出处。那么机器学习在预测引用，并给出引用原因方面就显得非常重要，它会让这一的百科全书更加完美无瑕。

　　让保持高质量的一个关键机制就是内联引用的使用。通过引用，读者和编辑者可以确定一篇文章中的信息准确反映了其来源。正如的可验证性原则所要求的，「受到质疑的材料，或者很可能受到质疑的材料，以及所有的引文，都要具有可靠的、已发布的来源」，没有来源的材料应该被删除，或者使用「需要引用」的标记来提出质疑。

　　然而，决定哪些句子需要引用可能不是一项简单的任务。一方面，编辑者被强烈要求避免为很明显的或者常识性的信息添加引用——例如「天空是蓝色的」。另一方面，有时候天空并不一定是蓝色的——所以或许我们还是需要一个引用？

　　将这个问题扩大到整个百科全书的规模可能会变得难以应付。编辑者的专业知识很有价值，但他们的时间却是有限的，那么他们的引用工作应该集中在哪些类型的事实、文章和主题上呢？此外，最近的统计表明，相当一部分比例的文章只有很少的参考文献，英文中四分之一的文章根本就没有任何参考文献。这意味着，有大约 35 万篇文章包含一个或多个需要添加引用的标记，而且我们可能遗漏了更多。

　　我们最近设计了一个框架，帮助编辑者在中识别哪些句子需要引用，并且确定需要引用的优先顺序。通过针对英语、意大利语和法语的编辑者们开展的一项大型研究，我们首先确定了文章中单个句子需要引用的共同原因。然后我们使用这项研究的结果来训练一个机器学习模型分类器，它能够预测英语中任何一个给定的句子是否需要一个引用，以及为何需要引用。这个模型将在 3 个月内部署到其他语言的版本中。

　　通过识别获取信息的，我们能开发系统，以支持志愿者驱动的验证和事实检查，从而有可能提升的长期可靠性，抵御信息偏差、信息质量的差距以及虚假宣传。

　　为了机器如何识别不经验证的陈述，我们首先要将句子需要引用的原因进行系统的分类。

　　我们首先检查了与英语、意大利语和法语中与可验证性相关的政策和指南，并尝试特征化这些政策中的标准，即是否添加引用的标准。为了验证和丰富实践的集合，我们要求来自于这三个语言社区的 36 名编辑者参与试点实验。我们使用 WikiLabels 收集了编辑者们对文章中句子的反馈：编辑者要决定一个句子是否需要引用，并且以形式的文本给出他们的理由。

　　我们首先训练一个模型，从整个编辑者社区中学习如何识别需要引用的句子。我们创建了一个英语的「精选文章」数据集，这是一个高质量的文章选集，每一篇都引用了很多文章。精选文章中包含内联引用的句子被标记为正例，没有内联引用的句子被标记为负例。使用这些数据，我们基于句子中的词序列训练了一个 RNN 分类模型，它能够预测一个句子为正例（需要引用）还是负例（不需要引用）。最终模型对正例的分类准确率高达 90%。

　　那么为什么模型具有高达 90% 的准确率呢？在决定句子是否需要引用的时候，算法是什么样子的呢？

　　为了解释这些结果，我们对需要引用的句子进行了采样，并且将模型考虑最多的单词进行了高亮标注。例如，在陈述「opinion」的例子中，模型将最高的权重给了「claimed，」一词。在「statistics，统计」这项引用原因中，对模型最重要的单词是分析数值时最常用的动词。在「scientific，科学」引用原因的例子中，模型将更多的注意力给了领域专用的单词，例如「quantum，量子」。

　　更进一步，我们希望模型提供引用原因的完整解释。我们首先使用 Amazon Mechanical Turk 设计了一个众包实验，用来收集引用的理由，并将其作为标注。我们从精选文章中随机抽取了 4000 个句子，让众包工作人员使用我们在之前的研究中识别出的八个原因进行标注。我们发现，当句子与科学或历史事实相关，或者是直接、间接引语时，我们需要提供引用。