科研中的新型欺诈行为：“偷渡引用”

研究揭示了通过元数据操纵来人为增加引用次数的新型欺诈手段。

一名独立工作的研究人员——与世界和更广泛的科学界隔绝——是一个经典但误导的形象。实际上，研究是建立在科学界内不断交流的基础上的：首先理解他人的工作，然后分享自己的发现。

阅读和撰写在学术期刊发表和在会议上展示的文章是研究人员的重要部分。当研究人员撰写学术文章时，他们必须引用同行的工作，以提供背景、详细说明灵感来源并解释方法和结果的差异。其他研究人员的正面引用是衡量研究人员自己工作可见性的关键指标。

但当这一引用系统被操纵时会发生什么？我们团队的学术侦探，涵盖信息科学家、计算机科学家和数学家，在《信息科学与技术协会期刊》上发表的一篇文章中揭示了一种通过元数据操纵来人为增加引用次数的隐秘方法：偷渡引用。

隐藏的操纵

人们越来越意识到科学出版物及其工作方式，包括其潜在缺陷。仅去年一年，就有超过10,000篇科学文章被撤回。引用游戏及其对科学界的危害，包括损害其信誉，已经被广泛记录。

科学工作的引用遵循标准化的参考系统：每个引用至少明确提及被引用出版物的标题、作者姓名、出版年份、期刊或会议名称和页码。这些细节作为元数据存储，不直接显示在文章的文本中，但分配给数字对象标识符(DOI)——每个科学出版物的唯一标识符。

科学出版物中的引用允许作者为方法选择辩护或展示过去研究的结果，突显了科学的迭代和协作性质。

然而，我们通过一次偶然的发现发现，一些不道德的行为者在提交文章到科学数据库时，在文章的元数据中添加了额外的引用，而这些引用在文本中是不可见的。结果是，某些研究人员或期刊的引用次数激增，尽管这些引用并未在作者的文章中被引用。

偶然发现

调查始于图卢兹大学的教授Guillaume Cabanac在PubPeer网站上发布的一篇帖子，该网站致力于发表后的同行评审，科学家们在这里讨论和分析出版物。在帖子中，他详细描述了他注意到的一个不一致之处：一篇Hindawi期刊文章因包含尴尬的短语而被怀疑为欺诈，该文章的引用次数远超过下载次数，这非常不寻常。

这篇帖子引起了几位侦探的关注，这些侦探现在是JASIST文章的作者。我们使用科学搜索引擎查找引用最初文章的文章。Google Scholar没有找到，但Crossref和Dimensions找到了引用。区别在于，Google Scholar可能主要依赖于文章的主要文本来提取出现在参考文献部分的引用，而Crossref和Dimensions使用的是出版商提供的元数据。

一种新型欺诈

为了了解操纵的程度，我们检查了Technoscience Academy出版的三本科学期刊，该出版商负责包含可疑引用的文章。

我们的调查分为三个步骤：

1. 我们列出了文章HTML或PDF版本中明确存在的引用。
2. 我们将这些列表与Crossref记录的元数据进行了比较，发现元数据中添加了额外的引用，但这些引用并未出现在文章中。
3. 我们检查了使用Crossref作为元数据来源的计量平台Dimensions，发现了进一步的不一致。

在Technoscience Academy出版的期刊中，至少9%的记录引用是“偷渡引用”。这些额外的引用仅存在于元数据中，扭曲了引用次数，给某些作者带来了不公平的优势。一些合法的引用也丢失了，这意味着它们不在元数据中。

此外，在分析偷渡引用时，我们发现它们高度受益于某些研究人员。例如，与Technoscience Academy相关的单个研究人员受益于超过3,000个额外的非法引用。同一出版商的一些期刊受益于几百个额外的偷渡引用。

我们希望我们的结果得到外部验证，因此我们将研究作为预印本发布，通知了Crossref和Dimensions我们的发现，并给他们提供了预印本研究的链接。Dimensions承认了非法引用，并确认他们的数据库反映了Crossref的数据。Crossref也在《撤稿观察》上确认了额外的引用，并强调这是第一次在其数据库中被通知到这种问题。出版商根据Crossref的调查，采取了措施解决问题。

影响与潜在解决方案

为什么这一发现重要？引用次数对研究资助、学术晋升和机构排名有重大影响。操纵引用可能导致基于虚假数据的不公正决定。更令人担忧的是，这一发现提出了关于科学影响评估系统完整性的问题，这一问题多年来一直被研究人员强调。这些系统可能被操纵，导致研究人员之间的不健康竞争，诱使他们采取捷径以更快发表或获得更多引用。

为应对这一现象，我们建议采取几项措施：

1. 出版商和像Crossref这样的机构严格验证元数据。
2. 独立审计以确保数据可靠性。
3. 增加管理引用和引证的透明度。

据我们所知，这项研究是首次报告元数据操纵的研究。它还讨论了这可能对研究人员评估的影响。研究再次强调，过度依赖指标来评估研究人员、他们的工作和影响可能固有地存在缺陷和错误。

这种过度依赖可能会促进有问题的研究实践，包括在已知结果后提出假设(HARKing)；将一组数据分成多个论文，即“香肠切片”；数据操纵；以及剽窃。它还阻碍了更健全和有效的研究所需的透明度。尽管问题引用的元数据和偷渡引用现在显然已被修正，但这些修正可能与科学修正一样，发生得太晚。

本文译自 phys.org，由 BALI 编辑发布。