昆士兰科技大学的研究者开发出AI工具,识别出逾250000篇疑似造假的癌症论文,揭示了“论文工厂”对科研领域的严重渗透。
2026年1月30日,一种新的机器学习工具揭开了癌症研究领域的一道暗疮。昆士兰科技大学公共卫生与社会工作学院及澳大利亚健康服务创新中心的Adrian Barnett教授与国际团队合作,在《英国医学杂志》上发表了一项引人注目的研究。他们利用AI技术分析了1999年至2024年间的2.6百万篇癌症研究论文,结果发现,竟然有超过250000篇论文疑似出自“论文工厂”之手。
所谓的“论文工厂”,是指那些专门出售虚假或低质量科研成果的公司。它们像工业流水线一样大规模生产所谓的“研究”,不仅出售作者署名,甚至直接兜售整篇炮制好的论文。这些文章往往套用固定的模板,通过循环利用文字、伪造数据和图像来蒙混过关。Adrian Barnett教授指出,这种造假规模远超大多数人的想象。
为了应对这一挑战,研究团队训练了一个名为BERT的语言模型。这个模型就像一个敏锐的“指纹识别器”,能够识别出“论文工厂”作品中那些细微且重复出现的文字特征。在实际测试中,该模型识别可疑论文的准确率高达91%。Adrian Barnett教授形象地将其比作科学界的“垃圾邮件过滤器”,能够自动标注出那些与已撤稿欺诈作品风格和结构相似的论文。
这项大规模分析揭示了几个严峻的现实。在过去的20年里,被标记的问题论文比例大幅上升,从2000年代初期的约1%一路上攀,到2022年甚至超过了16%。这种现象波及了各大出版社的数千种期刊,其中不乏一些高影响力的学术刊物。特别是在分子癌症生物学和基础实验研究领域,造假现象尤为集中,尤其是胃癌、肝癌、骨癌和肺癌等研究方向,成为了论文造假的重灾区。
目前,已经有三家学术期刊开始试用这款工具进行编辑筛查。它能让编辑在论文进入同行评审环节之前,就识别出潜在的虚假稿件。团队计划进一步改进模型,并将其应用范围扩展到其他研究领域。研究人员也强调,目前的发现并非最终确定的造假案例,仍需人类专家进一步核实。
Adrian Barnett教授提醒大家,癌症研究直接关系到临床试验、药物开发和患者护理。如果这些虚假的研究混入科学证据库,不仅会误导真正的科学家,更会拖累治疗方案的研发进度。对于患者而言,这是生命垂危之际无法承受的代价,因此及早识破并阻止这些虚假论文的蔓延至关重要。