AI 论文 “幽灵抄袭” 风波:学界激辩,学术诚信何去何从?

在学术的广袤森林中,每一个新观点的萌生都如同破土而出的新芽,承载着人类对未知的探索与希望。然而,当人工智能(AI)这股强劲的风呼啸而过,原本宁静有序的生态开始泛起层层涟漪,一场关于 “思想抄袭” 的风暴正席卷而来,让整个学界陷入前所未有的深思。

今年年初,韩国高等科学技术研究院的研究员朴炳俊经历了一场意想不到的 “邂逅”。一封来自印度班加罗尔科学研究所 “揭发团队” 的邮件,如一颗投入平静湖面的石子,打破了他学术生活的宁静。邮件中指出,一款名为 “The AI Scientist” 的 AI 工具生成的未发表手稿,疑似盗用了他论文中的研究方法,却未给予任何署名。这款由东京 Sakana AI 公司于 2024 年推出的全自动科研工具,号称能借助大型语言模型,自主完成从思路生成、代码编写到论文撰写的全过程,且生成的成果都会明确标注 “AI 生成”。朴炳俊在仔细核查后,惊讶地发现,尽管 AI 手稿提出了新架构,主题与自己的论文有所不同,但其核心方法却与自己的研究高度相似,就像是从同一棵智慧之树上摘下的果实,只是被换上了不同的包装。

印度的 “揭发团队” 并非偶然发现这一现象。他们深入研究后发现,类似 “抄观点不抄字” 的情况绝非个例。在今年 2 月发表的研究中,经外部专家评估,多个 AI 生成手稿存在挪用他人观点却不署名的问题。这些由大型语言模型生成的观点,看似新颖独特,实则可能是对前人成果的巧妙 “伪装”,其原创性犹如迷雾中的花朵,难以让人看清真实面貌。例如,Sakana AI 今年 3 月那篇通过国际学习表征会议研讨会同行评审的全 AI 生成论文,就被指疑似挪用了 2015 年一项研究的核心成果,且未进行任何引用标注,同时还借鉴了另一篇未署名手稿。专家评估显示,该 AI 论文与 2015 年研究的相似性高达 5 级,几乎达到了难以忽视的程度。为进一步验证,“揭发团队” 精心选取了多份 AI 生成方案,邀请领域专家评估,结果令人震惊:24% 的 AI 生成作品达到了 4 – 5 级相似度,这意味着近四分之一的 AI 成果可能存在严重的 “思想挪用” 问题。

面对这些指控,“The AI Scientist” 研发团队迅速站出来否认,坚称抄袭指控毫无根据,如同无根之萍。他们解释说,被质疑的 AI 手稿与前人研究在假设和应用领域存在差异,即便方法有部分关联,也只是常见的 “未引用相关文献” 情况,并非抄袭。他们还承认工具存在引用不足的问题,但强调 AI 生成成果是全新的创造,绝非窃取他人思想的产物。然而,学界对此却难以达成一致。美国佐治亚理工学院的机器学习研究员本・胡佛认为,朴炳俊提及的 AI 论文与他本人研究相似度仅 3 级,远未达到抄袭标准;韩国高等科学技术研究院的研究生白真宥也指出,新颖性本就主观,人类评审在学术会议中也常为原创性争论不休。朴炳俊本人虽认为方法相似度达 5 级,但也坦言这未必符合法律或伦理层面的抄袭定义。柏林应用科学大学的专家德博拉・韦伯 – 伍尔夫则深刻指出,争议根源在于对 “抄袭” 定义的认知差异,部分计算机科学家认为抄袭需主观故意欺诈,而她主张不应以意图为判断标准,因为 AI 本身并无主观意识,且现有系统无法追溯观点来源。

这场激烈的争论背后,是 AI 科研对现有学术体系的沉重冲击。德国锡根大学的机器学习专家乔拉恩・比尔指出,计算机科学等领域论文数量本就激增,研究者验证自身观点新颖性已属不易,而 AI 通过重组训练数据生成观点的特性,更是让学术信用流失问题雪上加霜,因为 AI 似乎天生就倾向于借鉴前人成果。更棘手的是,“思想抄袭” 的验证至今缺乏有效手段。现有技术虽能检测句子语义相似度,但在观点或概念层面的相似度检测研究极少。商业抄袭检测工具 Turnitin 在面对专家判定的 AI 论文来源文献时 “束手无策”,学术搜索大型语言模型工具 OpenScholar 也仅识别出寥寥 1 篇。“The AI Scientist” 虽有验证原创性的流程,但被指过于简化,难以与领域专家的判断相媲美。

在这场 AI 与学术诚信的博弈中,学界普遍意识到规范 AI 科研工具使用已刻不容缓。新加坡国立大学的计算机科学家靳民彦表示,AI 工具普及是大势所趋,关键是要找到正确的使用方式。“The AI Scientist” 研发团队也承认当前成果只是 “概念验证”,建议仅将工具用于启发思路,其可靠性仍需研究者自行验证。但如何在发挥 AI 科研辅助价值的同时,严守学术诚信底线,构建清晰合理的 AI 使用标准,依然是横亘在学界面前的一道亟待跨越的鸿沟,等待着学界给出智慧的解答。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注