蓝色透明抽屉的数字全息照片,里面有数据和文件夹,代表大数据存储。

人工智能最终可能有助于为英国大学提交给“卓越研究框架”(Research Excellence Framework)的数万篇论文打分。图源:Yuichiro Chino/Getty

研究人员其任务是研究人工智能(AI)技术是否有助于同行评审提交给英国卓越研究框架(REF)的一篇期刊文章说,该系统还不够准确,无法辅助人类评估,并建议在大规模试点计划中进行进一步测试。

该团队的发现,十二月十二日出版研究表明,人工智能系统在72%的时间内生成了与人类同行评审员相同的分数。英国伍尔弗汉普顿大学(University of Wolverhampton)的数据科学家、该报告的合著者迈克·塞尔沃尔(Mike Thelwall)说,当对一些机构在构成REF的34个基于学科的“评估单位”的广泛范围内提交的多次申请进行平均时,“人类得分和人工智能得分之间的相关性非常高”。

然而,在目前的形式下,该工具在评估向REF提交大量文章的机构的研究产出时最有用,Thelwall说。对于那些只提交少量文章的小型大学来说,这种方法用处不大。“如果提交的论文只有十篇期刊文章,那么一两个错误就会对总分产生很大影响。”

Thelwall说,该工具需要达到95%的精度才能可行。因此,他和他的同事建议在更大范围内测试这些算法,这样他们就可以从大学部门获得反馈。

他们还认为,通过让人工智能系统更广泛地访问机器可读格式的期刊文章全文版本,可以提高人工智能系统的准确性。目前,该工具使用文献计量信息和文章元数据来给出评分。Thelwall推测,他们可能会在下一次REF中测试人工智能,在同行评审员提交反馈意见后,向他们展示算法的结果,并询问该工具是否会影响他们的发现。

培训问题

该工具的一个关键限制是,它是在文章样本上训练的,这些文章样本不会随着时间的推移而变大。这意味着系统不能像人工智能那样不断提高性能。这是因为裁判对提交给REF的研究成果给出的分数随后会被删除,这样它们就不能用来质疑后来的决定,而Thelwall和他的同事只能暂时访问。

这种有限的访问不仅仅是人工智能工具的问题。“从研究对研究的角度来看,我们付出了所有的努力,然后我们就删除了(数据),这是一个悲剧,”研究政策学者、伦敦研究研究所(Research on Research Institute)所长詹姆斯·威尔斯顿(James Wilsdon)说。他补充说:“一直以来,人们都担心大学会提出法律挑战,因为这关系到很多钱。”

考虑到目前的缺陷,Thelwall和他的团队表示,人工智能系统不应该被用于下一个REF过程中的同行评审,该过程将于2027年或2028年进行,但可以用于后续的审计。

目标客户的担忧

作为研究的一部分,Thelwall和他的同事们与参加过REF过程的同行评审人员进行了一些焦点小组讨论。据Thelwall报道,一些参加焦点小组的人担心,人工智能使用的1000个输入中有一个是类似于期刊影响因子的计算,这一指标有时会被用来评判研究人员及其工作,并引起争议.塞尔沃尔说:“如果大学知道他们的产出可能会被包括期刊影响力在内的信息打分,就会产生一种不合理的激励。”例如,这种激励可能会导致研究人员被迫在影响因子高的期刊上发表文章。

人工智能系统的其他输入包括生成文章的团队的生产力、团队的规模、所代表的机构和国家数量的多样性,以及文章摘要和标题中的关键词。

一些人认为,REF过程需要给予研究环境更多的权重,这样拥有更好研究文化的机构就能获得更多的资助。在12月12日的另一份报告中,Wilsdon和他的同事们建议,像REF这样的审计需要将重点从“卓越”转移到“质量”,涵盖研究质量、影响、过程、文化和行为等更多基础。

该报告,一个后续2015年,威尔斯登参与撰写了分析报告他还认为,REF应该避免使用全指标的方法来代替同行评审。此外,它还表示,英国下议院科学技术委员会应该就大学排行榜对研究文化的影响展开调查。

报告称,这是必要的,因为“许多排行榜提供者继续在学术界之外的研究文化中推广和强化有害的激励措施,同时抵制向负责任的指标迈进”。