一排竖着的书,书页上有彩色的便利贴

直到现在,评估论文如何相互引用一直是一件痛苦的事情。信贷:盖蒂

几年前,研究人员在试图研究引文模式以阐明一个领域的趋势、确定新的研究兴趣领域或查明有问题的做法(如过度自我引用)时,会发现相当大的障碍。

首先,他们需要请求访问包含引文数据的大型学术数据库之一,如Web of Science或Scopus。即使获准访问,他们也不能公开他们的发现所依据的专有数据。

这种情况现在正在改变。大多数在线论文都用一组称为数字对象标识符(DOIs)的唯一字符来标识。该系统由Crossref管理,Crossref是一家位于马萨诸塞州林恩菲尔德的非营利性协会,拥有大约1.5万名出版商、资助机构和其他机构的成员。上个月,Crossref宣布,其数据库中与6000多万篇期刊文章相关的引文数据现已开放下载和使用。

这在很大程度上要归功于开放引文倡议(I4OC),这是学术出版商、研究人员和其他利益相关者之间的合作,自2017年推出以来,一直鼓励出版商开放引文数据。在一些地区,包括一些大型出版商,最初的接受速度很慢。一个自然2019年的一篇社论呼吁那些仍在拖延的出版商也加入进来(见《卫报》)自然573, 163 - 164;2019).(施普林格《自然》,自然美国于2018年加入该倡议。自然新闻团队独立于出版商。)

引文数据开放是受欢迎的。这意味着研究的更大透明度和问责制,这些研究旨在告知学者、资助者和政府,他们应该把精力和资金集中在哪些研究领域。

但还需要更多。并不是所有的出版商都在Crossref上索引论文,也不是所有被索引的论文都有相关的引文数据。7月份发表的一项研究发现,2021年被索引的论文中约有三分之一缺乏此类数据(N. J. van Eck和L. Waltman。预印本:https://doi.org/10.31222/osf.io/smxe5;2022).其中一些文章——尤其是社论、信件、更正和书评——可能没有任何参考文献,但这绝不适用于所有的文章。上传引用数据不应该被看作是可选的。

对文献计量学开放性的任何追求都有一个重要的警告。2012年旧金山奥运会研究评估声明(DORA)指出绝不应脱离上下文或孤立地使用指标来评判研究人员及其工作。我们应该注意不要过于依赖引文数据,尤其是在评估科学家的晋升和工作申请时。但如果使用得当,向所有人开放这些数据只会更好。

开放不应该止于引文数据。Crossref还允许出版商发布其他类型的元数据,如作者关系、资助信息、数据和代码可用性声明,以及用于识别单个研究人员的ORCID id。然而,并非所有发行商都这么做。在今年6月的一封公开信中,倡导科学开放共享的慈善组织开放研究资助者组织(open Research Funders Group)正确地指出,这些元数据应该提供给公众(参见go.nature.com/3qvfp3u).

此外,于2020年启动的开放摘要倡议(I4OA)一直在推动研究摘要的开放获取。这将使研究人员更容易发现、阅读和引用研究成果,并为使用机器学习技术进行分析开辟更多可能性,例如识别术语使用的趋势。(当数据开放时,这些方法已经为其他科学领域提供了见解,例如在评估同行评议报告的质量.)根据7月份的研究,2021年Crossref DOI索引的文章中只有39%有开放摘要,尽管这一比例自2018年以来几乎翻了一番。

将所有相关元数据存储在Crossref上应该成为学术出版的规范,为每篇论文生成doi也是如此。对于那些没有时间或资源这样做的出版商,I4OC, I4OA和其他开放科学社区已经宣布他们准备提供帮助。

最终,所有这些举措都只是朝着让所有研究论文全部公开的目标迈出的一步。但在我们到达那一点之前,它们是研究透明度和可重复性的关键。他们应该得到所有人的支持。