显示语义学者网站的电脑屏幕。

TLDR在科学搜索引擎Semantic Scholar上生成计算机科学论文的一句话摘要。图片来源:Agnese Abrusci/Nature

一款科学搜索引擎的开发者发布了一款软件,该软件可以自动生成研究论文的一句话摘要,他们说这可以帮助科学家更快地略读论文。

这个免费的工具,可以创建被团队称为tldr(“太长了,没有读”的通用互联网缩写词)的搜索结果,在本周被激活语义的学者该搜索引擎是由位于华盛顿州西雅图的非盈利机构艾伦人工智能研究所(AI2)创建的。目前,该软件仅为语义学者所涵盖的1000万篇计算机科学论文生成句子,但一旦该软件进行了调整,其他学科的论文将在下个月左右得到摘要,AI2语义学者小组的负责人丹·维尔德(Dan Weld)说。

他说,初步测试表明,该工具帮助读者对搜索结果进行排序的速度比浏览标题和摘要要快,尤其是在手机上。“人们似乎真的很喜欢它。”

今年4月,该工具的预印本首次在arXiv预印本服务器上发布1,并经同行评审后接受发表自然语言处理会议本月举行。研究人员做出了t继承人的代码免费提供,随附工作演示网站任何人都可以使用这个工具。

“我预测,在不久的将来,这种工具将成为学术搜索的标准功能。事实上,考虑到这种需求,我很惊讶它花了这么长时间才付诸实践,”西雅图华盛顿大学的信息科学家杰夫·韦斯特说自然的请求。他说:“这并不完美,但绝对是朝着正确的方向迈出的一步。”

移动屏幕截图的两个不同的例子TLDR软件。

语义学者搜索结果和TLDR摘要,在智能手机上查看。来源:Semantic Scholar

Weld开发TLDR软件的灵感部分来自于他的同事们在Twitter上分享的用来标记文章的俏趣句子。与其他语言生成软件一样,该工具使用经过大量文本训练的深度神经网络。该团队收录了数万篇与标题相匹配的研究论文,这样网络就可以学习生成简洁的句子。然后,研究人员对该软件进行了微调,使其能够对几千篇计算机科学论文的新数据集进行训练,并对其进行总结,这些论文中有些是论文作者写的,有些是一群本科生写的。该团队已经收集了训练示例,以提高该软件在其他16个领域的性能,其中生物医学可能是第一个。

TLDR软件并不是唯一的科学总结工具:自2018年以来,该网站论文摘要威尔德指出,它提供了论文的摘要,但似乎是从文本中提取关键句,而不是生成新的句子。TLDR可以从论文的摘要、引言和结论中生成一个句子。它的摘要往往是从文章的关键短语建立起来的,因此直接针对那些已经理解论文术语的专家。但Weld表示,该团队正致力于为非专家观众生成摘要。

研究人员还计划将这项技术授权给出版商,并扩大他们的服务,提供总结某一领域关键论文的个性化研究简报。威尔德说:“我们刚刚达到人工智能方法能够以人们可以接受的水平生成新颖摘要的水平。”