你知道文本自动完成功能,它让你的智能手机使用起来非常方便——有时也让人感到沮丧。现在,基于同样想法的工具已经发展到可以帮助研究人员分析和撰写科学论文、生成代码和集思广益的地步。

这些工具来自自然语言处理(NLP),这是人工智能的一个领域,旨在帮助计算机“理解”,甚至生成人类可读的文本。这些工具被称为大型语言模型(llm),它们不仅成为研究对象,而且还成为研究的助手。

llm是经过大量文本训练的神经网络,用于处理,特别是生成语言。加利福尼亚州旧金山的研究实验室OpenAI在2020年创建了最著名的LLM GPT-3,通过训练一个网络来根据之前的内容预测下一段文本。在推特和其他地方,研究人员对它诡异的类似人类的书写方式表示惊讶。现在任何人都可以使用它,通过OpenAI编程接口,以根据提示生成文本。(起价约为每处理750字0.0004美元——这是一种结合阅读提示和写回复的衡量标准。)

“我想我几乎每天都在使用GPT-3,”位于雷克雅维克的冰岛大学的计算机科学家hafsteineinarsson说。他用它来生成对论文摘要的反馈。埃纳尔松在今年6月的一次会议上分享了一个例子,该算法的一些建议是无用的,建议他添加文本中已经包含的信息。但还有一些方法更有帮助,比如“在摘要的开头让研究问题更明确”。埃纳尔松说,很难发现自己手稿中的缺陷。“要么你花两个星期的时间考虑它,要么你可以让别人来研究它。这个‘别人’可以是GPT-3。”

有组织的思考

一些研究人员使用llm生成论文标题或使文本更具可读性。加州斯坦福大学计算机科学博士生Mina Lee给出了GPT-3提示,例如“使用这些关键词,生成一篇论文的标题”。为了重写麻烦的部分,她使用了一款名为Wordtune的人工智能写作助手,该助手由以色列特拉维夫的AI21实验室开发。她说:“我写了一段话,基本上就像是在做脑力劳动。”“我只是点击‘重写’,直到找到我喜欢的更清晰的版本。”

计算机科学家Domenic Rosati在纽约布鲁克林的科技初创企业site工作一个叫做Generate的LLM组织他的思想。Generate由加拿大多伦多的一家NLP公司Cohere开发,其行为与GPT-3非常相似。罗萨蒂说:“我会做笔记,或者只是草草写下一些想法,然后我会说‘总结这个’,或者‘把这个变成一个摘要’。”“作为合成工具,它对我真的很有帮助。”

语言模型甚至可以帮助实验设计。在其中一个项目中,Einarsson使用Pictionary游戏作为从参与者那里收集语言数据的一种方式。GPT-3给出了游戏的描述,建议他可以尝试一些游戏变体。从理论上讲,研究人员也可以要求对实验方案进行新的处理。至于李,她请GPT-3为她的父母介绍她的男朋友做了一些脑力活动。建议去海边的一家餐厅。

编码的编码

OpenAI的研究人员用各种各样的文本训练GPT-3,包括书籍、新闻故事、维基百科条目和软件代码。后来,团队注意到GPT-3可以像处理其他文本一样完成代码片段。研究人员创建了一个名为Codex的算法的微调版本,对来自代码共享平台GitHub的超过150g的文本进行训练1.GitHub现在已经将Codex集成到一个名为Copilot的服务中,该服务可以在人们输入代码时提示代码。

位于华盛顿州西雅图的艾伦人工智能研究所(Allen Institute for AI,也被称为AI2)的计算机科学家卢卡·索尔代尼(Luca Soldaini)表示,他们至少有一半的办公室使用副驾驶。Soldaini说,它最适合重复编程,他引用了一个涉及编写样板代码来处理pdf文件的项目。“它会脱口而出一些东西,就像,‘我希望这是你想要的’。”有时它不是。因此,Soldaini说他们很小心地只在他们熟悉的语言和库中使用Copilot,这样他们就可以发现问题。

文献搜索

也许语言模型最成熟的应用包括搜索和总结文献。AI2的语义学者搜索引擎覆盖了大约2亿篇论文,其中大部分来自生物医学和计算机科学。它使用一种名为TLDR的语言模型(简称太长;没有阅读)。TLDR是由社交媒体平台Facebook的研究人员基于早期的BART模型衍生而来的,该模型对人类撰写的摘要进行了微调。(按照今天的标准,TLDR不是一个大的语言模型,因为它只包含大约4亿个参数。GPT-3的最大版本包含1750亿。)

TLDR也出现在AI2的语义阅读器中,这是一个增强科学论文的应用程序。当用户单击Semantic Reader中的文本引用时,会弹出一个包含TLDR摘要的信息框。Semantic Scholar的首席科学家丹•维尔德(Dan Weld)表示:“我们的想法是将人工智能直接应用到阅读体验中。”

当语言模型生成文本摘要时,通常“存在一个人们仁慈地称之为幻觉的问题”,Weld说,“但实际上语言模型完全是在编造东西或撒谎。”TLDR在真实性测试中表现相对较好2- TLDR的论文作者被要求描述其准确性为2.5(总分为3)。威尔德说,这部分是因为摘要只有大约20个单词长,部分是因为算法会拒绝那些引入了在全文中没有出现的不常见单词的摘要。

在搜索工具方面,加利福尼亚州旧金山的机器学习非营利组织Ought于2021年首次推出了Elicit。引出一个问题,比如,“正念对决策有什么影响?”然后输出一个包含十篇论文的表格。用户可以要求该软件将抽象摘要、元数据以及研究参与者、方法和结果等信息填满列。Elicit使用包括GPT-3在内的工具从论文中提取或生成这些信息。

马里兰大学帕克分校(University of Maryland in College Park)研究人机交互的乔尔·陈(Joel Chan)每当开始一个项目时都会使用Elicit。他说:“当我不知道用哪种语言进行搜索时,它真的很好用。”斯德哥尔摩卡罗林斯卡学院的神经科学家古斯塔夫·尼尔森(Gustav Nilsonne)使用“引出法”(Elicit)寻找有数据的论文,他可以将这些数据添加到集合分析中。他说,这个工具已经推荐了他在其他搜索中没有找到的论文。

进化模型

AI2的原型为llm的未来提供了一种感觉。有时,研究人员在读完一篇科学摘要后会有问题,但没有时间阅读全文。AI2的一个团队开发了一个工具,可以回答这些问题,至少在NLP领域是这样。它首先要求研究人员阅读NLP论文的摘要,然后就这些论文提出问题(比如“分析了哪五个对话属性?”)。然后,该团队让其他研究人员在读完论文全文后回答这些问题3..AI2对Longformer语言模型的一个版本进行了训练,该模型可以消化一篇完整的论文,而不只是其他模型吸收的几百个单词4

一个名为ACCoRD的模型可以为与NLP相关的150个科学概念生成定义和类比,而MS^2是一个包含47万份医疗文档和2万份多文档摘要的数据集,它被用于对BART进行优化,使研究人员可以选择一个问题和一组文档,并生成一个简短的元分析摘要。

除了文本生成之外,还有其他应用。2019年,AI2在Semantic Scholar的论文上对谷歌在2018年创建的语言模型BERT进行了微调,创建了拥有1.1亿个参数的SciBERT。使用人工智能创建科学搜索引擎的site进一步优化了SciBERT,当其搜索引擎列出引用目标论文的论文时,将它们分类为支持、对比或提及该论文。罗萨蒂说,这种细微差别有助于人们识别文献中的局限性或空白。

AI2的SPECTER模型也是基于SciBERT,它将论文简化为紧凑的数学表示。威尔德说,会议组织者使用SPECTER将提交的论文与同行审稿人进行匹配,语义学者使用它根据用户的图书馆推荐论文。

耶路撒冷希伯来大学和AI2的计算机科学家Tom Hope说,AI2的其他研究项目对语言模型进行了微调,以确定有效的药物组合、基因和疾病之间的联系,以及COVID-19研究中的科学挑战和方向。

但是,语言模型是否允许更深入的洞察甚至发现呢?今年5月,霍普和威尔德共同撰写了一篇综述5微软首席科学官埃里克•霍维茨(Eric Horvitz)等人列出了实现这一目标的挑战,包括教授“(推断)两个概念重新组合的结果”的模型。霍普说:“生成猫飞向太空的图片是一回事。”他指的是OpenAI的DALL·E 2图像生成模型。但是,“我们怎样才能把抽象的、高度复杂的科学概念结合起来呢?”

这是一个悬而未决的问题。但llm已经对研究产生了切实的影响。“在某种程度上,”Einarsson说,“如果人们不使用这些大型语言模型,他们就会错失机会。”