趋势:国际象棋俱乐部在西雅图采取了所有正确的行动,吸引玩家到整个城市的热闹场地
冠状病毒研究可视化
这张图表显示了数十项关于冠状病毒和相关主题的研究之间的联系。(Covidgraph.org)

一个月后COVID-19开放研究数据集(CORD-19)的首次亮相在美国,与冠状病毒相关的研究论文数据库的规模增加了一倍,并催生了十几种软件工具,用于疏导每天发表的数百项关于大流行的研究。

在一个本周在ArXiv预印本服务器上发布的综述来自西雅图艾伦人工智能研究所(Allen Institute for Artificial Intelligence)、微软研究院(Microsoft Research)和该项目的其他合作伙伴的研究人员表示,CORD-19的论文收藏已经从大约2.8万篇增加到5.2万多篇。每天都有数百篇论文发表在同行评审期刊上,并在BioRxiv和MedRxiv等预印本服务器上。

CORD-19目的是利用艾伦人工智能研究所开发的Semantic Scholar学术搜索引擎(也称为AI2)来理解它们。

“我们承诺定期更新数据集,直到危机可以预见的结束,”该项目的组织者说。

冠状病毒实时更新:西雅图和科技界的COVID-19最新进展

自3月中旬以来,该数据集已被浏览超过150万次,下载超过7.5万次。

但这不仅仅是一个数量的问题:CORD-19引发了一些派生项目的开发,这些项目旨在可视化和组织COVID-19研究,以回答关于大流行以及如何阻止它的关键问题。

其中最引人注目的是文本检索会议TREC-COVID由商务部国家标准与技术研究所和白宫科技政策办公室于上周推出。

trc - covid的其他组织者包括AI2、国家医学图书馆、俄勒冈健康与科学大学和德克萨斯大学休斯顿健康科学中心。该项目的目标是评估系统根据COVID-19研究论文与热门问题的相关性对其进行排名的能力,例如,“冠状病毒如何应对天气变化?”

CoViz图
这个CoViz可视化映射了CORD-19数据集中与“spike”一词相关的顶级蛋白质、基因和细胞网络。SARS-CoV-2冠状病毒的刺突蛋白是针对COVID-19的治疗方法和疫苗的关键靶点。(AI2图形)

美国首席技术官迈克尔·克拉齐奥斯说:“世界各地的人工智能专家正在响应白宫的行动呼吁,开发出帮助科学家从数千篇关于COVID-19的学术文献中获得见解的方法。”在新闻发布会上说.“trecc - covid计划通过创建强大而准确的搜索引擎来扩展这些努力,从这些文献中提取知识,为医疗保健和医学研究社区的需求量身定制。”

CORD-19的另一个合作伙伴是Kaggle在线数据科学社区,该社区正在进行一场文本挖掘比赛,以提取围绕大流行的关键研究问题的答案。超过550个团队参加了比赛,他们已经找到了将基于机器的分析与基于人类的管理相结合的新方法。

CORD-19团队成员、AI2的Lucy Lu Wang说:“一些kaggler正在与一群医学院学生合作,创建一个半自动的活体文献综述页面。”“机器学习专家正在创建从CORD-19数据集中提取答案的系统,医学院学生正在帮助评估这些结果,并以适合公众消费的形式呈现它们。”

王和其他团队成员说,他们在建立数据库的过程中遇到了一些障碍。其中之一与研究的获取有关。会议组织者在报告中说:“尽管许多出版商在此期间慷慨地提供了COVID-19论文,但信息获取仍然存在瓶颈。”

获得尚未用于CORD-19的论文的发行权,是组织者与美国国立卫生研究院(National Institutes of Health)待办事项清单上的首要项目之一PubMed中心COVID-19倡议起主导作用。

另一个障碍与PDF文档格式有关,这是科学论文的主要分发格式。PDF经过优化,可以忠实地呈现文件以供阅读和打印,而不是用于自动文档分析。出于这个原因,以PDF文件形式发布的研究必须经过大量的清理,才能让人工智能完成工作。更重要的是,没有标准的格式来表示伴随研究论文的元数据。

CORD-19的组织者说:“我们鼓励社区团结起来,为这些挑战提出解决方案。”

好消息是,一大批新的数据搜索和可视化工具已经在CORD-19元分析的沃土上开花结果。以下是一个例子:

CORD-19团队成员Kyle Lo是AI2的应用研究科学家,他说使用自然语言处理和文本挖掘来解决生物医学研究问题并不是一个新想法。他说:“这次调查的新之处在于,我们需要从这些文章中得到答案和发现的速度如此之快。”

王说,为CORD-19创建的信息基础设施和工具应该在当前大流行结束后很长一段时间内产生红利。她说:“我们希望他们能在未来出现任何危机时提供帮助。”

本报告已根据王和罗的评论进行更新。新发表的关于CORD-19的预印本论文的其他作者,题为“CORD-19: COVID-19开放研究数据集,”包括AI2的Yoganand Chandrasekhar、Russell Reas、Jiangjiang Yang、Rodney Kinney、William Merrill、Brandon Stilson、Chris Wilhelm、Douglas Raymond、Daniel Weld、Oren Etzioni和Sebastian Kohlmeier;微软研究院的Darrin Eide,沈志宏,王宽三,谢博亚;国家医学图书馆的Kathryn Funk和Jerry Sheehan;Kaggle的Paul Mooney和Devvret Rishi;陈-扎克伯格倡议的刘紫阳和亚历克斯·韦德;以及乔治敦大学的杜威·穆尔迪克。

喜欢你读的东西吗?订阅GeekWire的免费时事通讯,捕捉每一个标题

GeekWork上的工作清单

找到更多的工作GeekWork.雇主,在这里发布工作