研究,论文,大量的论文,其数量还随着时间迅速增长。但是有一个问题。

很多现有文献不仅藏在付费墙后面,而且也很难以一种全面的、合乎逻辑的方式进行归纳和检索。真正需要的是一个超级智能版的谷歌,只针对学术论文。

General Index,一个包含约1.072亿篇期刊文章的新数据库,未经压缩的数据总量为38兆兆T字节。它覆盖了超3550亿行的文本,每行都有一个从发表的论文中摘取的关键词或短语。

"这是一个查询工具,一个知识词典,一个知识地图。"索引的创建者,档案管理员卡尔·马拉姆德说。"一个我们认为是我们现代科学实践的基本设施的工具。

虽然我们提到了谷歌,但这并不完全是一个搜索引擎--使用General Index的科学家们将不得不为他们自己的搜索引擎编码以与之配合。相反,它是一个精心编排的、结构化的目录,可以用来探究几十年的科学研究。

它的主要目的是帮助文本挖掘:利用计算机快速扫描数以百万计的数据点,找到并交叉连接到特定的东西。人类不可能从数以百万计的期刊文章中阅读并挑选出关键的数据点,但与总索引相连的计算机程序可以做到。

其他科学家的反应也很积极。一位专家,来自英国剑桥大学的计算生物学家Gitanjali Yadav说,新的数据库在一定程度上解决了对以前发表的材料的访问受限问题。

他告诉Nature说:"我--或其他任何人--都没有办法通过实验分析或测量地球上每一种植物物种的化学指纹。我们所寻求的大部分信息已经存在,在已发表的文献中。"

我们的想法是,General Index可以用来搜索植物、化学品、基因、蛋白质、材料、地名和更多的东西,它仍然需要一些整理和扩展,而且是一项正在进行的事业(它可能永远处于进行中)。

所有这些信息都可以从General Index上免费下载和使用,没有任何版权和限制——索引只是论文的片段,而不是论文本身。正如我们所提到的,你需要一些编码技能,以便真正从中获得意义。

与有争议的Sci-Hub不同的是,该索引并不托管论文的全部内容,尽管有人对该项目的合法性提出质疑。对于Malamud来说,该项目完全在法律范围内。

"Malamud告诉Nature说:"我非常确信我所做的是合法的。我们这样做不是为了挑起一场诉讼,我们这样做是为了推动科学的发展。”

https://www.sciencealert.com/ginormous-general-index-offers-access-to-over-100-million-research-papers-for-free

[ 广告 ]

支付宝打赏 [x]
您的大名: 打赏金额:
已打赏蛋友(1): Guuuululu
赞一个 (10)

PREV :
NEXT :