学术数据挖掘引擎General Index 合法的sci-hub

研究，论文，大量的论文，其数量还随着时间迅速增长。但是有一个问题。

很多现有文献不仅藏在付费墙后面，而且也很难以一种全面的、合乎逻辑的方式进行归纳和检索。真正需要的是一个超级智能版的谷歌，只针对学术论文。

General Index，一个包含约1.072亿篇期刊文章的新数据库，未经压缩的数据总量为38兆兆T字节。它覆盖了超3550亿行的文本，每行都有一个从发表的论文中摘取的关键词或短语。

"这是一个查询工具，一个知识词典，一个知识地图。"索引的创建者，档案管理员卡尔·马拉姆德说。"一个我们认为是我们现代科学实践的基本设施的工具。

虽然我们提到了谷歌，但这并不完全是一个搜索引擎--使用General Index的科学家们将不得不为他们自己的搜索引擎编码以与之配合。相反，它是一个精心编排的、结构化的目录，可以用来探究几十年的科学研究。

它的主要目的是帮助文本挖掘：利用计算机快速扫描数以百万计的数据点，找到并交叉连接到特定的东西。人类不可能从数以百万计的期刊文章中阅读并挑选出关键的数据点，但与总索引相连的计算机程序可以做到。

其他科学家的反应也很积极。一位专家，来自英国剑桥大学的计算生物学家Gitanjali Yadav说，新的数据库在一定程度上解决了对以前发表的材料的访问受限问题。

他告诉Nature说："我--或其他任何人--都没有办法通过实验分析或测量地球上每一种植物物种的化学指纹。我们所寻求的大部分信息已经存在，在已发表的文献中。"

我们的想法是，General Index可以用来搜索植物、化学品、基因、蛋白质、材料、地名和更多的东西，它仍然需要一些整理和扩展，而且是一项正在进行的事业(它可能永远处于进行中)。

所有这些信息都可以从General Index上免费下载和使用，没有任何版权和限制——索引只是论文的片段，而不是论文本身。正如我们所提到的，你需要一些编码技能，以便真正从中获得意义。

与有争议的Sci-Hub不同的是，该索引并不托管论文的全部内容，尽管有人对该项目的合法性提出质疑。对于Malamud来说，该项目完全在法律范围内。

"Malamud告诉Nature说："我非常确信我所做的是合法的。我们这样做不是为了挑起一场诉讼，我们这样做是为了推动科学的发展。”

https://www.sciencealert.com/ginormous-general-index-offers-access-to-over-100-million-research-papers-for-free