学术数据挖掘引擎General Index 合法的sci-hub
majer @ 2021.10.30 , 04:39 下午研究,论文,大量的论文,其数量还随着时间迅速增长。但是有一个问题。
很多现有文献不仅藏在付费墙后面,而且也很难以一种全面的、合乎逻辑的方式进行归纳和检索。真正需要的是一个超级智能版的谷歌,只针对学术论文。
General Index,一个包含约1.072亿篇期刊文章的新数据库,未经压缩的数据总量为38兆兆T字节。它覆盖了超3550亿行的文本,每行都有一个从发表的论文中摘取的关键词或短语。
"这是一个查询工具,一个知识词典,一个知识地图。"索引的创建者,档案管理员卡尔·马拉姆德说。"一个我们认为是我们现代科学实践的基本设施的工具。
虽然我们提到了谷歌,但这并不完全是一个搜索引擎--使用General Index的科学家们将不得不为他们自己的搜索引擎编码以与之配合。相反,它是一个精心编排的、结构化的目录,可以用来探究几十年的科学研究。
它的主要目的是帮助文本挖掘:利用计算机快速扫描数以百万计的数据点,找到并交叉连接到特定的东西。人类不可能从数以百万计的期刊文章中阅读并挑选出关键的数据点,但与总索引相连的计算机程序可以做到。
其他科学家的反应也很积极。一位专家,来自英国剑桥大学的计算生物学家Gitanjali Yadav说,新的数据库在一定程度上解决了对以前发表的材料的访问受限问题。
他告诉Nature说:"我--或其他任何人--都没有办法通过实验分析或测量地球上每一种植物物种的化学指纹。我们所寻求的大部分信息已经存在,在已发表的文献中。"
我们的想法是,General Index可以用来搜索植物、化学品、基因、蛋白质、材料、地名和更多的东西,它仍然需要一些整理和扩展,而且是一项正在进行的事业(它可能永远处于进行中)。
所有这些信息都可以从General Index上免费下载和使用,没有任何版权和限制——索引只是论文的片段,而不是论文本身。正如我们所提到的,你需要一些编码技能,以便真正从中获得意义。
与有争议的Sci-Hub不同的是,该索引并不托管论文的全部内容,尽管有人对该项目的合法性提出质疑。对于Malamud来说,该项目完全在法律范围内。
"Malamud告诉Nature说:"我非常确信我所做的是合法的。我们这样做不是为了挑起一场诉讼,我们这样做是为了推动科学的发展。”
https://www.sciencealert.com/ginormous-general-index-offers-access-to-over-100-million-research-papers-for-free
PREV : 伴随耀斑的日冕物质抛射物将在今天撞上地球引发壮丽极光
NEXT : 我们首次在哺乳类动物中发现和人类相似的音乐感