[-]著名的互联网档案馆最近被美国科罗拉多州一妇女起诉了。起诉的理由是她在网站上声明了该网页不能被收录,但是互联网档案馆的爬虫还是爬走了她网站上的网页。要注意的是,此女不是用通用的 Robot.txt 的方式做的声明。

她的做法是这样的,在网站主页的页脚加上一行字:“转载或分发网站的内容以为着你已经同意了我们的版权合同。”内容包括了不可复制等条款,只可在电脑上浏览,不可打印等条款。
# Copyright for Jandan.net(http://jandan.net/)
背景知识:
顾名思义,互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份” 一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。
摘自:互联网档案馆(The Internet Archive)及其在网络营销研究中的应用

另外,我们中国也有一个互联网档案馆,收录了大量的中文网页。

链接 | 来源

[ 广告 ]
赞一个 (3)

PREV :
NEXT :