互联网档案馆,时光回溯机
之前我总想不通如果个人博客里的文章被人抄袭后怎么证明谁先发,因为个人博客的文章发布时间作者是可以任意修改的,之前搜索引擎还有网站快照功能,不知道为什么国内外搜索引擎都不提供网页快照了,可能是由于需求少成本高的原因吧,后来发现一个网站,觉得可以替代网站快照的功能。
先说一下网站快照是什么?网站快照就是把某个网页在某个时间点上的样子抓下来存着,像拍照一样。比如你今天打开一个网站,明天它改了或者没了,快照就能让你看到它昨天长啥样。简单说,就是网页的历史存档,想翻老页面就靠它。
archive.org互联网档案馆(需科学访问)就是这样一个有网站快照功能的网站,这是一个非营利组织,从1996年起就开始建数字图书馆,网站快照只是他们的一部分功能,后来扩展到啥都存。
网站里存了近28年的网络历史,还跟1200多家图书馆合作挑选重要网页存档。现在档案里有8350亿个网页、4400万本书、1500万条录音、1060万个视频、480万张图片和100万个软件。
该网站所有人都可以免费使用,也能免费上传东西进去,目前基本上所有网站都能在里面搜到历史快照。浏览该网站就像坐上了互联网时光机一样。比如,我想知道苹果中国地区官网最早的样子。
直接在该网站首页里面输入网址回车,选择最早的时间就能看到网站快照了。
搜索后,我们可以看到,苹果中国区官网最早的时间是在2000年3月2日,点开我们看看什么样子。
好吧,我们知道了在当时网站还不属于苹果公司,我们再往后挪一年再看看,选择2001年4月1日。
如上图所示,最早的样子我们已经找到了,复古感十足。下面我贴一些知名网址最开始的样子给大家瞅瞅。
2006年的谷歌中国,当时我们还能访问。
2005年的豆瓣,风格好像和现在差不多。
2011年的知乎,当时好像注册还需要邀请码,内容质量很高,但现在,唉。很久没看过了。
虽然有网站快照了,但难免抓取错误或者不及时,尤其个人博客这种小网站,抓取频率不高,好像css样式都不保存,只保存了文字内容。在写作版权证明上,或许以大公司提供的在线文档比较好,比如飞书有完整的写作和修改记录。