网络上的页面日新月异,无时无刻不在变化着,而搜索引擎里面的快照也只能提供最新一次抓取时的页面。所以如果想看某个网站发展过程中的页面变化,那互联网博物馆是最好的选择了。
最出名的当然是Internet Archive了,下面这幅图是里面储存的Yahoo 各个时期的网站首页页面 
国内也有个类似的网络信息博物馆,北大的infomall,教育网服务器,电信基本不能访问。收入的网站以中文站为主,所以内容也比较少。
那么这种互联网博物馆有什么用呢?
1.当然就是能了解某个网站的发展情况,历史页面。可以免费拿到些数据。
像腾讯qq.com的主页02年的时候还是老外的个人待售网站
![]()
03年的时候已经被腾讯买下做为自己的myqq的页面了
到了04年的时候开始往门户方向发展
如今已是最大的中文门户了
2.还可以解决些死链问题,Archive.org虽然慢些,但还算稳定,只要有收录的页面,都能打得开。或者当代理用,看看被GFW掉的页面是什么样子的(当然这样看到的页面不太新)。
3.名捕的BLOG里还介绍了善用互联网博物馆下载已失效的PDF文件:
很早就知道互联网博物馆www.archive.org,最近发现,它不但能够保存htm,还保存PDF文件!估计其他文本类型如txt也是可以的。
那这样有什么用呢?举个例子,我昨天想起去年去过的一个站,叫老乙作坊(http://laoyiidesign.51.net),里面有不少PDF古籍目录,但昨天访问时,已失效了,提示:“尊敬的用户,您好! 您在虎翼网购买的服务已到期,请尽快办理续费事宜,我们将在收到汇款后为您重新开通服务。……”
抱着试试看的态度,在www.archive.org中输入http://laoyiidesign.51.net,然后按“Take me Back”,出现有十来个镜像存档,选择其中日期效适中的一个(因为远的不完善,近的已失效),2004年10月的,出现网页,然后按下载页的PDF存档,竟然可以下载!而且确实是保存在www.archive.org上的。
以前有不少站点的PDF下载是开放的,后来又封闭了。利用上述www.archive.org能够保存PDF存档的原理,我想应该可以找到不少好书的。
互联网博物馆现在最大的局限收录的页面太少太少了,因为因特网上面的信息实在太多太多了……





四月 9th, 2009 at 5:58 上午
呵呵,帮你PP顶!也请来放大器模块看看……
[回复]