龙空技术网

互联网档案馆项目Internet Archive介绍

数字罗塞塔计划 58

前言:

现时同学们对“pbinternetconnect”可能比较讲究,同学们都需要分析一些“pbinternetconnect”的相关内容。那么小编也在网摘上网罗了一些关于“pbinternetconnect””的相关文章,希望你们能喜欢,咱们快快来学习一下吧!

关注我们 - 数字罗塞塔计划 -

在这个网络高速发展的时代,网页承载了大量有价值的信息,但这些信息总是不断地生成,又不断地消失,呈现出动态的特征。消失的网页和内容或许也会永远从人们的记忆中抹去,信息丢失的风险和可能性无比巨大。在此方面,2017年国务院办公厅印发的《政府网站发展指引》中就对网页归档这一项工作提出了要求。

对此,作为网页归档的引领者,Internet Archive(互联网档案馆,简称IA)项目在网络信息资源保存、管理与利用等方面有许多成功经验可供借鉴。

1:Internet Archive项目概述

项目概况

在本号往期的文章中,介绍《数字资源长期保存国际项目巡礼(七):IIPC》《网络资源归档标准WARC介绍》时都有提及Internet Archive。

Internet Archive是由美国人布鲁斯特·卡利(Brewster Kahle)于1996年创办的非营利性机构,现总部位于美国旧金山。Internet Archive正在建设一个包含互联网网站和其他文化艺术品的数字图书馆。与纸质图书馆一样,它为研究人员、历史学家、学者、阅读障碍者和普通公众提供免费访问数字化材料集合的场所。随着网络资源的不断增长,IA致力于提供其他出版作品的数字版本。

目前,IA所存储的档案包含7350亿个网页,4100万册书籍和文本,1470万份录音(包括24万场现场音乐会),40万个视频,440万幅图片,89万个软件程序。任何拥有免费账户的人都可以向IA上传媒体文件。

发展历程

1996年

IA从1996年成立之初就开发了Wayback Machine开始从事原生数字信息(主要是网页信息)的存档实践,但是直到2001年才开放这部分资源。

1999年

年底,IA从Prelinger档案馆(主要提供公共领域影片的免费下载和重复使用)开始,将其收藏扩展到网页档案之外。现在,IA的收藏包括文本、音频、动态图像和软件。

2003年

IA作为唯一的非国家图书馆组织与其他12 国的国家图书馆联合建立了国际互联网保护同盟(IIPC),共同商讨在保护互联网信息资源实践中的国际合作问题。

2005年

IA推出了名为“Archive-It”的定制服务,主要面向各合作机构提供网页自主存档服务,此项服务极大地推动了存档网页资源的共建共享。

2012年

IA将BitTorrent添加到其文件下载选项中,可下载130多万个现有文件和所有新上传的文件。

2016年

IA与维基百科合作解决失效链接问题。IA利用开发的InternetArchive Bot自动扫描维基百科脚注中的失效链接,并自动将其连接到Wayback Machine保存的页面。

2020年

IA与Arweave合作。借助Arweave提供的为数据提供分布式永久储存服务,实现去中心化储存互联网数据。

2021年

IA宣布与Protocol Labs协议实验室合作,将2016年总统任期结束时的数据集(约200TiB大小)加入Filecoin,旨在实现去中心化长期保存这些数据。

截至到2023年,IA已经加入了数字保存联盟(Digital Preservation Coalition,DPC)、国际图书馆协会和机构联合会(International Federation of Library Associations and Institutions,IFLA)、国际互联网保存联盟(International Internet Preservation Consortium,IIPC)、国家数字管理联盟(National Digital Stewardship Alliance,NDSA)等15个组织。

技术优势

(1)网站搜集

IA主要运用的是其与北欧五国( 冰岛、芬兰、瑞典、挪威和丹麦)国家图书馆联合开发的Heritrix爬虫软件。2004年1月发布首个版本,之后经过多次改进。

(2)检索软件

IA主要采用的是Alexa搜索引擎与Archive-It检索软件。

Alexa Internet公司是亚马逊公司的一家子公司。从 1996年开始,Alexa Internet一直在向IA捐赠他们抓取的数据。这些数据每天源源不断地输入,经过一段时间的禁用期后,就会被添加到Wayback Machine中。

Archive-It不仅允许机构收集和保存数字内容的集合,而且会提供每一个集合中所有URI的列表、每个站点存档的次数和日期以及存档站点的全文检索,允许用户快速搜索其感兴趣的主题集合。目前,IA已经通过Archive-It计划与1000多家图书馆和其他合作伙伴合作,以确定重要的网页。

2:Internet Archive检索示例

Internet Archive允许用户查看过去时间点的网站,包括已失效的网页信息,其可能无法保存图片和动画内容,但是所有的文本内容都基本是可见的。人们只需在IA网站上输入所需的网站域名,在时间条上选择某个时间节点,便可得到该网站在该时间节点的快照信息。以下笔者以搜狐网为例进行检索。

(1)登录页面。

(2)输入搜狐网网页URL地址。

(3)在时间轴上选择年份。如果网页有过去的存档快照,对应的时间轴上会有一条垂直的黑线。

(4)选择具体日期,点击蓝色或绿色圆圈高亮标记的日期。蓝色或绿色圆圈代表网站在这一日期有被保存网页之前的快照。

(5)弹出菜单,选择网站被保存的时间点。选择特定的时间,点击查看旧版网站。

(6)检索出搜狐网2012年1月20日的网页界面。

(7)点击网站中的文章链接查看具体内容。

(8)此外,也存在点击网站内链接显示Wayback machine没有存档该URL的情况。但IA支持用户帮助网站保存不同网站、网页信息,点击“save this url in the Wayback Machine”,IA将会开始保存该网页。

值得注意的是,在IA中检索查找出的旧版网页都是静态网页。IA采用Heritrix作为爬虫程序,广泛采集互联网资源,这种方法难以采集深层网页,需要用户登录才能查看以及动态生成的网页,都是无法被收录的。不仅是Heritrix,目前的爬虫软件都不能很好地解决这种问题。

3:Internet Archive实践效用

法律凭证价值

IA的网站回溯功能抓取并保存过去时间点的网页信息。这些网页信息反映了社会及个人真实的实践活动,具有一定的原始性与真实性。这与档案的基本属性相一致,也能作为重要的法律凭证之一。对此,我国在2019年颁布的《最高人民法院关于修改〈关于民事诉讼证据若干规定〉的决定》中为网页信息可作为电子证据提供了法律背书。

学术研究价值

网站承载着不同时代的众多网络信息,如新闻、文章报道、博客数据等分布于各领域的数据资源,是学术研究的重要资料来源。一旦网站崩溃或是下线,这些重要的资料就可能会随着网站一起消失。IA的出现则拯救了这些资源,为学术研究领域保留了财富。

网站素材价值

IA保存的网页信息大多是大量且连续的,它记录了一个网站“胜败兴衰”动态过程,可以作为网站追求发展与创新的研究素材,成为一条促进网站的服务优化与技术创新的有效途径。

4:Internet Archive项目亮点

IA从抓取、存储、备份三个方面实现网页信息的长期保存。

网页抓取

IA运用Heritrix爬虫软件实现对国家域名范围内或整个互联网在线资源的自动化采集。Heritrix采取抓取网页而不修改的方式,精确地捕捉每一个完整的网页内容 , 实现大规模的网页信息采集。此种直接对网页进行采集而不修改,并对同一网页不同时间节点多次抓取的方式,不遗漏任何信息,在最大程度上保证了网页信息的精确度与完整度。

存储能力

IA收藏的单份副本就占用了99+ PB的服务器空间(IA至少存储了所有内容的两份拷贝)。其所存储的庞大网页数据库为用户查找与利用过时或已逝的网页信息提供了丰富的馆藏档案资源。

异地备份

2006年IA在埃及的亚历山大图书馆设立异地备份中心,在诸多网页归档项目中,只有IA有此功能。这种备份有着积极的意义,可以避免灾难对档案资源的破坏,为IA存储的网页档案资源提供了安全保障。

5:结论

IA称得上是世界WA(Web Archive,网页信息存档)运动的先行者,它的成立标志着世界范围内WA研究与实践活动的开始。经过将近30年的发展,不论是资源数量还是技术,IA都领先于其他机构,是目前世界范围内对互联网档案资料保存历史最久远、保存范围最广、保存内容最完善的机构。

数字资源长期保存是数字罗塞塔计划项目的核心研究内容。数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字资源长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。

关注我们 - 数字罗塞塔计划 -

标签: #pbinternetconnect