摘要 | 第4-5页 |
Abstract | 第5页 |
1 引言 | 第9-12页 |
1.1 研究背景 | 第9页 |
1.2 国内外发展现状 | 第9-11页 |
1.3 研究方法和创新之处 | 第11-12页 |
1.3.1 研究方法 | 第11页 |
1.3.2 创新之处 | 第11-12页 |
2 Web存档相关概述 | 第12-18页 |
2.1 Web存档的概念 | 第12页 |
2.2 Web存档的意义 | 第12-13页 |
2.3 Web存档的挑战 | 第13-15页 |
2.4 关键的Web存档措施 | 第15页 |
2.5 Web存档的技术方法 | 第15-18页 |
3 Web保存的运用 | 第18-24页 |
3.1 Web存档系统 | 第18-19页 |
3.1.1 PANDAS | 第18-19页 |
3.1.2 WCT | 第19页 |
3.2 第三方服务 | 第19-21页 |
3.2.1 Archive-It | 第20页 |
3.2.2 加利福尼亚数字图书馆的WAS | 第20-21页 |
3.3 网络爬虫 | 第21页 |
3.4 搜索 | 第21-22页 |
3.5 访问 | 第22-23页 |
3.6 其他的选择 | 第23-24页 |
4 Web长期保存的困扰 | 第24-35页 |
4.1 技术方面的困扰 | 第24-27页 |
4.1.1 网页采集工具的局限性 | 第24页 |
4.1.2 Web存档的真实性 | 第24-25页 |
4.1.3 时间一致性问题 | 第25-26页 |
4.1.4 存档格式的有效性 | 第26-27页 |
4.1.5 永久保存的标准 | 第27页 |
4.2 管理方面的困扰 | 第27-31页 |
4.2.1 存档内容的选取 | 第27-28页 |
4.2.2 存档的合法性 | 第28-29页 |
4.2.3 恶意软件的去留 | 第29-30页 |
4.2.4 网页的去重 | 第30-31页 |
4.3 新型Web2.0 网站的保存困扰 | 第31-35页 |
4.3.1 网站抓取的困扰 | 第31-32页 |
4.3.2 产权许可的困扰 | 第32页 |
4.3.3 存档动机的缺失 | 第32-35页 |
5 案例 | 第35-40页 |
5.1 英国档案馆 | 第35-37页 |
5.1.1 The UK Archive背景 | 第35页 |
5.1.2 The UK Archive协作 | 第35页 |
5.1.3 The UK Archive方法 | 第35-36页 |
5.1.4 The UK Archive技术解决方案 | 第36页 |
5.1.5 The UK Archive访问 | 第36页 |
5.1.6 The UK Archive收集 | 第36-37页 |
5.2 IMF(互联网记忆基金会) | 第37-40页 |
5.2.1 IMF背景 | 第37页 |
5.2.2 IMF协作 | 第37页 |
5.2.3 IMF方法 | 第37-38页 |
5.2.4 IMF技术解决方案 | 第38页 |
5.2.5 IMF访问 | 第38页 |
5.2.6 IMF收集 | 第38-40页 |
6 Web存档发展建议 | 第40-43页 |
6.1 采集方面 | 第40页 |
6.2 资金方面 | 第40-41页 |
6.3 法律方面 | 第41页 |
6.4 协作方面 | 第41-42页 |
6.5 其他方面 | 第42-43页 |
7 结论和展望 | 第43-45页 |
参考文献 | 第45-47页 |
个人简历 | 第47-48页 |
致谢 | 第48页 |