Web长期保存的困扰研究

摘要	第4-5页
Abstract	第5页
1 引言	第9-12页
1.1 研究背景	第9页
1.2 国内外发展现状	第9-11页
1.3 研究方法和创新之处	第11-12页
1.3.1 研究方法	第11页
1.3.2 创新之处	第11-12页
2 Web存档相关概述	第12-18页
2.1 Web存档的概念	第12页
2.2 Web存档的意义	第12-13页
2.3 Web存档的挑战	第13-15页
2.4 关键的Web存档措施	第15页
2.5 Web存档的技术方法	第15-18页
3 Web保存的运用	第18-24页
3.1 Web存档系统	第18-19页
3.1.1 PANDAS	第18-19页
3.1.2 WCT	第19页
3.2 第三方服务	第19-21页
3.2.1 Archive-It	第20页
3.2.2 加利福尼亚数字图书馆的WAS	第20-21页
3.3 网络爬虫	第21页
3.4 搜索	第21-22页
3.5 访问	第22-23页
3.6 其他的选择	第23-24页
4 Web长期保存的困扰	第24-35页
4.1 技术方面的困扰	第24-27页
4.1.1 网页采集工具的局限性	第24页
4.1.2 Web存档的真实性	第24-25页
4.1.3 时间一致性问题	第25-26页
4.1.4 存档格式的有效性	第26-27页
4.1.5 永久保存的标准	第27页
4.2 管理方面的困扰	第27-31页
4.2.1 存档内容的选取	第27-28页
4.2.2 存档的合法性	第28-29页
4.2.3 恶意软件的去留	第29-30页
4.2.4 网页的去重	第30-31页
4.3 新型Web2.0 网站的保存困扰	第31-35页
4.3.1 网站抓取的困扰	第31-32页
4.3.2 产权许可的困扰	第32页
4.3.3 存档动机的缺失	第32-35页
5 案例	第35-40页
5.1 英国档案馆	第35-37页
5.1.1 The UK Archive背景	第35页
5.1.2 The UK Archive协作	第35页
5.1.3 The UK Archive方法	第35-36页
5.1.4 The UK Archive技术解决方案	第36页
5.1.5 The UK Archive访问	第36页
5.1.6 The UK Archive收集	第36-37页
5.2 IMF（互联网记忆基金会）	第37-40页
5.2.1 IMF背景	第37页
5.2.2 IMF协作	第37页
5.2.3 IMF方法	第37-38页
5.2.4 IMF技术解决方案	第38页
5.2.5 IMF访问	第38页
5.2.6 IMF收集	第38-40页
6 Web存档发展建议	第40-43页
6.1 采集方面	第40页
6.2 资金方面	第40-41页
6.3 法律方面	第41页
6.4 协作方面	第41-42页
6.5 其他方面	第42-43页
7 结论和展望	第43-45页
参考文献	第45-47页
个人简历	第47-48页
致谢	第48页