基于版权服务的网络数据采集算法研究

摘要	第1-4页
ABSTRACT	第4-8页
引言	第8-9页
1 绪论	第9-14页
·论文的研究背景	第9页
·国内外研究现状	第9-12页
·数字版权管理	第9-10页
·搜索引擎	第10-12页
·研究内容和意义	第12-13页
·论文结构	第13-14页
2 搜索引擎技术介绍	第14-17页
·搜索引擎的定义	第14页
·搜索引擎的分类	第14-15页
·元搜索引擎	第14页
·目录索引搜索引擎	第14-15页
·全文搜索引擎	第15页
·搜索引擎的组成及工作原理	第15-16页
·搜索引擎的发展趋势	第16-17页
3 课题研究所需的知识和相关技术介绍	第17-28页
·Java技术	第17页
·XML技术	第17-18页
·网络爬虫技术	第18-22页
·网络爬虫基本原理	第18-20页
·网络爬虫关键技术	第20页
·网络爬虫抓取策略	第20-22页
·Heritrix开源框架研究	第22-24页
·Heritrix分析与研究	第22-23页
·Heritrix工作流程	第23-24页
·网页预处理	第24-25页
·网页主题信息抽取	第25-26页
·Web文本相关性的判断	第26-28页
4 网络数据采集算法	第28-42页
·URL地址去重算法	第28-32页
·基于关系数据库方式的去重	第28页
·Hash算法、MD5压缩存储方法去重	第28-29页
·Bloom Filter算法去重	第29-30页
·基于嵌入式数据库Berkeley DB方式去重	第30-31页
·提出新的URL地址去重算法	第31-32页
·网页搜索策略	第32-38页
·基于内容评价的算法	第32-36页
·基于链接地址评价的算法	第36-38页
·基于内容和链接地址评价相结合的搜索策略	第38-42页
·基于内容和链接地址评价相结合的主题相关度评价	第38-40页
·改进的基于内容和链接地址评价相结合的搜索策略	第40页
·算法设计实现	第40-42页
5 基于版权服务的网络数据采集算法实现	第42-52页
·软件实验环境	第42页
·对Heritrix平台的扩展	第42-44页
·多线程抓取网页	第42-43页
·取消Robots.txt文件对网络爬虫的限制	第43页
·对网络爬虫爬取深度的控制	第43-44页
·URL地址去重算法实验	第44-45页
·基于内容评价和链接评价相结合的搜索策略实验结果与分析	第45-46页
·系统设计与实现	第46-52页
6 结论	第52-54页
·总结	第52页
·展望	第52-54页
参考文献	第54-56页
申请学位期间的研究成果及发表的学术论文	第56-57页
致谢	第57页