首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于版权服务的网络数据采集算法研究

摘要第1-4页
ABSTRACT第4-8页
引言第8-9页
1 绪论第9-14页
   ·论文的研究背景第9页
   ·国内外研究现状第9-12页
     ·数字版权管理第9-10页
     ·搜索引擎第10-12页
   ·研究内容和意义第12-13页
   ·论文结构第13-14页
2 搜索引擎技术介绍第14-17页
   ·搜索引擎的定义第14页
   ·搜索引擎的分类第14-15页
     ·元搜索引擎第14页
     ·目录索引搜索引擎第14-15页
     ·全文搜索引擎第15页
   ·搜索引擎的组成及工作原理第15-16页
   ·搜索引擎的发展趋势第16-17页
3 课题研究所需的知识和相关技术介绍第17-28页
   ·Java技术第17页
   ·XML技术第17-18页
   ·网络爬虫技术第18-22页
     ·网络爬虫基本原理第18-20页
     ·网络爬虫关键技术第20页
     ·网络爬虫抓取策略第20-22页
   ·Heritrix开源框架研究第22-24页
     ·Heritrix分析与研究第22-23页
     ·Heritrix工作流程第23-24页
   ·网页预处理第24-25页
   ·网页主题信息抽取第25-26页
   ·Web文本相关性的判断第26-28页
4 网络数据采集算法第28-42页
   ·URL地址去重算法第28-32页
     ·基于关系数据库方式的去重第28页
     ·Hash算法、MD5压缩存储方法去重第28-29页
     ·Bloom Filter算法去重第29-30页
     ·基于嵌入式数据库Berkeley DB方式去重第30-31页
     ·提出新的URL地址去重算法第31-32页
   ·网页搜索策略第32-38页
     ·基于内容评价的算法第32-36页
     ·基于链接地址评价的算法第36-38页
   ·基于内容和链接地址评价相结合的搜索策略第38-42页
     ·基于内容和链接地址评价相结合的主题相关度评价第38-40页
     ·改进的基于内容和链接地址评价相结合的搜索策略第40页
     ·算法设计实现第40-42页
5 基于版权服务的网络数据采集算法实现第42-52页
   ·软件实验环境第42页
   ·对Heritrix平台的扩展第42-44页
     ·多线程抓取网页第42-43页
     ·取消Robots.txt文件对网络爬虫的限制第43页
     ·对网络爬虫爬取深度的控制第43-44页
   ·URL地址去重算法实验第44-45页
   ·基于内容评价和链接评价相结合的搜索策略实验结果与分析第45-46页
   ·系统设计与实现第46-52页
6 结论第52-54页
   ·总结第52页
   ·展望第52-54页
参考文献第54-56页
申请学位期间的研究成果及发表的学术论文第56-57页
致谢第57页

论文共57页,点击 下载论文
上一篇:基于ARM的数字图像处理系统的设计与实现
下一篇:网络日志挖掘及其在查询理解中的应用研究