首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫搜索Web页面策略的研究

摘要第1-5页
Abstract第5-9页
第一章 绪论第9-15页
   ·前言第9-10页
   ·搜索引擎概述第10-11页
   ·主题搜索引擎概述第11-12页
   ·目前国内外研究现状第12-13页
   ·本文的研究目的意义与组织结构第13-15页
第二章 爬虫的理论基础及相关技术的研究第15-27页
   ·通用爬虫第15-17页
   ·主题爬虫第17-20页
   ·主题爬虫相关技术概述及爬行算法策略第20-22页
   ·基本的爬行算法第22-25页
     ·基于文字内容的页面相关度的爬行算法第22-23页
     ·Fish Search算法第23-24页
     ·基于web链接方式的爬行算法第24页
     ·HITS算法第24-25页
     ·Pagerank算法第25页
   ·正则表达式第25-26页
   ·本章小结第26-27页
第三章 相关算法改进研究第27-43页
   ·文本特征项的提取第27-29页
   ·特征权重的计算第29-31页
   ·一些文本分类方法第31-34页
   ·改进的基于网页标题分析的文本分类第34-35页
   ·主题相关的网站排名算法第35-39页
     ·通用搜索引擎的PageRank排名算法第36-38页
     ·N-step PageRank算法第38-39页
   ·网站排名计算第39-42页
     ·传统的网站排名方式第39-40页
     ·AggregateRank算法第40-42页
   ·本章小结第42-43页
第四章 WEB主题搜索引擎的构建第43-62页
   ·Lucene第43-46页
   ·Heritrix网络爬虫第46-50页
   ·Heritrix的扩展与定制第50-51页
   ·构建基于主题爬虫的手机导购搜索引擎第51-60页
   ·系统性能分析第60-61页
   ·本章小结第61-62页
第五章 总结与展望第62-65页
   ·总结第62-63页
   ·展望第63-65页
参考文献第65-69页
攻读硕士期间发表的论文和参与的项目第69-70页
致谢第70页

论文共70页,点击 下载论文
上一篇:基于VTK的地质体真三维可视化原理和方法初探
下一篇:自由曲线的非线性细分造型方法