首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于PageRank算法的中文垂直搜索引擎的研究与应用

摘要第1-6页
ABSTRACT第6-10页
第一章 绪论第10-16页
   ·课题背景与研究意义第10页
   ·搜索引擎的发展现状第10-11页
     ·通用搜索引擎的发展现状第10-11页
     ·垂直搜索引擎概述第11页
   ·搜索引擎基本原理第11-12页
     ·网络蜘蛛第12页
     ·索引模块第12页
     ·搜索模块第12页
   ·搜索引擎的现有模型第12-13页
   ·搜索引擎的评价原则与发展方向第13-14页
     ·评价原则第13-14页
     ·搜索引擎的发展方向第14页
   ·本章小结及论文的组织第14-16页
     ·本章小结第14页
     ·论文的组织结构第14-16页
第二章 垂直搜索引擎的基本原理第16-27页
   ·信息采集技术第17-19页
     ·网络蜘蛛第18页
     ·网络蜘蛛的实现原理第18-19页
   ·资源分析预处理技术第19-20页
     ·PDF 文档分析第19页
     ·Html 文档分析第19-20页
   ·分词预处理技术第20-23页
     ·文档内容分析过程第20-21页
     ·文档内容分析过程第21-23页
   ·索引与检索技术第23-26页
     ·索引的基本结构第23-24页
     ·索引器的实现第24-25页
     ·检索器的实现第25-26页
   ·本章小结第26-27页
第三章 网页预处理及消重算法的研究第27-42页
   ·网页预处理方法研究第27-32页
     ·网页的表示模型第27-29页
     ·网页内容的提取第29-30页
     ·中文分词及去除停用词第30页
     ·改进模型第30-32页
   ·网页去重算法研究与改进第32-41页
     ·基于网址的网页消重算法第32-33页
     ·基于聚类的网页去重算法第33页
     ·基于模板消噪的去重算法第33-34页
     ·基于关键词匹配和向量空间结合的网页消重算法第34-36页
     ·基于分段签名的数字消重算法第36-38页
     ·改进的基于 MD5 数字分段签名的数据消重算法第38-41页
   ·本章小结第41-42页
第四章 排序算法的研究第42-53页
   ·LUCENE 排序算法第42-44页
     ·Lucene 内部自带排序算法描述第42-43页
     ·Lucene 基础排序算法分析第43-44页
   ·谷歌核心算法 PAGERANK 排序算法分析第44-46页
     ·谷歌核心算法 PageRank 算法的描述第44-46页
     ·PageRank 算法分析第46页
   ·PAGERANK 改进算法分析第46-48页
     ·基于时间反馈的 PageRank 排序算法第46-47页
     ·基于主题相似度模型的 TS-PageRank 算法第47-48页
     ·MP-PageRank 改进算法第48页
   ·基于 PAGERANK 算法的综合排序算法第48-52页
     ·PageRank 算法的修正第48-51页
     ·基于 PageRank 排序算法的综合算法第51-52页
   ·本章小结第52-53页
第五章 垂直搜索引擎的设计与实现第53-66页
   ·系统总体设计第53-54页
   ·垂直搜索引擎网络爬虫模块的设计与实现第54-56页
   ·数据处理模块的设计与实现第56-60页
     ·网页解析模块第56-57页
     ·中文分词模块第57-59页
     ·网页去重模块第59-60页
   ·索引模块的设计与实现第60-61页
   ·搜索模块的设计与实现第61-64页
   ·系统测试第64-65页
   ·本章小结第65-66页
第六章 结论第66-68页
   ·本文的主要工作及创新点第66页
   ·存在的不足第66-67页
   ·工作展望第67-68页
致谢第68-69页
参考文献第69-71页

论文共71页,点击 下载论文
上一篇:边界扫描技术研究及ARM JTAG调试器的设计与实现
下一篇:ASP通知管理系统的设计与实现