主题搜索引擎设计与研究

摘要	第1-6页
Abstract	第6-11页
第一章绪论	第11-18页
·搜索引擎的历史	第11-12页
·搜索引擎的概念及其功能、分类	第12-16页
·搜索引擎的概念	第12页
·搜索引擎的功能	第12页
·搜索引擎的分类	第12-13页
·搜索引擎的发展阶段	第13-15页
·搜索引擎的发展趋势	第15-16页
·本文的主要工作和组织	第16-18页
第二章搜索引擎基本理论	第18-28页
·搜索引擎基本结构、工作原理	第18-20页
·搜索引擎组成结构	第18页
·搜索引擎的工作原理	第18-20页
·建立搜索引擎的关键技术	第20-22页
·搜索引擎的性能指标	第22页
·通用搜索引擎的不足	第22-23页
·专业搜索引擎的产生背景	第23-24页
·专业搜索引擎的系统结构	第24-25页
·专业搜索引擎的优势	第25-26页
·专业搜索引擎目前的热点----面向主题的搜索引擎的研究	第26-27页
·主题搜索引擎简介	第26页
·主题搜索引擎发展现状	第26-27页
·小结	第27-28页
第三章主题爬虫相关技术	第28-42页
·通用爬虫模型	第28-32页
·通用爬虫的结构	第28-31页
·通用爬虫的不足	第31-32页
·主题爬虫模型	第32-34页
·主题爬虫的原理	第32-33页
·主题爬虫的结构	第33-34页
·主题爬虫与URL主题相关性算法分析	第34-39页
·基于文字内容的启发策略	第34-39页
·主题爬虫与通用爬虫的区别	第39-41页
·小结	第41-42页
第四章 HTML解析器与分词技术实现	第42-58页
·HTML文档结构	第42-43页
·HTML简介	第42页
·HTML链接结构	第42-43页
·HTML结构树的概念	第43页
·HTML解析器	第43-49页
·框架结构	第44-45页
·解析器实例分析	第45-49页
·中文分词技术研究	第49-57页
·中文分词简介	第49-50页
·Javacc简介	第50-53页
·Nutch中文分词分析	第53-55页
·Nutch支持中文分词实例分析	第55-57页
·小结	第57-58页
第五章 Web页面链接与分布特性分析研究	第58-65页
·基于超链接的页面分析算法	第58-62页
·PageRank超链分析算法	第59-60页
·HITS算法	第60-61页
·Maximum Flow Communities	第61-62页
·主题页面的分布特征	第62-64页
·中心页面特性	第62-63页
·主题关联特性	第63页
·主题聚集特性	第63页
·隧道特性	第63-64页
·小结	第64-65页
第六章主题搜索引擎关键技术设计实现	第65-80页
·向量空间模型简介	第65-68页
·关键词集	第68-69页
·关键词集和页面间的Ω-距离	第69-70页
·系统架构	第70-71页
·主题相关性判定的实现	第71-73页
·文档的表示	第71-72页
·词条权重的计算	第72页
·主题相关性判定	第72-73页
·基于Nutch的主题相关性搜索引擎的实现	第73-80页
·Nutch爬虫实现过程	第73-74页
·Nutch索引的建立	第74-77页
·Nutch搜索的实现	第77-78页
·Nutch搜索结果截图	第78-80页
第七章总结与展望	第80-82页
·总结	第80-81页
·展望	第81-82页
致谢	第82-83页
参考文献	第83-87页
攻读硕士期间的研究成果及发表的学术论文	第87页