主题搜索引擎的研究与实现

摘要	第1-4页
Abstract	第4-5页
目录	第5-7页
第一章引言	第7-11页
·研究背景与意义	第7页
·搜索引擎的发展状况	第7-9页
·搜索引擎评价	第9页
·本文组织结构	第9-11页
第二章搜索引擎概述及核心技术	第11-25页
·搜索引擎的分类	第11-12页
·搜索引擎的原理	第12-14页
·搜索引擎的主要模块	第14-16页
·信息采集	第16-20页
·网络信息爬取	第17页
·网络爬虫策略	第17-18页
·网络爬虫原理	第18-19页
·网络爬虫中重要组成部分	第19-20页
·文本处理	第20-21页
·中文分词技术	第21-24页
·基于字符串匹配的分词方法	第22-23页
·基于统计的分词方法	第23-24页
·索引技术	第24页
·本章小结	第24-25页
第三章主题搜索引擎研究与分析	第25-30页
·主题搜索引擎与通用搜索引擎的比较	第25-26页
·网页信息的结构化提取	第26-27页
·主题搜索引擎的体系结构	第27-29页
·主题信息的抓取	第29页
·本章小结	第29-30页
第四章主题爬虫搜索策略研究	第30-42页
·面向主题的爬虫信息提取	第30-34页
·主题爬虫信息提取的优点	第30页
·主题相关性算法研究	第30-31页
·PageRank算法	第31-32页
·HITS算法	第32-33页
·PageRank算法和HITS算法的区别	第33-34页
·抽象的相关排序模型	第34-36页
·一个具体的相关排序模型	第35页
·向量空间模型	第35-36页
·主题相关判断算法	第36-37页
·抓取主题相关URL的改进算法	第37-39页
·URL增量算法	第39-40页
·本章小结	第40-42页
第五章主题搜索引擎的实现	第42-57页
·环境的搭建过程	第42-43页
·Nutch部署	第42页
·Nutch前端部署	第42-43页
·相关改进算法的实现	第43-44页
·nutch添加中文庖丁解牛分词插件	第44-53页
·在analysis-zh文件夹中建立plugin.xml和build.xml	第44-46页
·在扩展点实现插件	第46-47页
·在lib-paoding-analyzers文件夹中建立plugin.xml和build.xml	第47-48页
·修改nutch配置文件	第48-52页
·生成paoding-analysis.jar包	第52-53页
·重新编译ant	第53页
·用Nutch抓取网页	第53-55页
·系统测试及结果分析	第55-56页
·本章小结	第56-57页
第六章总结与展望	第57-59页
参考文献	第59-62页
攻读硕士期间发表的论文	第62-63页
致谢	第63页