基于Nutch的科技主题搜索引擎Crawler的研究与实现

摘要	第1-6页
Abstract	第6-9页
1 绪论	第9-16页
·研究背景与研究意义	第9-10页
·国内外研究现状	第10-12页
·搜索引擎工作原理	第12-14页
·通用搜索引擎工作原理	第12-13页
·主题搜索引擎工作原理	第13-14页
·本文主要研究内容和组织结构	第14-16页
2 Nutch 搜索引擎介绍	第16-20页
·Nutch 搜索引擎特点	第16页
·系统架构	第16-20页
·Nutch 中的 Crawler 组成	第16-17页
·Nutch 中的 Crawler 工作流程	第17-20页
3 Crawler 搜索策略的研究	第20-34页
·基于链接结构特征的搜索策略	第20-23页
·PageRank 算法	第20-22页
·HITS 算法	第22-23页
·基于内容评价的搜索策略	第23-25页
·Fish Search 算法	第23-24页
·Shark Search 算法	第24-25页
·改进以后的搜索策略	第25-31页
·遗传算法思想原理	第25-27页
·遗传算法的应用	第27-31页
·主题 Crawler 的策略总结	第31-32页
·Crawler 提高程序性能的技术	第32-34页
4 科技主题搜索引擎设计	第34-43页
·系统体系结构	第34-37页
·信息的抓取模块	第34-35页
·信息的预处理模块	第35-36页
·信息的查询服务模块	第36-37页
·起始 URL 列表的形成	第37-39页
·筛选出高质量科技页面的规则	第37-38页
·URL 队列的形成	第38-39页
·科技主题页面的分布特征	第39-40页
·中文分词	第40-41页
·系统界面	第41页
·系统总体工作流程描述	第41-43页
5 系统实现技术难题和实验结果	第43-48页
·主题相关性判别	第43页
·开发的环境介绍	第43-44页
·运行步骤	第44-48页
·设置环境变量	第44页
·抓取页面的准备工作	第44页
·运行 Crawl 命令抓取网站页面	第44-45页
·在 Tomcat 上部署项目	第45-48页
结论	第48-49页
参考文献	第49-53页
在学研究成果	第53-54页
致谢	第54页