基于Nutch的主题爬虫研究与实现

摘要	第1-4页
Abstract	第4-9页
第一章绪论	第9-13页
·课题研究背景	第9-11页
·搜索引擎发展趋势	第9页
·主题搜索引擎产生背景	第9-10页
·主题搜索引擎研究现状	第10-11页
·本文主要工作	第11-12页
·论文结构	第12-13页
第二章 Nutch 相关技术	第13-19页
·Nutch 组成部分	第13页
·Nutch 搜索引擎的特点	第13-14页
·系统架构	第14-18页
·抓取部分组成	第14-16页
·抓取过程详解	第16-18页
·本章小结	第18-19页
第三章其他相关技术	第19-29页
·主题搜索引擎介绍	第19-23页
·搜索引擎基本工作原理	第19-20页
·主题搜索引擎与通用搜索引擎的区别	第20-21页
·主题搜索引擎信息采集策略	第21-22页
·主题搜索引擎重要部分	第22-23页
·Cygwin简介	第23-24页
·Tomcat介绍	第24-25页
·Luke介绍	第25页
·javaCC介绍	第25-28页
·本章小结	第28-29页
第四章自动分词及 Nutch分词修改	第29-33页
·ICTCLAS分词系统介绍	第29-30页
·文本自动分词	第30-31页
·Nutch中文分词	第31-32页
·本章小结	第32-33页
第五章基于 Nutch的主题搜索引擎实现	第33-53页
·系统结构	第33-34页
·起始 URL列表的形成	第34-37页
·筛选出高质量页面的规则	第34-36页
·URL队列的获得	第36-37页
·设计主题模块	第37-40页
·主题模块用例设计	第37-39页
·主题模块 UML用例图	第39-40页
·主题模块类图	第40页
·训练文本部分	第40-47页
·文本训练过程	第40-41页
·特征项抽取	第41-43页
·主题的表达	第43-44页
·使用信息增益法求取特征向量	第44-47页
·信息增益法介绍	第45-46页
·信息增益法提取特征向量	第46-47页
·距离分类部分	第47-52页
·分类的评估指标	第47-48页
·距离分类器介绍	第48-51页
·距离分类器的实现过程	第51-52页
·提取和分类有关的信息	第51页
·距离分类实现程序	第51-52页
·本章小结	第52-53页
第六章运行结果	第53-57页
·开发环境	第53页
·运行步骤	第53-56页
·设置环境变量	第53页
·抓取网站页面前的准备工作	第53-54页
·运行 Crawl 命令抓取网站内容	第54-55页
·使用 Tomcat 进行搜索测试	第55-56页
·本章小结	第56-57页
第七章总结与展望	第57-59页
致谢	第59-60页
参考文献	第60-63页
附录 A	第63-78页
A.1 调用 ICTCLAS 对文本分词	第63-65页
A.2 termFrequen ( ) 统计词频	第65-66页
A.3 修改 Summarizer.java	第66-68页
A.4 将文本文件读入字符串中 readTextFile ( )	第68-69页
A.5 将主文本保存到硬盘 SaveText ( )	第69-70页
A.6 使用信息增益法选取特征词	第70-71页
A.7 得到 Title文本	第71-72页
A.8 从父网页中提取锚文本	第72-73页
A.9 得到主文本	第73-76页
A.10 实现距离分类器	第76-78页
附录 B 攻读学位期间发表论文情况	第78页