摘要 | 第1-4页 |
Abstract | 第4-9页 |
第一章 绪论 | 第9-13页 |
·课题研究背景 | 第9-11页 |
·搜索引擎发展趋势 | 第9页 |
·主题搜索引擎产生背景 | 第9-10页 |
·主题搜索引擎研究现状 | 第10-11页 |
·本文主要工作 | 第11-12页 |
·论文结构 | 第12-13页 |
第二章 Nutch 相关技术 | 第13-19页 |
·Nutch 组成部分 | 第13页 |
·Nutch 搜索引擎的特点 | 第13-14页 |
·系统架构 | 第14-18页 |
·抓取部分组成 | 第14-16页 |
·抓取过程详解 | 第16-18页 |
·本章小结 | 第18-19页 |
第三章 其他相关技术 | 第19-29页 |
·主题搜索引擎介绍 | 第19-23页 |
·搜索引擎基本工作原理 | 第19-20页 |
·主题搜索引擎与通用搜索引擎的区别 | 第20-21页 |
·主题搜索引擎信息采集策略 | 第21-22页 |
·主题搜索引擎重要部分 | 第22-23页 |
·Cygwin简介 | 第23-24页 |
·Tomcat介绍 | 第24-25页 |
·Luke介绍 | 第25页 |
·javaCC介绍 | 第25-28页 |
·本章小结 | 第28-29页 |
第四章 自动分词及 Nutch分词修改 | 第29-33页 |
·ICTCLAS分词系统介绍 | 第29-30页 |
·文本自动分词 | 第30-31页 |
·Nutch中文分词 | 第31-32页 |
·本章小结 | 第32-33页 |
第五章 基于 Nutch的主题搜索引擎实现 | 第33-53页 |
·系统结构 | 第33-34页 |
·起始 URL列表的形成 | 第34-37页 |
·筛选出高质量页面的规则 | 第34-36页 |
·URL队列的获得 | 第36-37页 |
·设计主题模块 | 第37-40页 |
·主题模块用例设计 | 第37-39页 |
·主题模块 UML用例图 | 第39-40页 |
·主题模块类图 | 第40页 |
·训练文本部分 | 第40-47页 |
·文本训练过程 | 第40-41页 |
·特征项抽取 | 第41-43页 |
·主题的表达 | 第43-44页 |
·使用信息增益法求取特征向量 | 第44-47页 |
·信息增益法介绍 | 第45-46页 |
·信息增益法提取特征向量 | 第46-47页 |
·距离分类部分 | 第47-52页 |
·分类的评估指标 | 第47-48页 |
·距离分类器介绍 | 第48-51页 |
·距离分类器的实现过程 | 第51-52页 |
·提取和分类有关的信息 | 第51页 |
·距离分类实现程序 | 第51-52页 |
·本章小结 | 第52-53页 |
第六章 运行结果 | 第53-57页 |
·开发环境 | 第53页 |
·运行步骤 | 第53-56页 |
·设置环境变量 | 第53页 |
·抓取网站页面前的准备工作 | 第53-54页 |
·运行 Crawl 命令抓取网站内容 | 第54-55页 |
·使用 Tomcat 进行搜索测试 | 第55-56页 |
·本章小结 | 第56-57页 |
第七章 总结与展望 | 第57-59页 |
致谢 | 第59-60页 |
参考文献 | 第60-63页 |
附录 A | 第63-78页 |
A.1 调用 ICTCLAS 对文本分词 | 第63-65页 |
A.2 termFrequen ( ) 统计词频 | 第65-66页 |
A.3 修改 Summarizer.java | 第66-68页 |
A.4 将文本文件读入字符串中 readTextFile ( ) | 第68-69页 |
A.5 将主文本保存到硬盘 SaveText ( ) | 第69-70页 |
A.6 使用信息增益法选取特征词 | 第70-71页 |
A.7 得到 Title文本 | 第71-72页 |
A.8 从父网页中提取锚文本 | 第72-73页 |
A.9 得到主文本 | 第73-76页 |
A.10 实现距离分类器 | 第76-78页 |
附录 B 攻读学位期间发表论文情况 | 第78页 |