首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于Nutch的主题爬虫研究与实现

摘要第1-4页
Abstract第4-9页
第一章 绪论第9-13页
   ·课题研究背景第9-11页
     ·搜索引擎发展趋势第9页
     ·主题搜索引擎产生背景第9-10页
     ·主题搜索引擎研究现状第10-11页
   ·本文主要工作第11-12页
   ·论文结构第12-13页
第二章 Nutch 相关技术第13-19页
   ·Nutch 组成部分第13页
   ·Nutch 搜索引擎的特点第13-14页
   ·系统架构第14-18页
     ·抓取部分组成第14-16页
     ·抓取过程详解第16-18页
   ·本章小结第18-19页
第三章 其他相关技术第19-29页
   ·主题搜索引擎介绍第19-23页
     ·搜索引擎基本工作原理第19-20页
     ·主题搜索引擎与通用搜索引擎的区别第20-21页
     ·主题搜索引擎信息采集策略第21-22页
     ·主题搜索引擎重要部分第22-23页
   ·Cygwin简介第23-24页
   ·Tomcat介绍第24-25页
   ·Luke介绍第25页
   ·javaCC介绍第25-28页
   ·本章小结第28-29页
第四章 自动分词及 Nutch分词修改第29-33页
   ·ICTCLAS分词系统介绍第29-30页
   ·文本自动分词第30-31页
   ·Nutch中文分词第31-32页
   ·本章小结第32-33页
第五章 基于 Nutch的主题搜索引擎实现第33-53页
   ·系统结构第33-34页
   ·起始 URL列表的形成第34-37页
     ·筛选出高质量页面的规则第34-36页
     ·URL队列的获得第36-37页
   ·设计主题模块第37-40页
     ·主题模块用例设计第37-39页
     ·主题模块 UML用例图第39-40页
     ·主题模块类图第40页
   ·训练文本部分第40-47页
     ·文本训练过程第40-41页
     ·特征项抽取第41-43页
     ·主题的表达第43-44页
     ·使用信息增益法求取特征向量第44-47页
       ·信息增益法介绍第45-46页
       ·信息增益法提取特征向量第46-47页
   ·距离分类部分第47-52页
     ·分类的评估指标第47-48页
     ·距离分类器介绍第48-51页
     ·距离分类器的实现过程第51-52页
       ·提取和分类有关的信息第51页
       ·距离分类实现程序第51-52页
   ·本章小结第52-53页
第六章 运行结果第53-57页
   ·开发环境第53页
   ·运行步骤第53-56页
     ·设置环境变量第53页
     ·抓取网站页面前的准备工作第53-54页
     ·运行 Crawl 命令抓取网站内容第54-55页
     ·使用 Tomcat 进行搜索测试第55-56页
   ·本章小结第56-57页
第七章 总结与展望第57-59页
致谢第59-60页
参考文献第60-63页
附录 A第63-78页
 A.1 调用 ICTCLAS 对文本分词第63-65页
 A.2 termFrequen ( ) 统计词频第65-66页
 A.3 修改 Summarizer.java第66-68页
 A.4 将文本文件读入字符串中 readTextFile ( )第68-69页
 A.5 将主文本保存到硬盘 SaveText ( )第69-70页
 A.6 使用信息增益法选取特征词第70-71页
 A.7 得到 Title文本第71-72页
 A.8 从父网页中提取锚文本第72-73页
 A.9 得到主文本第73-76页
 A.10 实现距离分类器第76-78页
附录 B 攻读学位期间发表论文情况第78页

论文共78页,点击 下载论文
上一篇:手机垃圾短信过滤系统的研究与实现
下一篇:数据挖掘技术在昆明电信业务收入预测中的研究应用