首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的面向特定主题的爬虫研究

摘要第1-5页
Abstract第5-8页
1 绪论第8-16页
   ·研究背景与研究意义第8-9页
   ·国内外研究现状第9-11页
   ·搜索引擎的工作原理第11-14页
     ·通用搜索引擎的工作原理第11-12页
     ·主题式搜索引擎的工作原理第12-14页
   ·本文的主要研究内容和组织结构第14-16页
2 网页与预定义主题相关度的计算第16-29页
   ·引言第16页
   ·网页文本的表示模型第16-20页
     ·常用的文本特征表示模型第17-18页
     ·向量空间模型第18-20页
   ·文本分类的关键技术第20-26页
     ·训练文本集第21页
     ·特征选择第21-24页
     ·词条权重的分配第24-26页
   ·分类模型第26-27页
     ·Naive 贝叶斯分类器第26页
     ·KNN 最近邻分类器第26-27页
   ·相关性判断阈值探索第27-28页
   ·本章小结第28-29页
3 网页分块技术第29-45页
   ·引言第29页
   ·网页分块算法介绍第29-33页
     ·基于视觉特征的网页分割算法第31页
     ·基于位置的分块第31-32页
     ·基于style tree 的分块第32页
     ·基于 Dom 树的分块第32-33页
   ·基于 DOM 树的页面划分第33-36页
     ·DOM 树第33-34页
     ·算法思想第34-35页
     ·基于 DOM 树的分块算法第35-36页
   ·URL 相关度预测及排序第36-39页
     ·几种相关度预测方法介绍第37-39页
     ·以分块为基础的相关度预测算法第39页
   ·基于网页分块的主题爬行过程第39-44页
     ·隧道问题第40-42页
     ·爬行过程及算法描述第42-44页
   ·本章小结第44-45页
4 主题爬虫的系统实现第45-55页
   ·引言第45页
   ·Nutch 介绍第45-47页
     ·Nutch 各命令脚本的作用第45-46页
     ·Crawler 数据文件的格式及含义第46-47页
     ·Nutch 的插件机制第47页
   ·系统的总体架构第47-48页
   ·主题网页特征分析第48-49页
   ·系统运行所作的准备工作第49-51页
   ·系统运行及性能分析第51-54页
     ·爬虫性能评价指标第51页
     ·系统运行第51-53页
     ·性能分析第53-54页
   ·本章小结第54-55页
5 结论与展望第55-57页
参考文献第57-60页
攻读学位期间发表的学术论文及科研成果第60-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:基于关系数据库的XML数据的存储技术研究
下一篇:基于Linux内核的Rootkit研究