基于Nutch的面向特定主题的爬虫研究

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-16页
·研究背景与研究意义	第8-9页
·国内外研究现状	第9-11页
·搜索引擎的工作原理	第11-14页
·通用搜索引擎的工作原理	第11-12页
·主题式搜索引擎的工作原理	第12-14页
·本文的主要研究内容和组织结构	第14-16页
2 网页与预定义主题相关度的计算	第16-29页
·引言	第16页
·网页文本的表示模型	第16-20页
·常用的文本特征表示模型	第17-18页
·向量空间模型	第18-20页
·文本分类的关键技术	第20-26页
·训练文本集	第21页
·特征选择	第21-24页
·词条权重的分配	第24-26页
·分类模型	第26-27页
·Naive 贝叶斯分类器	第26页
·KNN 最近邻分类器	第26-27页
·相关性判断阈值探索	第27-28页
·本章小结	第28-29页
3 网页分块技术	第29-45页
·引言	第29页
·网页分块算法介绍	第29-33页
·基于视觉特征的网页分割算法	第31页
·基于位置的分块	第31-32页
·基于style tree 的分块	第32页
·基于 Dom 树的分块	第32-33页
·基于 DOM 树的页面划分	第33-36页
·DOM 树	第33-34页
·算法思想	第34-35页
·基于 DOM 树的分块算法	第35-36页
·URL 相关度预测及排序	第36-39页
·几种相关度预测方法介绍	第37-39页
·以分块为基础的相关度预测算法	第39页
·基于网页分块的主题爬行过程	第39-44页
·隧道问题	第40-42页
·爬行过程及算法描述	第42-44页
·本章小结	第44-45页
4 主题爬虫的系统实现	第45-55页
·引言	第45页
·Nutch 介绍	第45-47页
·Nutch 各命令脚本的作用	第45-46页
·Crawler 数据文件的格式及含义	第46-47页
·Nutch 的插件机制	第47页
·系统的总体架构	第47-48页
·主题网页特征分析	第48-49页
·系统运行所作的准备工作	第49-51页
·系统运行及性能分析	第51-54页
·爬虫性能评价指标	第51页
·系统运行	第51-53页
·性能分析	第53-54页
·本章小结	第54-55页
5 结论与展望	第55-57页
参考文献	第57-60页
攻读学位期间发表的学术论文及科研成果	第60-61页
致谢	第61页