基于内容和链接的主题爬虫的研究与实现

摘要	第10-12页
ABSTRACT	第12-13页
第一章绪论	第14-19页
1.1 研究背景	第14-15页
1.2 研究现状	第15-16页
1.3 研究内容及论文组织结构	第16-19页
第二章网络爬虫研究概述	第19-26页
2.1 搜索引擎	第19-22页
2.1.1 通用搜索引擎	第19-21页
2.1.2 垂直搜索引擎	第21-22页
2.2 通用爬虫	第22-24页
2.2.1 通用爬虫的工作原理及结构	第22-23页
2.2.2 通用爬虫的爬行策略	第23-24页
2.3 主题爬虫	第24-25页
2.3.1 主题爬虫的工作原理及结构	第24-25页
2.3.2 主题爬虫的爬行策略	第25页
2.4 本章小结	第25-26页
第三章主题爬虫关键技术研究	第26-36页
3.1 网页文本信息处理	第26-28页
3.1.1 网页规范化	第26页
3.1.2 网页信息抽取	第26-27页
3.1.3 中文分词	第27-28页
3.2 主题相关性计算	第28-30页
3.2.1 布尔模型	第28-29页
3.2.2 向量空间模型	第29-30页
3.3 关键词提取	第30-32页
3.3.1 基于PAT树的关键词提取方法	第30页
3.3.2 基于TF-IDF的关键词提取方法	第30-31页
3.3.3 基于朴素贝叶斯的关键词提取方法	第31-32页
3.4 Web链接结构特性	第32-35页
3.4.1 PageRank算法	第32-34页
3.4.2 HITS算法	第34-35页
3.5 本章小结	第35-36页
第四章基于内容和链接的主题爬虫的系统设计与实现	第36-48页
4.1 整体方案思想概述	第36-37页
4.2 模型构建模块	第37-42页
4.2.1 模型属性的选取	第38-39页
4.2.2 文本预处理	第39-40页
4.2.3 基于条件互信息下的属性聚类	第40-42页
4.3 网页解析模块	第42-44页
4.4 主题策略模块和URLs调度模块	第44-46页
4.4.1 主题策略模块	第45-46页
4.4.2 URLs调度模块	第46页
4.5 性能优势分析	第46-47页
4.6 本章小结	第47-48页
第五章实验研究与结果分析	第48-55页
5.1 实验环境与数据准备	第48-49页
5.1.1 实验开发环境	第48页
5.1.2 数据准备	第48-49页
5.2 实验评价指标	第49-50页
5.2.1 提取关键词指标	第49页
5.2.2 主题爬虫性能指标	第49-50页
5.3 实验方案及结果分析	第50-54页
5.3.1 改进的朴素贝叶斯算法	第50-51页
5.3.2 主题爬虫	第51-54页
5.4 本章小结	第54-55页
第六章总结与展望	第55-58页
6.1 论文内容总结	第55-56页
6.2 研究展望	第56-58页
参考文献	第58-62页
致谢	第62-63页
攻读硕士期间的研究成果	第63-64页
学位论文评阅及答辩情况表	第64页