摘要 | 第1-5页 |
ABSTRACT | 第5-7页 |
目录 | 第7-9页 |
第一章 绪论 | 第9-13页 |
·研究背景 | 第9-10页 |
·国内外研究现状 | 第10-12页 |
·国外研究现状 | 第10-11页 |
·国内研究现状 | 第11-12页 |
·研究内容及组织结构 | 第12-13页 |
第二章 主题网络爬虫相关技术 | 第13-25页 |
·网络爬虫概念 | 第13-14页 |
·通用爬虫 | 第14-17页 |
·通用爬虫原理及模型 | 第14-16页 |
·通用爬虫的不足 | 第16-17页 |
·主题爬虫 | 第17页 |
·主题爬虫的系统结构 | 第17页 |
·主题爬虫的关键技术 | 第17页 |
·搜索策略 | 第17-22页 |
·基于内容评价的搜索策略 | 第17-19页 |
·基于链接结构评价的搜索策略 | 第19-21页 |
·基于分类器预测评价的搜索策略 | 第21-22页 |
·其它策略 | 第22页 |
·文本分类算法 | 第22-24页 |
·朴素贝叶斯分类算法 | 第22-23页 |
·支持向量机 | 第23-24页 |
·KNN算法 | 第24页 |
·本章小结 | 第24-25页 |
第三章 主题爬虫系统的设计 | 第25-56页 |
·系统结构 | 第25-30页 |
·并行网络爬虫的几种拓扑结构 | 第25-28页 |
·总体结构设计 | 第28-30页 |
·任务分配 | 第30-36页 |
·动态可配置性 | 第31-33页 |
·通信数据格式 | 第33-34页 |
·任务分配流程 | 第34-36页 |
·网页采集模块 | 第36-47页 |
·超文本传输协议HTTP | 第36-39页 |
·爬虫采集控制协议 | 第39-40页 |
·DNS解析 | 第40-43页 |
·采集模块流程 | 第43-47页 |
·网页分析模块 | 第47-51页 |
·URL提取及规范化 | 第47-48页 |
·HTML解析 | 第48-49页 |
·URL去重 | 第49-50页 |
·网页分析模块流程 | 第50-51页 |
·爬行控制模块 | 第51-52页 |
·Shark—Search和HITS算法的不足 | 第51页 |
·基于Shark—Search算法和HITS算法的爬行控制策略 | 第51-52页 |
·分类算法训练模块 | 第52-55页 |
·增量贝叶斯分类模型 | 第52-53页 |
·增量贝叶斯分类算法 | 第53-54页 |
·分类器训练模块流程 | 第54-55页 |
·本章小结 | 第55-56页 |
第四章 主题爬虫系统的实现 | 第56-66页 |
·主题爬虫的配置 | 第56-57页 |
·主要的C++类和数据结构 | 第57-61页 |
·实验与分析 | 第61-65页 |
·本章小结 | 第65-66页 |
第五章 总结与展望 | 第66-68页 |
·论文工作总结 | 第66页 |
·未来研究展望 | 第66-68页 |
参考文献 | 第68-71页 |
致谢 | 第71-72页 |
攻读学位期间发表的学术论文目录 | 第72页 |