主题爬虫的设计与实现

摘要	第1-5页
ABSTRACT	第5-7页
目录	第7-9页
第一章绪论	第9-13页
·研究背景	第9-10页
·国内外研究现状	第10-12页
·国外研究现状	第10-11页
·国内研究现状	第11-12页
·研究内容及组织结构	第12-13页
第二章主题网络爬虫相关技术	第13-25页
·网络爬虫概念	第13-14页
·通用爬虫	第14-17页
·通用爬虫原理及模型	第14-16页
·通用爬虫的不足	第16-17页
·主题爬虫	第17页
·主题爬虫的系统结构	第17页
·主题爬虫的关键技术	第17页
·搜索策略	第17-22页
·基于内容评价的搜索策略	第17-19页
·基于链接结构评价的搜索策略	第19-21页
·基于分类器预测评价的搜索策略	第21-22页
·其它策略	第22页
·文本分类算法	第22-24页
·朴素贝叶斯分类算法	第22-23页
·支持向量机	第23-24页
·KNN算法	第24页
·本章小结	第24-25页
第三章主题爬虫系统的设计	第25-56页
·系统结构	第25-30页
·并行网络爬虫的几种拓扑结构	第25-28页
·总体结构设计	第28-30页
·任务分配	第30-36页
·动态可配置性	第31-33页
·通信数据格式	第33-34页
·任务分配流程	第34-36页
·网页采集模块	第36-47页
·超文本传输协议HTTP	第36-39页
·爬虫采集控制协议	第39-40页
·DNS解析	第40-43页
·采集模块流程	第43-47页
·网页分析模块	第47-51页
·URL提取及规范化	第47-48页
·HTML解析	第48-49页
·URL去重	第49-50页
·网页分析模块流程	第50-51页
·爬行控制模块	第51-52页
·Shark—Search和HITS算法的不足	第51页
·基于Shark—Search算法和HITS算法的爬行控制策略	第51-52页
·分类算法训练模块	第52-55页
·增量贝叶斯分类模型	第52-53页
·增量贝叶斯分类算法	第53-54页
·分类器训练模块流程	第54-55页
·本章小结	第55-56页
第四章主题爬虫系统的实现	第56-66页
·主题爬虫的配置	第56-57页
·主要的C++类和数据结构	第57-61页
·实验与分析	第61-65页
·本章小结	第65-66页
第五章总结与展望	第66-68页
·论文工作总结	第66页
·未来研究展望	第66-68页
参考文献	第68-71页
致谢	第71-72页
攻读学位期间发表的学术论文目录	第72页