首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫的设计与实现

摘要第1-5页
ABSTRACT第5-7页
目录第7-9页
第一章 绪论第9-13页
   ·研究背景第9-10页
   ·国内外研究现状第10-12页
     ·国外研究现状第10-11页
     ·国内研究现状第11-12页
   ·研究内容及组织结构第12-13页
第二章 主题网络爬虫相关技术第13-25页
   ·网络爬虫概念第13-14页
   ·通用爬虫第14-17页
     ·通用爬虫原理及模型第14-16页
     ·通用爬虫的不足第16-17页
   ·主题爬虫第17页
     ·主题爬虫的系统结构第17页
     ·主题爬虫的关键技术第17页
   ·搜索策略第17-22页
     ·基于内容评价的搜索策略第17-19页
     ·基于链接结构评价的搜索策略第19-21页
     ·基于分类器预测评价的搜索策略第21-22页
     ·其它策略第22页
   ·文本分类算法第22-24页
     ·朴素贝叶斯分类算法第22-23页
     ·支持向量机第23-24页
     ·KNN算法第24页
   ·本章小结第24-25页
第三章 主题爬虫系统的设计第25-56页
   ·系统结构第25-30页
     ·并行网络爬虫的几种拓扑结构第25-28页
     ·总体结构设计第28-30页
   ·任务分配第30-36页
     ·动态可配置性第31-33页
     ·通信数据格式第33-34页
     ·任务分配流程第34-36页
   ·网页采集模块第36-47页
     ·超文本传输协议HTTP第36-39页
     ·爬虫采集控制协议第39-40页
     ·DNS解析第40-43页
     ·采集模块流程第43-47页
   ·网页分析模块第47-51页
     ·URL提取及规范化第47-48页
     ·HTML解析第48-49页
     ·URL去重第49-50页
     ·网页分析模块流程第50-51页
   ·爬行控制模块第51-52页
     ·Shark—Search和HITS算法的不足第51页
     ·基于Shark—Search算法和HITS算法的爬行控制策略第51-52页
   ·分类算法训练模块第52-55页
     ·增量贝叶斯分类模型第52-53页
     ·增量贝叶斯分类算法第53-54页
     ·分类器训练模块流程第54-55页
   ·本章小结第55-56页
第四章 主题爬虫系统的实现第56-66页
   ·主题爬虫的配置第56-57页
   ·主要的C++类和数据结构第57-61页
   ·实验与分析第61-65页
   ·本章小结第65-66页
第五章 总结与展望第66-68页
   ·论文工作总结第66页
   ·未来研究展望第66-68页
参考文献第68-71页
致谢第71-72页
攻读学位期间发表的学术论文目录第72页

论文共72页,点击 下载论文
上一篇:视频图像质量检测技术研究与实践
下一篇:文本挖掘中的中文实体关系抽取