首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于领域概念定制的主题爬虫系统的设计与实现

摘要第1-5页
ABSTRACT第5-8页
第一章 绪论第8-14页
   ·研究的背景第8-9页
   ·目前国内外的研究状况第9-11页
     ·CORA第9-10页
     ·IBM Focused Crawler第10页
     ·Context Graphs Focused Crawler第10-11页
   ·论文相关工作第11-12页
   ·论文的安排第12-14页
第二章 相关理论与技术第14-24页
   ·搜索引擎理论与技术第14-20页
     ·搜索引擎的概念第14页
     ·搜索引擎的发展简史第14-17页
     ·搜索引擎的分类第17页
     ·搜索引擎技术简介第17-19页
     ·搜索引擎的系统结构第19-20页
   ·HTTP 协议第20-24页
     ·HTTP 协议概述第20页
     ·HTTP 报文类型第20-21页
     ·HTTP 报文首部字段第21-22页
     ·HTTP 的响应代码第22-24页
第三章 面向主题资源的网络爬虫体系结构设计第24-32页
   ·通用网络爬虫工作原理及体系结构第24-26页
     ·通用网络爬虫的工作原理第24-25页
     ·通用网络爬虫体系结构第25-26页
   ·主题网络爬虫工作原理及体系结构第26-32页
     ·主题爬虫的概述第26-28页
     ·主题爬虫工作原理第28-29页
     ·主题爬虫的体系结构第29-30页
     ·主题相关度和重要度判定模块的设计第30-32页
第四章 主题相关性判定关键算法研究与设计第32-44页
   ·引言第32页
   ·基于网络拓扑的算法分析研究第32-34页
     ·PageRank 算法第32-33页
     ·HITS 算法第33-34页
     ·算法使用分析第34页
   ·基于网页内容的算法分析研究第34-36页
     ·纯文本分类与聚类算法第34-35页
     ·超文本分类和聚类算法第35-36页
     ·算法使用分析第36页
   ·基于领域概念定制的网页评价算法的设计第36-44页
     ·主题对象确立模块算法设计第37-38页
     ·初始种子优化模块算法设计第38-39页
     ·主题相关度分析模块算法设计第39-41页
     ·链接重要度分析模块算法设计第41-44页
第五章 主题网络爬虫系统的实现第44-56页
   ·引言第44页
   ·主题爬虫系统的实现第44-50页
     ·主要的C++类和数据结构第44-47页
     ·页面文本信息抽取算法实现第47-48页
     ·页面相关度判定算法实现第48-50页
   ·实验研究第50-56页
     ·试验环境第50页
     ·主题爬虫系统运行情况第50-51页
     ·测试结果第51-56页
第六章 总结与展望第56-58页
   ·论文工作的总结第56-57页
   ·下一步工作的展望第57-58页
致谢第58-60页
参考文献第60-64页
作者在读期间的研究成果第64页

论文共64页,点击 下载论文
上一篇:基于本体和服务发现的Web信息集成研究
下一篇:牙髓干细胞形成牙体组织能力及其制备嵌合体牙齿的实验研究