首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Rocchio算法的增量式主题爬行

提要第1-7页
第一章 绪论第7-15页
   ·主题爬行技术综述第7-10页
     ·主题爬行技术产生的背景和概念第7-8页
     ·主题爬行系统的基本原理第8-10页
     ·主题爬虫性能评价标准第10页
   ·相关工作第10-12页
   ·本文的主要研究内容和结构安排第12-15页
第二章 相关知识介绍第15-25页
   ·网页向量空间模型及主题判断方法第15-17页
   ·HTML代码及DOM树结构第17-21页
     ·HTML语言概述第17-18页
     ·HTML文档的基本结构第18-19页
     ·HTML语言的标签和属性第19-20页
     ·从HTML代码到DOM树第20-21页
   ·相关度反馈和Rocchio算法第21-25页
     ·相关度反馈在信息检索领域的应用第22-23页
     ·相关度反馈的向量模型第23页
     ·Rocchio算法第23-24页
     ·相关度反馈的难点第24-25页
第三章 本文的主题爬行算法及系统实现第25-44页
   ·本文的主题爬行算法第25-32页
     ·利用HTML 代码对应的DOM 树结构精确刻画网页中超链接的上下文相关文本第25-30页
     ·利用Rocchio算法进行增量式学习第30-32页
   ·系统实现第32-44页
     ·系统平台和编程语言第33-34页
     ·解析网页工具HTML::Parser和HTML::TreeBuilder第34页
     ·Web爬虫程序的设计与实现第34-37页
     ·面向主题的Web爬虫程序的设计与实现第37-40页
     ·利用Rocchio算法进行增量式学习的设计与实现第40-42页
     ·系统运行的截图第42-44页
第四章 实验第44-51页
   ·实验的评价方法第44页
   ·实验数据集第44-45页
   ·实验结果及分析第45-50页
   ·实验结论第50-51页
第五章 结论及未来工作展望第51-53页
   ·结论第51-52页
   ·未来工作展望第52-53页
参考文献第53-56页
摘要第56-59页
Abstract第59-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:清代东北商埠与社会变迁研究
下一篇:肯尼迪—约翰逊政府就业与培训政策研究