主题搜索引擎中的爬取技术研究

摘要	第1-10页
ABSTRACT	第10-11页
第一章绪论	第11-17页
·论文背景	第11-12页
·国内外研究现状	第12-14页
·CORA 系统	第12页
·IBM Focused Crawler 系统	第12-13页
·北大天网主题搜索	第13页
·南京大学的IDGS	第13-14页
·论文主要工作	第14-15页
·论文组织结构	第15-17页
第二章相关理论	第17-26页
·Web 页面的分布特征	第17-19页
·H/A 特征	第17-18页
·主题关联特征	第18-19页
·爬虫结构分析	第19-22页
·普通爬虫的工作流程	第19-21页
·主题爬虫的工作流程	第21-22页
·普通爬虫的爬行算法	第22-25页
·深度优先爬行算法	第22-23页
·广度优先爬行算法	第23-24页
·链接优先级排序	第24-25页
·本章小结	第25-26页
第三章基于标签属性的网页去噪方法	第26-35页
·基本概念	第26-28页
·HTML 结构	第26-27页
·TFIDF 权重	第27-28页
·文本信息模型	第28页
·去噪算法思想	第28-32页
·算法依据	第28-29页
·相似性计算	第29-30页
·极大相容类	第30-31页
·算法描述	第31-32页
·实验分析	第32-33页
·实验数据和分类器选择	第32页
·评测标准	第32-33页
·实验结果及分析	第33页
·本章小结	第33-35页
第四章基于动态隧道技术的爬行算法	第35-46页
·主题爬行算法	第35-37页
·基于内容分析的爬行算法	第35-36页
·基于链接分析的爬行算法	第36-37页
·两类爬行算法的比较	第37页
·主题漂移问题的解决	第37-39页
·BFS 算法的改进	第37-38页
·新算法中的链接分析	第38-39页
·主题孤岛问题分析	第39-45页
·主题孤岛问题	第39-40页
·现有爬行算法的缺陷	第40-42页
·解决主题孤岛的思想	第42-45页
·本章小结	第45-46页
第五章主题爬虫设计与实现	第46-60页
·Nutch 简要分析	第46-48页
·Nutch 结构	第46-47页
·Nutch 工作流程	第47-48页
·主题搜索引擎设计与实现	第48-53页
·系统总体框架	第48页
·系统主要模块的设计	第48-50页
·系统实现方案	第50-53页
·实验平台与运行环境	第53-54页
·系统部署	第53页
·运行环境	第53-54页
·系统测试与分析	第54-59页
·测试方案	第54-55页
·测试结果及分析	第55-59页
·本章小结	第59-60页
第六章总结与展望	第60-62页
·主要工作及创新点	第60页
·未来工作展望	第60-62页
致谢	第62-63页
参考文献	第63-67页
作者在学期间取得的学术成果	第67页