基于HTML标记的主题爬行器的设计与实现

摘要	第1-5页
Abstract	第5-9页
第一章绪论	第9-15页
·研究背景	第9-10页
·国内外研究现状	第10-13页
·目的和意义	第13页
·主要工作内容	第13-14页
·本文的组织结构	第14-15页
第二章主题爬行器相关技术	第15-28页
·搜索引擎简介	第15-16页
·通用爬行器介绍	第16-18页
·通用爬行器的基本原理	第16-17页
·通用爬行器的工作流程	第17-18页
·主题爬行器介绍	第18-21页
·主题爬行器的基本原理	第19页
·主题爬行器的工作流程	第19-20页
·主题爬行器与通用爬行器的区别	第20-21页
·页面搜索策略	第21-22页
·页面分析算法	第22-27页
·基于Web 链接分析算法	第22-25页
·基于网页内容的分析算法	第25-27页
·本章小结	第27-28页
第三章基于HTML 标记的主题相关性判定方法	第28-36页
·文本主题相关性的判定	第28-32页
·文档表示	第28页
·文本向量特征权重	第28-30页
·文本分类算法	第30-32页
·基于HTML 标记的主题相关性判定	第32-33页
·性能评估标准	第33-35页
·本章小结	第35-36页
第四章主题爬行器总体设计	第36-40页
·系统总体设计	第36-39页
·系统总的工作流程图	第36-38页
·系统总设计图	第38-39页
·系统环境及平台	第39页
·本章小结	第39-40页
第五章主题爬行器系统详细设计及实现	第40-67页
·系统配置模块	第40-41页
·HTTP 分析模块	第41-46页
·WEB 链接过滤模块	第46-47页
·HTML 解析模块	第47-56页
·线程池介绍	第47-49页
·HTML 解析	第49-56页
·数据库存储模块	第56-58页
·增量检测模块	第58-59页
·系统运行界面	第59-66页
·本章小结	第66-67页
第六章实验结果及分析	第67-70页
·实验数据采集	第67-68页
·实验数据分析	第68-70页
第七章总结与展望	第70-72页
·总结	第70页
·未来展望	第70-72页
致谢	第72-73页
参考文献	第73-77页
攻硕期间取得的研究成果	第77-78页