主题蜘蛛的研究及实现

摘要	第1-6页
Abstract	第6-7页
第一章前言	第7-10页
·研究背景	第7-8页
·国内外相关研究现状	第8页
·主要研究内容	第8-9页
·研究成果与创新之处	第9页
·本文的组织结构	第9-10页
第二章主题蜘蛛概述	第10-16页
·通用蜘蛛	第10-12页
·页面采集模块	第10-11页
·网页预处理模块	第11-12页
·链接提取模块	第12页
·数据库存储模块	第12页
·主题蜘蛛	第12-14页
·中文分词	第13页
·主题过滤	第13-14页
·性能瓶颈分析	第14-16页
·网络通信延迟	第14页
·礼貌爬行问题	第14-15页
·域名解析	第15-16页
第三章主题搜索策略	第16-21页
·种子页面的选取	第16页
·搜索策略概述	第16-21页
·传统搜索策略	第17页
·主题搜索策略	第17-21页
第四章网页预处理	第21-27页
·页面解析	第21-22页
·HTML语法分析	第21页
·页面中正文提取	第21-22页
·页面中链接提取	第22页
·URL和关键词过滤	第22-23页
·拒绝协议	第23-27页
·网络机器人排斥标准	第23-24页
·网络机器人元标记	第24-25页
·实现细节	第25-27页
第五章中文分词及主题相关度计算	第27-40页
·中文分词	第27-33页
·基于字典、词库匹配的分词方法	第27页
·基于词频统计的分词方法	第27-28页
·基于知识理解的分词方法	第28页
·本系统分词算法实现	第28-33页
·主题相关度计算	第33-40页
·向量空间模型	第34-36页
·网页特征提取	第36-37页
·权重计算	第37-40页
第六章主题蜘蛛的系统实现	第40-47页
·具体实现	第40-44页
·设计原则	第40页
·基本流程	第40-41页
·主要类介绍	第41-43页
·系统界面	第43-44页
·主要数据表设计	第44-46页
·实验效果	第46-47页
第七章总结及展望	第47-48页
·本文的工作总结	第47页
·下一步的工作	第47-48页
参考文献	第48-50页
致谢	第50-51页
附录	第51-52页