基于文档分类及超链接优选策略主题蜘蛛的研究与实现

摘要	第1-7页
ABSTRACT	第7-11页
第1章绪论	第11-15页
·研究背景	第11-12页
·网络蜘蛛的研究现状	第12-13页
·课题研究意义	第13-14页
·论文内容安排	第14-15页
第2章网络蜘蛛及相关算法研究	第15-35页
·通用蜘蛛系统与主题蜘蛛系统	第16-22页
·通用蜘蛛系统	第16-17页
·通用蜘蛛系统的不足	第17页
·主题蜘蛛的原理概述	第17-18页
·主题蜘蛛的结构模型	第18-22页
·面向主题的信息提取的划分	第22页
·网络主题页面分布特性	第22-24页
·中心页面特性	第22-23页
·主题关联及主题聚集特性	第23页
·“隧道”特性	第23-24页
·Web结构链接挖掘策略	第24-26页
·基于文字内容的URL主题相关性评价启发策略	第26-28页
·页面主题相关性判定策略	第28-33页
·向量空间模型(VSM)	第28-29页
·页面信息抽取与逆文档频率指数	第29-30页
·训练与分类方法简介	第30-33页
·本章小节	第33-35页
第3章主题蜘蛛系统总体设计	第35-46页
·运行环境及需求分析	第35-38页
·系统运行环境分析	第35-36页
·Focus Crawling Spider系统需求分析	第36-37页
·运行平台的配置要求及开发工具	第37-38页
·系统总体设计	第38-42页
·系统设计目标	第38-39页
·系统工作模型	第39-40页
·系统功能模块	第40-42页
·系统控制及异常处理	第42-45页
·系统控制策略	第42-43页
·系统日志	第43-44页
·基于TLS的Last Error异常及错误处理	第44-45页
·本章小结	第45-46页
第4章主题蜘蛛系统的详细设计及实现	第46-83页
·系统工作流程	第46-52页
·系统详细流程	第46-49页
·各类常见的异常以及处理策略	第49-51页
·线程同步及共享策略选择及实现	第51-52页
·网络交互及数据采集	第52-59页
·HTTP协议及资源文件传输	第53-55页
·基于WSAEventSelect模型的数据采集	第55-56页
·高效的DNS缓存实现	第56-59页
·页面预处理及DOM结构生成器	第59-66页
·设计方案	第60-61页
·HTML标签识别	第61-63页
·网页DOM结构地图及生成器	第63-66页
·URL队列、URL提取以及URL判重	第66-73页
·URL优先级队列	第66-68页
·URL及锚文本提取	第68-69页
·基于MD5及Bloom Filter的URL判重实现	第69-73页
·URL评价剪枝	第73-76页
·URL评价策略	第73-75页
·数据结构设计	第75-76页
·页面主题相关性判定模块	第76-82页
·页面正文内容提取与过滤	第76-77页
·主题设定及带权特征词条向量	第77页
·训练样本集模拟实现	第77-79页
·基于贝叶斯、KNN及向量距离法的主题判定策略	第79-82页
·本章小节	第82-83页
第5章系统的运行、测试及结果分析	第83-95页
·系统的运行	第83-86页
·全局数据的初始化	第83-84页
·系统运行参数配置	第84-85页
·输出信息	第85-86页
·系统测试	第86-95页
·性能指标	第86-87页
·测试环境	第87-88页
·系统测试	第88-95页
第6章总结与展望	第95-97页
·全文总结	第95页
·下一步工作的展望	第95-97页
致谢	第97-98页
参考文献	第98-102页
攻读硕士学位期间发表论文	第102页