| 摘要 | 第1-7页 |
| ABSTRACT | 第7-11页 |
| 第1章 绪论 | 第11-15页 |
| ·研究背景 | 第11-12页 |
| ·网络蜘蛛的研究现状 | 第12-13页 |
| ·课题研究意义 | 第13-14页 |
| ·论文内容安排 | 第14-15页 |
| 第2章 网络蜘蛛及相关算法研究 | 第15-35页 |
| ·通用蜘蛛系统与主题蜘蛛系统 | 第16-22页 |
| ·通用蜘蛛系统 | 第16-17页 |
| ·通用蜘蛛系统的不足 | 第17页 |
| ·主题蜘蛛的原理概述 | 第17-18页 |
| ·主题蜘蛛的结构模型 | 第18-22页 |
| ·面向主题的信息提取的划分 | 第22页 |
| ·网络主题页面分布特性 | 第22-24页 |
| ·中心页面特性 | 第22-23页 |
| ·主题关联及主题聚集特性 | 第23页 |
| ·“隧道”特性 | 第23-24页 |
| ·Web结构链接挖掘策略 | 第24-26页 |
| ·基于文字内容的URL主题相关性评价启发策略 | 第26-28页 |
| ·页面主题相关性判定策略 | 第28-33页 |
| ·向量空间模型(VSM) | 第28-29页 |
| ·页面信息抽取与逆文档频率指数 | 第29-30页 |
| ·训练与分类方法简介 | 第30-33页 |
| ·本章小节 | 第33-35页 |
| 第3章 主题蜘蛛系统总体设计 | 第35-46页 |
| ·运行环境及需求分析 | 第35-38页 |
| ·系统运行环境分析 | 第35-36页 |
| ·Focus Crawling Spider系统需求分析 | 第36-37页 |
| ·运行平台的配置要求及开发工具 | 第37-38页 |
| ·系统总体设计 | 第38-42页 |
| ·系统设计目标 | 第38-39页 |
| ·系统工作模型 | 第39-40页 |
| ·系统功能模块 | 第40-42页 |
| ·系统控制及异常处理 | 第42-45页 |
| ·系统控制策略 | 第42-43页 |
| ·系统日志 | 第43-44页 |
| ·基于TLS的Last Error异常及错误处理 | 第44-45页 |
| ·本章小结 | 第45-46页 |
| 第4章 主题蜘蛛系统的详细设计及实现 | 第46-83页 |
| ·系统工作流程 | 第46-52页 |
| ·系统详细流程 | 第46-49页 |
| ·各类常见的异常以及处理策略 | 第49-51页 |
| ·线程同步及共享策略选择及实现 | 第51-52页 |
| ·网络交互及数据采集 | 第52-59页 |
| ·HTTP协议及资源文件传输 | 第53-55页 |
| ·基于WSAEventSelect模型的数据采集 | 第55-56页 |
| ·高效的DNS缓存实现 | 第56-59页 |
| ·页面预处理及DOM结构生成器 | 第59-66页 |
| ·设计方案 | 第60-61页 |
| ·HTML标签识别 | 第61-63页 |
| ·网页DOM结构地图及生成器 | 第63-66页 |
| ·URL队列、URL提取以及URL判重 | 第66-73页 |
| ·URL优先级队列 | 第66-68页 |
| ·URL及锚文本提取 | 第68-69页 |
| ·基于MD5及Bloom Filter的URL判重实现 | 第69-73页 |
| ·URL评价剪枝 | 第73-76页 |
| ·URL评价策略 | 第73-75页 |
| ·数据结构设计 | 第75-76页 |
| ·页面主题相关性判定模块 | 第76-82页 |
| ·页面正文内容提取与过滤 | 第76-77页 |
| ·主题设定及带权特征词条向量 | 第77页 |
| ·训练样本集模拟实现 | 第77-79页 |
| ·基于贝叶斯、KNN及向量距离法的主题判定策略 | 第79-82页 |
| ·本章小节 | 第82-83页 |
| 第5章 系统的运行、测试及结果分析 | 第83-95页 |
| ·系统的运行 | 第83-86页 |
| ·全局数据的初始化 | 第83-84页 |
| ·系统运行参数配置 | 第84-85页 |
| ·输出信息 | 第85-86页 |
| ·系统测试 | 第86-95页 |
| ·性能指标 | 第86-87页 |
| ·测试环境 | 第87-88页 |
| ·系统测试 | 第88-95页 |
| 第6章 总结与展望 | 第95-97页 |
| ·全文总结 | 第95页 |
| ·下一步工作的展望 | 第95-97页 |
| 致谢 | 第97-98页 |
| 参考文献 | 第98-102页 |
| 攻读硕士学位期间发表论文 | 第102页 |