摘要 | 第1-7页 |
ABSTRACT | 第7-11页 |
第1章 绪论 | 第11-15页 |
·研究背景 | 第11-12页 |
·网络蜘蛛的研究现状 | 第12-13页 |
·课题研究意义 | 第13-14页 |
·论文内容安排 | 第14-15页 |
第2章 网络蜘蛛及相关算法研究 | 第15-35页 |
·通用蜘蛛系统与主题蜘蛛系统 | 第16-22页 |
·通用蜘蛛系统 | 第16-17页 |
·通用蜘蛛系统的不足 | 第17页 |
·主题蜘蛛的原理概述 | 第17-18页 |
·主题蜘蛛的结构模型 | 第18-22页 |
·面向主题的信息提取的划分 | 第22页 |
·网络主题页面分布特性 | 第22-24页 |
·中心页面特性 | 第22-23页 |
·主题关联及主题聚集特性 | 第23页 |
·“隧道”特性 | 第23-24页 |
·Web结构链接挖掘策略 | 第24-26页 |
·基于文字内容的URL主题相关性评价启发策略 | 第26-28页 |
·页面主题相关性判定策略 | 第28-33页 |
·向量空间模型(VSM) | 第28-29页 |
·页面信息抽取与逆文档频率指数 | 第29-30页 |
·训练与分类方法简介 | 第30-33页 |
·本章小节 | 第33-35页 |
第3章 主题蜘蛛系统总体设计 | 第35-46页 |
·运行环境及需求分析 | 第35-38页 |
·系统运行环境分析 | 第35-36页 |
·Focus Crawling Spider系统需求分析 | 第36-37页 |
·运行平台的配置要求及开发工具 | 第37-38页 |
·系统总体设计 | 第38-42页 |
·系统设计目标 | 第38-39页 |
·系统工作模型 | 第39-40页 |
·系统功能模块 | 第40-42页 |
·系统控制及异常处理 | 第42-45页 |
·系统控制策略 | 第42-43页 |
·系统日志 | 第43-44页 |
·基于TLS的Last Error异常及错误处理 | 第44-45页 |
·本章小结 | 第45-46页 |
第4章 主题蜘蛛系统的详细设计及实现 | 第46-83页 |
·系统工作流程 | 第46-52页 |
·系统详细流程 | 第46-49页 |
·各类常见的异常以及处理策略 | 第49-51页 |
·线程同步及共享策略选择及实现 | 第51-52页 |
·网络交互及数据采集 | 第52-59页 |
·HTTP协议及资源文件传输 | 第53-55页 |
·基于WSAEventSelect模型的数据采集 | 第55-56页 |
·高效的DNS缓存实现 | 第56-59页 |
·页面预处理及DOM结构生成器 | 第59-66页 |
·设计方案 | 第60-61页 |
·HTML标签识别 | 第61-63页 |
·网页DOM结构地图及生成器 | 第63-66页 |
·URL队列、URL提取以及URL判重 | 第66-73页 |
·URL优先级队列 | 第66-68页 |
·URL及锚文本提取 | 第68-69页 |
·基于MD5及Bloom Filter的URL判重实现 | 第69-73页 |
·URL评价剪枝 | 第73-76页 |
·URL评价策略 | 第73-75页 |
·数据结构设计 | 第75-76页 |
·页面主题相关性判定模块 | 第76-82页 |
·页面正文内容提取与过滤 | 第76-77页 |
·主题设定及带权特征词条向量 | 第77页 |
·训练样本集模拟实现 | 第77-79页 |
·基于贝叶斯、KNN及向量距离法的主题判定策略 | 第79-82页 |
·本章小节 | 第82-83页 |
第5章 系统的运行、测试及结果分析 | 第83-95页 |
·系统的运行 | 第83-86页 |
·全局数据的初始化 | 第83-84页 |
·系统运行参数配置 | 第84-85页 |
·输出信息 | 第85-86页 |
·系统测试 | 第86-95页 |
·性能指标 | 第86-87页 |
·测试环境 | 第87-88页 |
·系统测试 | 第88-95页 |
第6章 总结与展望 | 第95-97页 |
·全文总结 | 第95页 |
·下一步工作的展望 | 第95-97页 |
致谢 | 第97-98页 |
参考文献 | 第98-102页 |
攻读硕士学位期间发表论文 | 第102页 |