首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于文档分类及超链接优选策略主题蜘蛛的研究与实现

摘要第1-7页
ABSTRACT第7-11页
第1章 绪论第11-15页
   ·研究背景第11-12页
   ·网络蜘蛛的研究现状第12-13页
   ·课题研究意义第13-14页
   ·论文内容安排第14-15页
第2章 网络蜘蛛及相关算法研究第15-35页
   ·通用蜘蛛系统与主题蜘蛛系统第16-22页
     ·通用蜘蛛系统第16-17页
     ·通用蜘蛛系统的不足第17页
     ·主题蜘蛛的原理概述第17-18页
     ·主题蜘蛛的结构模型第18-22页
   ·面向主题的信息提取的划分第22页
   ·网络主题页面分布特性第22-24页
     ·中心页面特性第22-23页
     ·主题关联及主题聚集特性第23页
     ·“隧道”特性第23-24页
   ·Web结构链接挖掘策略第24-26页
   ·基于文字内容的URL主题相关性评价启发策略第26-28页
   ·页面主题相关性判定策略第28-33页
     ·向量空间模型(VSM)第28-29页
     ·页面信息抽取与逆文档频率指数第29-30页
     ·训练与分类方法简介第30-33页
   ·本章小节第33-35页
第3章 主题蜘蛛系统总体设计第35-46页
   ·运行环境及需求分析第35-38页
     ·系统运行环境分析第35-36页
     ·Focus Crawling Spider系统需求分析第36-37页
     ·运行平台的配置要求及开发工具第37-38页
   ·系统总体设计第38-42页
     ·系统设计目标第38-39页
     ·系统工作模型第39-40页
     ·系统功能模块第40-42页
   ·系统控制及异常处理第42-45页
     ·系统控制策略第42-43页
     ·系统日志第43-44页
     ·基于TLS的Last Error异常及错误处理第44-45页
   ·本章小结第45-46页
第4章 主题蜘蛛系统的详细设计及实现第46-83页
   ·系统工作流程第46-52页
     ·系统详细流程第46-49页
     ·各类常见的异常以及处理策略第49-51页
     ·线程同步及共享策略选择及实现第51-52页
   ·网络交互及数据采集第52-59页
     ·HTTP协议及资源文件传输第53-55页
     ·基于WSAEventSelect模型的数据采集第55-56页
     ·高效的DNS缓存实现第56-59页
   ·页面预处理及DOM结构生成器第59-66页
     ·设计方案第60-61页
     ·HTML标签识别第61-63页
     ·网页DOM结构地图及生成器第63-66页
   ·URL队列、URL提取以及URL判重第66-73页
     ·URL优先级队列第66-68页
     ·URL及锚文本提取第68-69页
     ·基于MD5及Bloom Filter的URL判重实现第69-73页
   ·URL评价剪枝第73-76页
     ·URL评价策略第73-75页
     ·数据结构设计第75-76页
   ·页面主题相关性判定模块第76-82页
     ·页面正文内容提取与过滤第76-77页
     ·主题设定及带权特征词条向量第77页
     ·训练样本集模拟实现第77-79页
     ·基于贝叶斯、KNN及向量距离法的主题判定策略第79-82页
   ·本章小节第82-83页
第5章 系统的运行、测试及结果分析第83-95页
   ·系统的运行第83-86页
     ·全局数据的初始化第83-84页
     ·系统运行参数配置第84-85页
     ·输出信息第85-86页
   ·系统测试第86-95页
     ·性能指标第86-87页
     ·测试环境第87-88页
     ·系统测试第88-95页
第6章 总结与展望第95-97页
   ·全文总结第95页
   ·下一步工作的展望第95-97页
致谢第97-98页
参考文献第98-102页
攻读硕士学位期间发表论文第102页

论文共102页,点击 下载论文
上一篇:独立分量分析方法及其在红外图像处理上的应用
下一篇:基于粒子群算法的半脆弱水印技术研究