主题蜘蛛的研究及实现
摘要 | 第1-6页 |
Abstract | 第6-7页 |
第一章 前言 | 第7-10页 |
·研究背景 | 第7-8页 |
·国内外相关研究现状 | 第8页 |
·主要研究内容 | 第8-9页 |
·研究成果与创新之处 | 第9页 |
·本文的组织结构 | 第9-10页 |
第二章 主题蜘蛛概述 | 第10-16页 |
·通用蜘蛛 | 第10-12页 |
·页面采集模块 | 第10-11页 |
·网页预处理模块 | 第11-12页 |
·链接提取模块 | 第12页 |
·数据库存储模块 | 第12页 |
·主题蜘蛛 | 第12-14页 |
·中文分词 | 第13页 |
·主题过滤 | 第13-14页 |
·性能瓶颈分析 | 第14-16页 |
·网络通信延迟 | 第14页 |
·礼貌爬行问题 | 第14-15页 |
·域名解析 | 第15-16页 |
第三章 主题搜索策略 | 第16-21页 |
·种子页面的选取 | 第16页 |
·搜索策略概述 | 第16-21页 |
·传统搜索策略 | 第17页 |
·主题搜索策略 | 第17-21页 |
第四章 网页预处理 | 第21-27页 |
·页面解析 | 第21-22页 |
·HTML语法分析 | 第21页 |
·页面中正文提取 | 第21-22页 |
·页面中链接提取 | 第22页 |
·URL和关键词过滤 | 第22-23页 |
·拒绝协议 | 第23-27页 |
·网络机器人排斥标准 | 第23-24页 |
·网络机器人元标记 | 第24-25页 |
·实现细节 | 第25-27页 |
第五章 中文分词及主题相关度计算 | 第27-40页 |
·中文分词 | 第27-33页 |
·基于字典、词库匹配的分词方法 | 第27页 |
·基于词频统计的分词方法 | 第27-28页 |
·基于知识理解的分词方法 | 第28页 |
·本系统分词算法实现 | 第28-33页 |
·主题相关度计算 | 第33-40页 |
·向量空间模型 | 第34-36页 |
·网页特征提取 | 第36-37页 |
·权重计算 | 第37-40页 |
第六章 主题蜘蛛的系统实现 | 第40-47页 |
·具体实现 | 第40-44页 |
·设计原则 | 第40页 |
·基本流程 | 第40-41页 |
·主要类介绍 | 第41-43页 |
·系统界面 | 第43-44页 |
·主要数据表设计 | 第44-46页 |
·实验效果 | 第46-47页 |
第七章 总结及展望 | 第47-48页 |
·本文的工作总结 | 第47页 |
·下一步的工作 | 第47-48页 |
参考文献 | 第48-50页 |
致谢 | 第50-51页 |
附录 | 第51-52页 |