基于Web挖掘的主题搜索引擎网页抓取策略的研究

摘要	第3-4页
ABSTRACT	第4-5页
1 绪论	第8-13页
1.1 研究背景	第8-9页
1.2 研究的目的和意义	第9页
1.3 国内外发展现状	第9-11页
1.4 本文研究的主要内容	第11页
1.5 本文的组织结构	第11-13页
2 Web挖掘技术和搜索引擎技术	第13-23页
2.1 Web挖掘技术	第13-16页
2.1.1 Web挖掘的概念	第13页
2.1.2 Web挖掘的分类	第13-15页
2.1.3 Web挖掘的特点	第15页
2.1.4 Web挖掘的主要流程	第15-16页
2.2 搜索引擎技术	第16-20页
2.2.1 搜索引擎的概念	第16-17页
2.2.2 搜索引擎的分类	第17-18页
2.2.3 通用搜索引擎的工作原理	第18-20页
2.3 Web挖掘与搜索引擎的结合	第20-21页
2.3.1 两者结合的意义	第20页
2.3.2 结合的方法	第20-21页
2.4 信息检索模型	第21-22页
2.4.1 布尔模型	第21页
2.4.2 向量空间模型	第21-22页
2.5 本章小结	第22-23页
3 主题网页抓取策略及相关技术分析	第23-32页
3.1 主题网页抓取技术概述	第23-27页
3.1.1 主题网页抓取技术的原理和结构	第23-24页
3.1.2 主题网页抓取技术拟解决的关键问题	第24-25页
3.1.3 主题爬虫的爬行策略	第25-27页
3.2 主题爬虫关键技术	第27-29页
3.2.1 网页预处理技术	第27-28页
3.2.2 隧道穿越技术	第28-29页
3.3 主题描述与主题网页分布特性	第29-30页
3.3.1 主题描述	第29-30页
3.3.2 主题网页的分布特性	第30页
3.4 本章小结	第30-32页
4 基于Web挖掘的主题爬虫的系统设计	第32-45页
4.1 主题爬虫系统模块设计	第32-33页
4.2 网页采集模块	第33-37页
4.2.1 HTTP协议简介	第33-34页
4.2.2 采集模块流程	第34-37页
4.3 网页分析模块	第37-39页
4.4 文本相似度计算模块	第39页
4.5 爬行控制模块	第39-43页
4.5.1 Best-First算法的不足	第39-40页
4.5.2 非贪婪策略简介	第40-41页
4.5.3 Best-First算法的优化	第41-43页
4.6 多线程工作模块	第43-44页
4.7 数据存储工作模块	第44页
4.8 本章小结	第44-45页
5 系统的实现与实验分析	第45-49页
5.1 系统的开发平台与工具	第45-46页
5.1.1 实验环境及设置	第45-46页
5.1.2 实验的评判标准	第46页
5.2 实验结果分析	第46-48页
5.3 本章小结	第48-49页
6 总结与展望	第49-51页
6.1 本文总结	第49页
6.2 未来的展望	第49-51页
参考文献	第51-55页
致谢	第55-56页
攻读学位期间主要科研成果	第56页