面向微博的网络爬虫研究与实现

摘要	第5-6页
ABSTRACT	第6页
第1章绪论	第7-10页
1.1 研究背景及意义	第7-8页
1.2 国内外研究现状	第8-9页
1.3 论文的研究内容	第9页
1.4 论文的组织结构	第9-10页
第2章网络爬虫概述	第10-14页
2.1 网络爬虫简介	第10-11页
2.1.1 网络爬虫工作原理	第10页
2.1.2 礼貌爬虫策略	第10-11页
2.2 网络爬虫分类	第11-14页
2.2.1 通用网络爬虫	第11-12页
2.2.2 主题网络爬虫	第12-13页
2.2.3 深层网络爬虫	第13-14页
第3章关键技术研究	第14-32页
3.1 网页搜索策略	第14-15页
3.1.1 广度优先搜索策略	第14-15页
3.1.2 深度优先搜索策略	第15页
3.1.3 最佳优先搜索策略	第15页
3.2 URL去重算法	第15-19页
3.2.1 MD5	第16-17页
3.2.2 SimHash	第17-18页
3.2.3 Bloom Filter	第18-19页
3.3 网页分析算法	第19-23页
3.3.1 PageRank	第19-21页
3.3.2 HITS	第21-22页
3.3.3 OPIC	第22-23页
3.4 信息抽取技术	第23-24页
3.4.1 信息抽取概述	第23-24页
3.4.2 正则表达式	第24页
3.5 网页更新策略	第24-26页
3.6 Ajax技术	第26-28页
3.6.1 Ajax概述	第26-27页
3.6.2 Ajax特点	第27-28页
3.7 DOM	第28-29页
3.8 XPath	第29-32页
3.8.1 XPath概述	第29-30页
3.8.2 XPath实例	第30-32页
第4章系统的设计与实现	第32-44页
4.1 微博网站分析	第32页
4.2 浏览器工作原理	第32-34页
4.2.1 浏览器概述	第32-33页
4.2.2 渲染引擎	第33-34页
4.3 系统总体设计	第34-35页
4.4 系统子模块设计	第35-41页
4.4.1 URL管理模块	第35-36页
4.4.2 网页抓取模块	第36-37页
4.4.3 信息抽取模块	第37-38页
4.4.4 JavaScript解析模块	第38页
4.4.5 DOM构建模块	第38-39页
4.4.6 事件处理模块	第39-40页
4.4.7 数据库设计	第40-41页
4.5 系统运行结果	第41-44页
第5章总结与展望	第44-46页
5.1 总结	第44页
5.2 展望	第44-46页
参考文献	第46-50页
致谢	第50-51页