主题微博爬虫的设计与实现
摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 绪论 | 第8-16页 |
·研究背景 | 第8页 |
·搜索引擎发展现状 | 第8-16页 |
·搜索引擎分类 | 第9-11页 |
·搜索引擎的工作原理 | 第11-12页 |
·主题搜索引擎与通用搜索引擎的区别 | 第12-16页 |
2 相关理论及研究现状 | 第16-23页 |
·搜索引擎理论与技术 | 第16-21页 |
·搜索引擎的概念 | 第16页 |
·搜索引擎的发展简史 | 第16-18页 |
·搜索引擎的分类 | 第18-19页 |
·搜索引擎技术简介 | 第19-20页 |
·搜索引擎的系统结构 | 第20-21页 |
·HTTP 协议 | 第21-23页 |
·协议概述 | 第21-23页 |
3 面向主题微博爬虫的系统体系结构设计 | 第23-29页 |
·主题爬虫及相关理论技术 | 第23页 |
·爬虫分类 | 第23-25页 |
·通用网络爬虫工作原理及体系结构 | 第23-25页 |
·主题网络爬虫工作原理及体系结构 | 第25-27页 |
·主题爬虫的概述 | 第25-26页 |
·主题爬虫工作原理 | 第26-27页 |
·主题相关度和重要度判定模块的设计 | 第27-29页 |
4 主题相关性判定关键算法研究与设计 | 第29-39页 |
·基于网络拓扑的算法分析研究 | 第29-30页 |
·PageRank 算法 | 第29-30页 |
·HITS 算法 | 第30页 |
·算法使用分析 | 第30-31页 |
·基于网页内容的算法分析研究 | 第31-32页 |
·纯文本分类与聚类算法 | 第31-32页 |
·超文本分类和聚类算法 | 第32页 |
·算法使用分析 | 第32页 |
·基于主题的评价算法的设计 | 第32-39页 |
·主题对象确立模块算法设计 | 第33-34页 |
·初始种子优化模块算法设计 | 第34-35页 |
·主题相关度分析模块算法设计 | 第35-37页 |
·链接重要度分析模块算法设计 | 第37-39页 |
5 主题微博爬虫系统的实现 | 第39-44页 |
·网络爬虫的概要设计 | 第39-40页 |
·网络爬虫总体设计 | 第40-41页 |
·网络爬虫具体实现 | 第41-44页 |
·爬取网页 | 第41页 |
·分析网页 | 第41-42页 |
·判断相关度 | 第42页 |
·保存网页信息 | 第42页 |
·多线程的实现 | 第42页 |
·实验结果 | 第42-44页 |
6 总结 | 第44-46页 |
·论文工作的总结 | 第44-45页 |
·下一步工作的展望 | 第45-46页 |
参考文献 | 第46-48页 |
致谢 | 第48-49页 |