基于HITS算法的微博采集系统设计与实现

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第9-13页
1.1 研究背景及意义	第9-10页
1.1.1 微博发展背景	第9页
1.1.2 微博信息采集的意义	第9-10页
1.2 国内外研究现状	第10-11页
1.3 主要研究内容	第11页
1.4 论文组织结构	第11-13页
第二章相关理论和技术	第13-22页
2.1 网页信息采集技术	第13-15页
2.1.1 通用网络爬虫	第13-14页
2.1.2 主题爬虫	第14页
2.1.3 增量式爬虫	第14页
2.1.4 分布式爬虫	第14-15页
2.2 基于服务器API接口的信息采集	第15-17页
2.2.1 新浪微博API	第15-16页
2.2.2 OAuth2.0用户身份认证	第16-17页
2.3 Web信息抽取	第17-18页
2.3.1 DOM	第17页
2.3.2 Xpath	第17-18页
2.4 用户影响力评价	第18-21页
2.4.1 PageRank	第18-20页
2.4.2 K-shell算法	第20-21页
2.4.3 无用链接检测技术	第21页
2.5 本章小结	第21-22页
第三章基于HITS算法的微博用户影响力评价方法及改进	第22-28页
3.1 HITS算法的原理	第22页
3.2 HITS算法的不足	第22-23页
3.3 改进HITS算法的步骤	第23-25页
3.4 改进HITS算法的实验结果分析	第25-27页
3.5 本章小结	第27-28页
第四章系统需求分析与设计	第28-44页
4.1 系统目标	第28-29页
4.2 系统需求分析	第29-31页
4.2.1 系统功能性需求分析	第29-30页
4.2.2 系统非功能性能需求	第30-31页
4.3 系统总体设计	第31-32页
4.4 系统功能模块设计	第32-39页
4.4.1 获取授权模块设计	第33-35页
4.4.2 信息采集模块设计	第35-38页
4.4.3 数据处理模块设计	第38-39页
4.5 数据库设计	第39-42页
4.5.1 数据库的创建	第40页
4.5.2 概念模型	第40-41页
4.5.3 数据库表的设计	第41-42页
4.6 本章小结	第42-44页
第五章系统实现与测试	第44-51页
5.1 系统开发环境	第44-45页
5.2 信息采集模块	第45-47页
5.3 数据排序模块	第47-48页
5.4 系统测试	第48-50页
5.5 本章小结	第50-51页
第六章总结与展望	第51-52页
6.1 总结	第51页
6.2 展望	第51-52页
参考文献	第52-54页
致谢	第54页