基于微博的数据获取与过滤技术研究

摘要	第5-6页
Abstract	第6-7页
1 绪论	第11-16页
1.1 研究背景及意义	第11-12页
1.2 国内外研究现状	第12-14页
1.2.1 微博数据获取方法的研究	第12-13页
1.2.2 基于文本分类的数据过滤方法研究	第13-14页
1.3 论文研究内容	第14-15页
1.4 论文组织及结构	第15-16页
2 微博研究背景基础与相关理论基础	第16-28页
2.1 微博背景及发展现状	第16页
2.2 意见领袖的选取	第16-18页
2.3 网络文本获取技术	第18-23页
2.3.1 网络爬虫简介	第18-19页
2.3.2 爬虫基本步骤及爬取策略	第19-20页
2.3.3 常用网络爬虫简介	第20-23页
2.4 文本分类	第23-28页
2.4.1 文本分词	第24页
2.4.2 特征选择	第24-25页
2.4.3 传统文本分类模型	第25-28页
3 基于微博的数据获取方法	第28-40页
3.1 基于微博开放平台API	第28-32页
3.1.1 微博开放平台使用流程	第28-29页
3.1.2 授权机制	第29-31页
3.1.3 授权有效期	第31页
3.1.4 微博API	第31-32页
3.2 定向网络爬虫	第32-37页
3.2.1 模拟登录	第33-35页
3.2.2 网络爬虫数据获取	第35-37页
3.3 基于关注-分组模式	第37-40页
3.3.1 微博关注特点	第37页
3.3.2 微博分组功能	第37页
3.3.3 关注-分组接收机	第37-40页
4 基于微博的数据过滤方法	第40-48页
4.1 文本分类流程	第40-41页
4.2 支持向量机分类器	第41-48页
4.2.1 SVM简介与思想	第41-42页
4.2.2 最优超平面	第42-43页
4.2.3 线性可分SVM	第43-44页
4.2.4 线性不可分SVM	第44-45页
4.2.5 非线性可分SVM	第45页
4.2.6 核函数	第45-46页
4.2.7 SVM使用步骤	第46-47页
4.2.8 SVM优缺点	第47-48页
5 基于微博的数据获取与过滤系统设计与实现	第48-66页
5.1 系统介绍与整体框架	第48-49页
5.2 意见领袖选取模块	第49页
5.3 数据获取模块	第49-57页
5.3.1 基于微博API数据获取	第49-52页
5.3.2 基于定向网络爬虫数据获取	第52-56页
5.3.3 基于关注-分组模式自动接收数据获取	第56-57页
5.4 微博数据抓取内容	第57-58页
5.5 数据过滤模块	第58-60页
5.6 系统实验与分析	第60-66页
5.6.1 实验环境和实验数据	第60页
5.6.2 实验结果及分析	第60-66页
6 总结和展望	第66-68页
6.1 本文工作总结	第66页
6.2 展望	第66-68页
致谢	第68-69页
参考文献	第69-71页
硕士研究生阶段取得的主要成果	第71页