摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第9-17页 |
1.1 背景与意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-14页 |
1.2.1 空间数据挖掘 | 第10-11页 |
1.2.2 k-means聚类算法研究现状 | 第11-13页 |
1.2.3 自媒体数据挖掘研究现状 | 第13-14页 |
1.3 研究目标与研究内容 | 第14-15页 |
1.4 论文结构 | 第15-17页 |
第2章 网络自媒体位置数据抓取策略研究 | 第17-29页 |
2.1 基于微博开放平台API的微博数据获取 | 第17-19页 |
2.2 网络爬虫技术简介 | 第19-21页 |
2.2.1 网络爬虫工作流程 | 第20-21页 |
2.3 Scrapy爬虫框架 | 第21-23页 |
2.3.1 Scrapy组件简介 | 第22-23页 |
2.3.2 Scrapy工作流程 | 第23页 |
2.4 NoSQL数据库 | 第23-24页 |
2.4.1 NoSQL数据库的分类 | 第23-24页 |
2.4.2 MongoDB数据库 | 第24页 |
2.5 基于Scrapy框架的微博爬虫实现——以新浪微博为例 | 第24-29页 |
2.5.1 新浪微博爬虫数据内容 | 第24-25页 |
2.5.2 新浪微博爬虫网页抓取组件 | 第25-26页 |
2.5.3 数据存储模块 | 第26页 |
2.5.4 反爬虫研究 | 第26-27页 |
2.5.5 爬虫运行与数据库可视化 | 第27-29页 |
第3章 分布式平台Hadoop简介 | 第29-39页 |
3.1 hadoop概述 | 第29-31页 |
3.1.1 Hadoop平台的构成 | 第29-30页 |
3.1.2 Hadoop数据处理流程 | 第30-31页 |
3.2 HDFS分布式文件系统 | 第31-35页 |
3.2.1 HDFS的特性与原理 | 第32页 |
3.2.2 HDFS工作流程 | 第32-34页 |
3.2.3 Namenode和Datanode工作机制 | 第34页 |
3.2.4 HDFS优缺点 | 第34-35页 |
3.3 MapReduce并行机制研究 | 第35-39页 |
3.3.1 MapReduce结构与运行流程 | 第35-36页 |
3.3.2 MapTask、ReduceTask并行度研究 | 第36-37页 |
3.3.3 MapReduce的shuffle流程 | 第37页 |
3.3.4 Yarn对MapReduce的资源调度 | 第37-39页 |
第4章 Mahout与K-means算法 | 第39-52页 |
4.1 k-means算法研究 | 第39-45页 |
4.1.1 K-means核心思想与算法流程 | 第40-41页 |
4.1.2 聚类算法中的距离测度选择 | 第41-42页 |
4.1.3 k-means算法的并行化研究 | 第42-44页 |
4.1.4 k-means算法的缺点 | 第44-45页 |
4.2 K-means算法优化与Canopy | 第45-46页 |
4.2.1 Canopy生成算法流程 | 第45-46页 |
4.2.2 Canopy生成算法对k-means聚类优化评估 | 第46页 |
4.3 基于Mahout的k-means聚类研究——以文本为例 | 第46-52页 |
4.3.1 生成输入数据 | 第47-48页 |
4.3.2 基于n-gram的TF-IDF加权算法 | 第48-49页 |
4.3.3 运行k-means聚类 | 第49-50页 |
4.3.4 k-means聚类结果分析 | 第50-52页 |
第5章 面向微博位置数据的空间聚类分析 | 第52-70页 |
5.1 数据预处理 | 第53-56页 |
5.1.1 文本分词——停用词与新增词库 | 第54-55页 |
5.1.2 样本集序列化(向量化) | 第55-56页 |
5.2 执行mahout下的K-means中文聚类 | 第56-61页 |
5.2.1 k-means聚类实验 | 第57-58页 |
5.2.2 Canopy优化k-means聚类 | 第58-60页 |
5.2.3 K-means算法与C-means算法对比 | 第60-61页 |
5.3 结合空间位置信息的用户相似性评价 | 第61-65页 |
5.3.1 文本相似性计算 | 第62-63页 |
5.3.2 可视化展示 | 第63-65页 |
5.4 基于聚类结果的热点分析——以商圈主题类簇为例 | 第65-68页 |
5.4.1 核密度分析 | 第65-67页 |
5.4.2 渔网栅格化分析 | 第67-68页 |
5.5 实验总结 | 第68-70页 |
第6章 总结与展望 | 第70-72页 |
6.1 论文总结 | 第70页 |
6.2 展望 | 第70-72页 |
参考文献 | 第72-74页 |
致谢 | 第74-75页 |