首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

面向网络自媒体的空间数据挖掘研究

摘要第4-5页
ABSTRACT第5页
第1章 绪论第9-17页
    1.1 背景与意义第9-10页
    1.2 国内外研究现状第10-14页
        1.2.1 空间数据挖掘第10-11页
        1.2.2 k-means聚类算法研究现状第11-13页
        1.2.3 自媒体数据挖掘研究现状第13-14页
    1.3 研究目标与研究内容第14-15页
    1.4 论文结构第15-17页
第2章 网络自媒体位置数据抓取策略研究第17-29页
    2.1 基于微博开放平台API的微博数据获取第17-19页
    2.2 网络爬虫技术简介第19-21页
        2.2.1 网络爬虫工作流程第20-21页
    2.3 Scrapy爬虫框架第21-23页
        2.3.1 Scrapy组件简介第22-23页
        2.3.2 Scrapy工作流程第23页
    2.4 NoSQL数据库第23-24页
        2.4.1 NoSQL数据库的分类第23-24页
        2.4.2 MongoDB数据库第24页
    2.5 基于Scrapy框架的微博爬虫实现——以新浪微博为例第24-29页
        2.5.1 新浪微博爬虫数据内容第24-25页
        2.5.2 新浪微博爬虫网页抓取组件第25-26页
        2.5.3 数据存储模块第26页
        2.5.4 反爬虫研究第26-27页
        2.5.5 爬虫运行与数据库可视化第27-29页
第3章 分布式平台Hadoop简介第29-39页
    3.1 hadoop概述第29-31页
        3.1.1 Hadoop平台的构成第29-30页
        3.1.2 Hadoop数据处理流程第30-31页
    3.2 HDFS分布式文件系统第31-35页
        3.2.1 HDFS的特性与原理第32页
        3.2.2 HDFS工作流程第32-34页
        3.2.3 Namenode和Datanode工作机制第34页
        3.2.4 HDFS优缺点第34-35页
    3.3 MapReduce并行机制研究第35-39页
        3.3.1 MapReduce结构与运行流程第35-36页
        3.3.2 MapTask、ReduceTask并行度研究第36-37页
        3.3.3 MapReduce的shuffle流程第37页
        3.3.4 Yarn对MapReduce的资源调度第37-39页
第4章 Mahout与K-means算法第39-52页
    4.1 k-means算法研究第39-45页
        4.1.1 K-means核心思想与算法流程第40-41页
        4.1.2 聚类算法中的距离测度选择第41-42页
        4.1.3 k-means算法的并行化研究第42-44页
        4.1.4 k-means算法的缺点第44-45页
    4.2 K-means算法优化与Canopy第45-46页
        4.2.1 Canopy生成算法流程第45-46页
        4.2.2 Canopy生成算法对k-means聚类优化评估第46页
    4.3 基于Mahout的k-means聚类研究——以文本为例第46-52页
        4.3.1 生成输入数据第47-48页
        4.3.2 基于n-gram的TF-IDF加权算法第48-49页
        4.3.3 运行k-means聚类第49-50页
        4.3.4 k-means聚类结果分析第50-52页
第5章 面向微博位置数据的空间聚类分析第52-70页
    5.1 数据预处理第53-56页
        5.1.1 文本分词——停用词与新增词库第54-55页
        5.1.2 样本集序列化(向量化)第55-56页
    5.2 执行mahout下的K-means中文聚类第56-61页
        5.2.1 k-means聚类实验第57-58页
        5.2.2 Canopy优化k-means聚类第58-60页
        5.2.3 K-means算法与C-means算法对比第60-61页
    5.3 结合空间位置信息的用户相似性评价第61-65页
        5.3.1 文本相似性计算第62-63页
        5.3.2 可视化展示第63-65页
    5.4 基于聚类结果的热点分析——以商圈主题类簇为例第65-68页
        5.4.1 核密度分析第65-67页
        5.4.2 渔网栅格化分析第67-68页
    5.5 实验总结第68-70页
第6章 总结与展望第70-72页
    6.1 论文总结第70页
    6.2 展望第70-72页
参考文献第72-74页
致谢第74-75页

论文共75页,点击 下载论文
上一篇:Arnold置乱变换图像加密算法研究
下一篇:新型水果榨汁机定位关键技术研究