首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Hadoop的中文微博热点话题发现方法研究

摘要第5-6页
Abstract第6-7页
第1章 引言第12-16页
    1.1 研究背景和意义第12-13页
        1.1.1 微博的发展与特点第12-13页
        1.1.2 微博热点话题发现的意义第13页
    1.2 国内外研究现状第13-15页
    1.3 论文结构第15页
    1.4 本章小结第15-16页
第2章 相关工作与技术综述第16-32页
    2.1 Hadoop平台第16-20页
        2.1.1 分布式文件系统HDFS第16-18页
        2.1.2 MapReduce分布式计算第18-20页
    2.2 微博爬虫爬取数据第20-21页
        2.2.1 网络爬虫第20-21页
        2.2.2 新浪微博API接口第21页
    2.3 话题检测与跟踪技术第21-22页
        2.3.1 话题检测第22页
        2.3.2 话题跟踪第22页
    2.4 中文分词技术第22-23页
    2.5 微博文本特征的提取第23-26页
        2.5.1 文本表示模型第23-24页
        2.5.2 TF-IDF算法第24-25页
        2.5.3 特征降维第25-26页
    2.6 相似度计算与聚类算法第26-30页
        2.6.1 文本相似度计算第26-27页
        2.6.2 聚类算法第27-30页
    2.7 本章小结第30-32页
第3章 微博文本建模第32-48页
    3.1 微博网络爬虫第32-36页
        3.1.1 微博文本的特点第32页
        3.1.2 定制微博爬虫第32-35页
        3.1.3 微博文本预处理第35-36页
    3.2 微博热度值计算第36-39页
        3.2.1 基于微博元数据的热度计算第37页
        3.2.2 基于时间变化的微博热度计算第37-39页
    3.3 LDA微博建模第39-43页
        3.3.1 LDA生成模型建模第39-40页
        3.3.2 吉布斯采样算法第40页
        3.3.3 使用吉布斯采样算法求解LDA第40-42页
        3.3.4 LDA潜在主题数的确定第42-43页
    3.4 基于MapReduce的并行吉布斯采样算法第43-47页
        3.4.1 基于MapReduce的并行吉布斯采样算法的设计第43-44页
        3.4.2 基于MapReduce的并行吉布斯采样算法的具体实现第44-47页
    3.5 本章小结第47-48页
第4章 微博热点话题发现第48-64页
    4.1 微博文本相似度的计算第48页
    4.2 文本聚类算法的比较及选取第48-49页
        4.2.1 聚类算法评价标准第48-49页
        4.2.2 分布式文本聚类算法选择第49页
    4.3 BHK-means算法的提出第49-54页
        4.3.1 黑洞算法简介第49-50页
        4.3.2 黑洞算法寻优过程第50页
        4.3.3 黑洞算法框架第50-51页
        4.3.4 BHK-means算法第51-54页
    4.4 基于MapReduce的并行BHK-means算法第54-61页
        4.4.1 基于MapReduce的并行BHK-means算法的设计第54-55页
        4.4.2 基于MapReduce的并行BHK-means算法流程第55-57页
        4.4.3 基于MapReduce的并行BHK-means算法的具体实现第57-61页
    4.5 基于LDA与微博热度的簇内话题词提取第61-63页
        4.5.1 话题词提取要求第61-62页
        4.5.2 簇内话题词提取方法第62-63页
    4.6 本章小结第63-64页
第5章 系统实现与实验分析第64-76页
    5.1 微博热点话题发现系统第64-69页
        5.1.1 系统实现平台第64页
        5.1.2 系统实现流程第64-65页
        5.1.3 系统运行参数第65页
        5.1.4 微博热点话题发现系统运行结果第65-69页
    5.2 实验评价方法第69-71页
        5.2.1 热点微博提取效率评价第69页
        5.2.2 聚类算法精确度评价方法第69-70页
        5.2.3 算法并行化评价方法第70-71页
    5.3 LDA建模实验结果与性能评估第71-73页
        5.3.1 LDA建模对聚类质量的提升第71-72页
        5.3.2 并行吉布斯采样算法加速比实验第72-73页
    5.4 BHK-means算法实验结果与性能评估第73-75页
        5.4.1 BHK-means算法精确性实验第73-74页
        5.4.2 并行BHK-means算法加速比实验第74-75页
    5.5 话题词提取实验第75页
    5.6 本章小结第75-76页
第6章 总结与展望第76-78页
    6.1 论文工作总结第76-77页
    6.2 后续工作展望第77-78页
参考文献第78-84页
致谢第84页

论文共84页,点击 下载论文
上一篇:基于最小作用量原理的纳米颗粒操作建模研究
下一篇:航空安全管理系统设计与实现