首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于大数据的互联网热点话题挖掘的研究与实现

摘要第5-6页
Abstract第6-7页
第一章 绪论第10-16页
    1.1 论文研究背景第10-11页
        1.1.1 研究背景第10页
        1.1.2 研究意义第10-11页
    1.2 国内外研究现状和分析第11-13页
    1.3 本文研究目标和主要研究范围第13-14页
        1.3.1 课题来源第13页
        1.3.2 研究目标第13-14页
        1.3.3 主要工作和创新点第14页
    1.4 本文的内容与组织架构第14-16页
第二章 相关理论和技术的研究与综述第16-23页
    2.1 网络爬虫技术第16-17页
    2.2 中文自然语言处理技术第17-18页
    2.3 聚类算法概述第18-20页
    2.4 Hadoop云平台第20-21页
        2.4.1 Map-Reduce计算框架第20-21页
        2.4.2 HBase数据库第21页
    2.5 本章小结第21-23页
第三章 海量互联网舆情信息的采集第23-35页
    3.1 新闻与博客报道正文信息的获取方法第23-29页
        3.1.1 新闻与博客站点网页内容结构分析第23-25页
        3.1.2 基于内容分布和DOM树结构的网页正文抽取算法第25-29页
    3.2 基于分布式框架的通用网络爬虫第29-34页
        3.2.1 通用的增量爬虫设计第29-31页
        3.2.2 基于M/S框架的分布式爬虫设计第31-34页
    3.3 本章小结第34-35页
第四章 基于大数据的热点话题发现与追踪第35-60页
    4.1 热点话题发现与追踪算法第35-50页
        4.1.1 基于ITF-IDF的互联网报道和话题建模第35-41页
        4.1.2 基于NE-VSM模型的相似度计算第41-43页
        4.1.3 基于话题能量模型的话题热度计算第43-44页
        4.1.4 基于朴素贝叶斯划分的三层聚类算法第44-50页
    4.2 基于Hadoop平台的话题聚类算法实现第50-59页
        4.2.1 基于Map-Reduce的三层聚类算法实现第52-56页
        4.2.2 基于NoSQL数据库的数据持久化第56-59页
    4.3 本章小结第59-60页
第五章 热点话题平台的实现与展示第60-86页
    5.1 实现概述第60-61页
    5.2 方案测试与分析第61-72页
        5.2.1 爬虫方案正确性测试第61-65页
        5.2.2 聚类算法有效性测试第65-69页
        5.2.3 分类算法有效性测试第69-71页
        5.2.4 Map-Reduce聚类性能测试第71-72页
    5.3 热点话题分析平台的设计与实现第72-78页
        5.3.1 系统架构第72-73页
        5.3.2 模块架构第73-78页
    5.4 热点话题分析平台展示第78-84页
        5.4.1 系统首页第78页
        5.4.2 爬虫站点统计分析展示第78-80页
        5.4.3 舆情话题汇总展示第80-81页
        5.4.4 话题详情页第81-84页
    5.5 本章小结第84-86页
第六章 结论与展望第86-89页
    6.1 研究工作总结第86-87页
    6.2 工作展望第87-89页
参考文献第89-92页
攻读硕士学位期间取得的研究成果第92-93页
致谢第93-94页
答辩委员签名的答辩决议书第94页

论文共94页,点击 下载论文
上一篇:新型农村社会养老保险基金预算管理研究
下一篇:新故事家吴文昶的研究