首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Spark的Web文本挖掘系统的研究与实现

摘要第4-6页
Abstract第6-7页
第1章 绪论第11-15页
    1.1 研究背景第11-12页
    1.2 研究现状第12-13页
        1.2.1 文本挖掘第12页
        1.2.2 大数据技术第12-13页
    1.3 文章内容及意义第13-14页
    1.4 文章结构第14-15页
第2章 相关知识与技术介绍第15-25页
    2.1 文本挖掘第15-17页
    2.2 并行计算框架Spark第17-20页
        2.2.1 Spark生态圈第17-18页
        2.2.2 运行架构及计算模型第18-19页
        2.2.3 优势分析第19-20页
    2.3 分布式文件系统HDFS第20-21页
    2.4 其他相关知识及技术第21-24页
        2.4.1 网络爬虫第21-22页
        2.4.2 文本信息可视化第22-23页
        2.4.3 机器学习第23-24页
    2.5 本章小结第24-25页
第3章 Web文本挖掘算法研究第25-35页
    3.1 文本挖掘算法概述第25-26页
    3.2 TF-IDF算法第26-29页
        3.2.1 TF-IDF算法简介第26页
        3.2.2 TF-IDF算法改进第26-27页
        3.2.3 TF-IDF并行化研究第27-29页
    3.3 LDA主题模型第29-34页
        3.3.1 LDA模型原理第29-31页
        3.3.2 Gibbs采样法推导LDA第31-33页
        3.3.3 Labeled-LDA主题模型第33-34页
    3.4 本章小结第34-35页
第4章 基于Spark的Web文本挖掘系统总体设计第35-42页
    4.1 系统功能需求第35-37页
        4.1.1 Web文本采集第35页
        4.1.2 文本分析第35-36页
        4.1.3 结果展示第36页
        4.1.4 数据存储第36-37页
    4.2 系统概要设计第37-41页
        4.2.1 系统架构设计第37-38页
        4.2.2 模块划分及技术选型第38-39页
        4.2.3 数据处理逻辑第39-40页
        4.2.4 界面设计第40-41页
    4.3 本章小结第41-42页
第5章 基于Spark的Web文本挖掘系统详细设计与实现第42-57页
    5.1 环境搭建及部署第42页
    5.2 系统详细设计与实现第42-53页
        5.2.1 信息采集模块第43-46页
        5.2.2 文本分析模块第46-50页
        5.2.3 文本信息可视化模块第50-53页
    5.3 操作示例及运行结果第53-55页
    5.4 本章小结第55-57页
第6章 总结与展望第57-59页
    6.1 本文总结第57-58页
    6.2 展望第58-59页
参考文献第59-61页
作者简介第61-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:国际油价波动对石油公司绩效影响研究
下一篇:风险投资对科技型上市公司技术创新能力影响研究