首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于爬虫和LDA的新闻话题挖掘

摘要第5-6页
abstract第6页
第1章 绪论第10-15页
    1.1 研究背景和意义第10页
    1.2 国内外研究现状及分析第10-12页
        1.2.1 新闻话题挖掘第10-11页
        1.2.2 网络爬虫技术第11页
        1.2.3 主题模型第11-12页
    1.3 主要研究内容第12-13页
    1.4 论文组织结构第13页
    1.5 本章小结第13-15页
第2章 相关知识第15-24页
    2.1 贝叶斯方法第15-16页
        2.1.1 贝叶斯分析第15页
        2.1.2 狄利克雷分布第15-16页
        2.1.3 共轭分布第16页
    2.2 网络爬虫第16-19页
        2.2.1 爬虫原理第17-18页
        2.2.2 Robots协议第18-19页
        2.2.3 URL查重第19页
    2.3 LDA模型第19-23页
        2.3.1 LDA模型介绍第19-21页
        2.3.2 MCMC与吉布斯采样第21-22页
        2.3.3 LDA的主题个数第22-23页
    2.4 本章小结第23-24页
第3章 分布式新闻爬虫的设计第24-36页
    3.1 Hadoop平台介绍第24-26页
        3.1.1 HDFS文件系统第24-25页
        3.1.2 Mapreduce编程模型第25-26页
    3.2 新闻爬虫的流程第26-27页
    3.3 新闻爬虫的功能模块第27-32页
        3.3.1 控制模块第27页
        3.3.2 网页下载模块第27-28页
        3.3.3 新闻提取模块第28-30页
        3.3.4 URL解析模块第30-31页
        3.3.5 URL过滤模块第31-32页
    3.4 实验平台的搭建第32-33页
        3.4.1 软硬件环境第32页
        3.4.2 软件环境搭建第32页
        3.4.3 Hadoop集群的部署第32-33页
    3.5 实验结果第33-34页
    3.6 本章小结第34-36页
第4章 基于LDA的新闻话题挖掘第36-46页
    4.1 文本预处理第36-37页
        4.1.1 中文分词第36-37页
        4.1.2 TF-IDF权值第37页
    4.2 吉布斯采样公式的推导第37-39页
    4.3 新闻话题抽取第39-42页
        4.3.1 话题热点词第39-40页
        4.3.2 话题相关的新闻第40-41页
        4.3.3 话题的热度第41页
        4.3.4 话题抽取的流程第41-42页
    4.4 新文档的话题预测第42-43页
    4.5 实验结果与分析第43-45页
    4.6 本章小结第45-46页
第5章 新闻话题挖掘系统的设计与实现第46-51页
    5.1 系统总体设计第46-47页
    5.2 系统详细设计第47-50页
        5.2.1 话题挖掘第47-48页
        5.2.2 信息存储第48页
        5.2.3 用户界面第48-50页
    5.3 本章小结第50-51页
第6章 总结与展望第51-52页
    6.1 本文总结第51页
    6.2 工作展望第51-52页
参考文献第52-55页
致谢第55页

论文共55页,点击 下载论文
上一篇:云环境下基于多授权中心CP-ABE的访问控制研究
下一篇:基于改进蝙蝠算法的无模板模型追踪水下图像复原