首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于微博热词挖掘的新闻话题提取研究

摘要第5-6页
Abstract第6-7页
插图索引第10-11页
附表索引第11-12页
第1章 绪论第12-18页
    1.1 研究目的和意义第12-14页
        1.1.1 研究的目的第12页
        1.1.2 研究的意义第12-14页
    1.2 国内外研究现状第14-16页
        1.2.1 国外研究现状第14-15页
        1.2.2 国内研究现状第15-16页
    1.3 研究目标、组织结构及主要内容第16-18页
        1.3.1 研究目标第16-17页
        1.3.2 论文组织结构及主要内容第17-18页
第2章 基础理论及相关技术分析第18-26页
    2.1 微博及数据特点分析第18-20页
        2.1.1 微博简介第18-19页
        2.1.2 微博数据特点分析第19-20页
    2.2 常用微博热词发现方法第20-21页
    2.3 网页文本抽取及网络爬虫第21-23页
        2.3.1 PAT-Tree 技术第21-22页
        2.3.2 网页文本抽取技术第22-23页
    2.4 文本聚类和分类第23-25页
        2.4.1 文本信息聚类第23-24页
        2.4.2 文本信息分类第24-25页
    2.5 本章小结第25-26页
第3章 微博数据采集及文本预处理第26-39页
    3.1 网络爬虫的设计与实现第26-32页
        3.1.1 动态页面网络爬虫算法第26-29页
        3.1.2 网页文本信息抽取第29-31页
        3.1.3 对比分析第31-32页
    3.2 微博数据采集第32-35页
        3.2.1 新浪微博开放平台第32-33页
        3.2.2 OAuth 2.0 协议第33-34页
        3.2.3 基于新浪 API 获取微博数据第34-35页
    3.3 文本预处理第35-37页
        3.3.1 分词处理第35-36页
        3.3.2 ICTCLAS 系统分词第36-37页
        3.3.3 去停用词第37页
    3.4 文本特征选择及表示第37-38页
    3.5 本章小结第38-39页
第4章 微博热词的挖掘与新闻话题的提取第39-51页
    4.1 文本表示模型第39-40页
    4.2 文本相似度计算第40-41页
    4.3 微博信息过滤第41-43页
        4.3.1 过滤重复微博第41-42页
        4.3.2 过滤广告微博第42-43页
    4.4 基于 LDA 的概率主体模型第43-47页
        4.4.1 概率主题模型分析第43-44页
        4.4.2 LDA 文档建模第44-45页
        4.4.3 确定最优参数第45页
        4.4.4 热度计算第45-47页
    4.5 实验结果分析第47-50页
        4.5.1 数据准备第47页
        4.5.2 测评方法第47-48页
        4.5.3 结果分析第48-50页
    4.6 本章小结第50-51页
结论第51-53页
参考文献第53-56页
致谢第56页

论文共56页,点击 下载论文
上一篇:中西医疗法在妇科腹腔镜术深静脉血栓预防中的实证研究
下一篇:自体富血小板凝胶治疗糖尿病足的Meta分析