首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于文本挖掘的新闻标题与内容契合度评价研究

摘要第5-6页
abstract第6页
第1章 绪论第10-16页
    1.1 研究背景及研究意义第10-11页
        1.1.1 研究背景第10页
        1.1.2 研究意义第10-11页
    1.2 国内外研究现状第11-13页
        1.2.1 国外研究现状第11-12页
        1.2.2 国内研究现状第12-13页
    1.3 研究内容与章节安排第13-15页
    1.4 创新点第15-16页
第2章 相关理论与技术第16-27页
    2.1 数据获取方法第16-19页
        2.1.1 网络爬虫和网页简介第16-17页
        2.1.2 爬虫工具介绍第17-18页
        2.1.3 新闻文本的保存形式第18-19页
    2.2 文本预处理第19-21页
        2.2.1 数据清洗第19页
        2.2.2 分词处理方法第19-20页
        2.2.3 新闻词库的建立第20页
        2.2.4 停用词删除方法第20-21页
    2.3 文本表示模型第21-22页
    2.4 主题模型介绍第22-24页
        2.4.1 LDA主题模型第22-23页
        2.4.2 主题模型求解第23-24页
    2.5 相似度概念第24-27页
        2.5.1 文本相似度第24-25页
        2.5.2 相似度的计算方法第25-27页
第3章 文本处理模型第27-30页
    3.1 问题提出与建模思路第27页
    3.2 LDA主题词提取第27-29页
    3.3 主题词抽取评价第29-30页
第4章 标题-内容契合度设计第30-32页
    4.1 契合度概念第30页
    4.2 契合度评价指标第30-32页
第5章 实证分析第32-41页
    5.1 数据采集与预处理第32-34页
        5.1.1 数据采集第32-33页
        5.1.2 数据预处理第33-34页
    5.2 主题模型建模第34-35页
        5.2.1 数据标记说明第34页
        5.2.2 LDA开源代码简介第34-35页
        5.2.3 两种建模实现比较第35页
    5.3 主题词提取与评价第35-37页
        5.3.1 主题词的提取第35-37页
        5.3.2 主题词提取评价第37页
    5.4 标题与主题词契合度计算第37-38页
    5.5 契合度评价分析第38-40页
    5.6 小结第40-41页
结论第41-42页
    总结第41页
    未来展望第41-42页
参考文献第42-44页
致谢第44-45页

论文共45页,点击 下载论文
上一篇:媒介话语视域下,《奇葩说》节目“马晓康”主持团的话语呈现
下一篇:我国图书情报学学科交叉计量分析