摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第11-18页 |
1.1 课题研究的背景和意义 | 第11-12页 |
1.1.1 课题研究的背景 | 第11-12页 |
1.1.2 课题研究的意义 | 第12页 |
1.2 句子相似度计算研究现状 | 第12-17页 |
1.2.1 国外研究现状 | 第12-14页 |
1.2.2 国内研究现状 | 第14-15页 |
1.2.3“标题党”现象国内外现状 | 第15-17页 |
1.3 本文的研究内容及结构安排 | 第17-18页 |
第2章 句子语义相似度计算的相关基础 | 第18-29页 |
2.1 句子语义相似度基本概念 | 第18-22页 |
2.1.1 汉语句子语义相似度计算特点 | 第19-20页 |
2.1.2 句子语义相似度计算常用方法 | 第20-22页 |
2.2 新闻数据采集 | 第22-24页 |
2.2.1 基于web-magic爬虫的数据采集 | 第22-23页 |
2.2.2 模型数据采样方式 | 第23-24页 |
2.3 新闻数据预处理 | 第24-26页 |
2.3.1 错误数据预处理 | 第24-25页 |
2.3.2 噪声数据预处理 | 第25-26页 |
2.4 新闻数据相似度计算模型 | 第26-27页 |
2.5“标题党”新闻鉴别模型评价指标 | 第27-28页 |
2.6 本章小结 | 第28-29页 |
第3章 基于语义的句子相似度计算方法 | 第29-43页 |
3.1 汉语句子语义相似度计算改进算法 | 第29-30页 |
3.2 汉语自动分词算法 | 第30-32页 |
3.2.1 常用分词算法概述 | 第30-31页 |
3.2.2 采用AnsjSeg算法进行语料分词 | 第31-32页 |
3.3 语料模型训练 | 第32-36页 |
3.3.1 Word2Vec概述 | 第32-36页 |
3.3.2 基于Word2Vec词向量训练及结果 | 第36页 |
3.4 语料分类及二次模型训练 | 第36-39页 |
3.4.1 K-Means聚类算法概述 | 第37-38页 |
3.4.2 基于K-Means聚类的语料分类训练 | 第38-39页 |
3.5 句子语义相似度计算及其优化结果分析 | 第39-41页 |
3.5.1 句子相似度计算流程步骤 | 第39-40页 |
3.5.2 计算结果及分析 | 第40-41页 |
3.6 本章小结 | 第41-43页 |
第4章 句子语义相似度计算的应用 | 第43-54页 |
4.1 新闻主题句提取算法 | 第43-47页 |
4.1.1 常用主题句提取算法 | 第43页 |
4.1.2 基于句子语义相似度的主题句提取算法 | 第43-47页 |
4.2“标题党”新闻鉴别算法 | 第47-49页 |
4.3 K-Means的K值和“标题党”新闻阈值最优调参实验 | 第49-52页 |
4.3.1 K-Means聚类算法K值最优调参实验 | 第49-50页 |
4.3.2 主题句相似度阈值Q最优调参实验 | 第50-52页 |
4.4 新闻实例测试结果及分析 | 第52-53页 |
4.5 本章小结 | 第53-54页 |
第5章“标题党”新闻鉴别应用软件设计 | 第54-64页 |
5.1 鉴别软件需求分析 | 第54-55页 |
5.1.1 整体功能需求分析 | 第54-55页 |
5.1.2 功能模块分析 | 第55页 |
5.2 系统开发环境选择和技术选型 | 第55-58页 |
5.3 主要功能模块实现 | 第58-62页 |
5.3.1 鉴别参数设置模块 | 第59-60页 |
5.3.2 模型训练模块 | 第60-61页 |
5.3.3“标题党”新闻鉴别模块 | 第61-62页 |
5.4 新闻实例鉴别 | 第62-63页 |
5.5 本章小结 | 第63-64页 |
第6章 总结和展望 | 第64-66页 |
6.1 全文总结 | 第64页 |
6.2 进一步研究展望 | 第64-66页 |
参考文献 | 第66-69页 |
致谢 | 第69页 |