句子语义相似度计算方法研究及其应用

摘要	第5-7页
ABSTRACT	第7-8页
第1章绪论	第11-18页
1.1 课题研究的背景和意义	第11-12页
1.1.1 课题研究的背景	第11-12页
1.1.2 课题研究的意义	第12页
1.2 句子相似度计算研究现状	第12-17页
1.2.1 国外研究现状	第12-14页
1.2.2 国内研究现状	第14-15页
1.2.3“标题党”现象国内外现状	第15-17页
1.3 本文的研究内容及结构安排	第17-18页
第2章句子语义相似度计算的相关基础	第18-29页
2.1 句子语义相似度基本概念	第18-22页
2.1.1 汉语句子语义相似度计算特点	第19-20页
2.1.2 句子语义相似度计算常用方法	第20-22页
2.2 新闻数据采集	第22-24页
2.2.1 基于web-magic爬虫的数据采集	第22-23页
2.2.2 模型数据采样方式	第23-24页
2.3 新闻数据预处理	第24-26页
2.3.1 错误数据预处理	第24-25页
2.3.2 噪声数据预处理	第25-26页
2.4 新闻数据相似度计算模型	第26-27页
2.5“标题党”新闻鉴别模型评价指标	第27-28页
2.6 本章小结	第28-29页
第3章基于语义的句子相似度计算方法	第29-43页
3.1 汉语句子语义相似度计算改进算法	第29-30页
3.2 汉语自动分词算法	第30-32页
3.2.1 常用分词算法概述	第30-31页
3.2.2 采用AnsjSeg算法进行语料分词	第31-32页
3.3 语料模型训练	第32-36页
3.3.1 Word2Vec概述	第32-36页
3.3.2 基于Word2Vec词向量训练及结果	第36页
3.4 语料分类及二次模型训练	第36-39页
3.4.1 K-Means聚类算法概述	第37-38页
3.4.2 基于K-Means聚类的语料分类训练	第38-39页
3.5 句子语义相似度计算及其优化结果分析	第39-41页
3.5.1 句子相似度计算流程步骤	第39-40页
3.5.2 计算结果及分析	第40-41页
3.6 本章小结	第41-43页
第4章句子语义相似度计算的应用	第43-54页
4.1 新闻主题句提取算法	第43-47页
4.1.1 常用主题句提取算法	第43页
4.1.2 基于句子语义相似度的主题句提取算法	第43-47页
4.2“标题党”新闻鉴别算法	第47-49页
4.3 K-Means的K值和“标题党”新闻阈值最优调参实验	第49-52页
4.3.1 K-Means聚类算法K值最优调参实验	第49-50页
4.3.2 主题句相似度阈值Q最优调参实验	第50-52页
4.4 新闻实例测试结果及分析	第52-53页
4.5 本章小结	第53-54页
第5章“标题党”新闻鉴别应用软件设计	第54-64页
5.1 鉴别软件需求分析	第54-55页
5.1.1 整体功能需求分析	第54-55页
5.1.2 功能模块分析	第55页
5.2 系统开发环境选择和技术选型	第55-58页
5.3 主要功能模块实现	第58-62页
5.3.1 鉴别参数设置模块	第59-60页
5.3.2 模型训练模块	第60-61页
5.3.3“标题党”新闻鉴别模块	第61-62页
5.4 新闻实例鉴别	第62-63页
5.5 本章小结	第63-64页
第6章总结和展望	第64-66页
6.1 全文总结	第64页
6.2 进一步研究展望	第64-66页
参考文献	第66-69页
致谢	第69页