摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第一章 绪论 | 第11-17页 |
1.1 研究背景 | 第11-12页 |
1.2 研究意义 | 第12-13页 |
1.3 研究现状 | 第13-15页 |
1.4 论文的主要研究内容 | 第15-16页 |
1.5 论文的章节安排 | 第16-17页 |
第二章 中文新词发现相关理论及框架结构建立 | 第17-29页 |
2.1 现代中文的语义结构 | 第17-18页 |
2.2 面向计算机识别的中文新词定义及特征确定 | 第18-21页 |
2.2.1 中文新词特征分析 | 第19-21页 |
2.3 中文新词识别方法介绍 | 第21-25页 |
2.3.1 基于监督学习的新词识别方法 | 第21-23页 |
2.3.2 基于无监督学习的新词识别方法 | 第23-25页 |
2.4 中文新词发现框架结构建立 | 第25-27页 |
2.5 本章小结 | 第27-29页 |
第三章 初始语料库字符串预处理过程分析 | 第29-35页 |
3.1 初始语料库字符串预处理流程 | 第29-30页 |
3.2 基于jieba的中文分词预处理过程 | 第30-32页 |
3.2.1 基于jieba的分词模式选择 | 第30-31页 |
3.2.2 停用词处理 | 第31-32页 |
3.3 基于N-gram模型的滑动扫描窗格 | 第32-33页 |
3.4 本章小结 | 第33-35页 |
第四章 基于组合频率的中文新词发现算法及关键阈值指标体系建立 | 第35-47页 |
4.1 中文新词发现算法核心思路 | 第35-36页 |
4.2 中文新词发现算法关键阈值指标体系建立 | 第36-45页 |
4.2.1 基于组合频率的词内聚合程度 | 第36-40页 |
4.2.2 基于信息熵的词间组合程度 | 第40-44页 |
4.2.3 逆向文档频率 | 第44-45页 |
4.3 本章小结 | 第45-47页 |
第五章 中文新词发现实验设置和结果分析 | 第47-59页 |
5.1 基于TF-IDF算法的对比实验设置 | 第47-49页 |
5.2 新词发现结果评价标准 | 第49-50页 |
5.3 新词发现实验设置及结果分析 | 第50-58页 |
5.3.1 实验流程 | 第50-52页 |
5.3.2 基于Scrapy的实验设计及实现 | 第52-56页 |
5.3.3 实验结果分析 | 第56-58页 |
5.4 本章小结 | 第58-59页 |
第六章 总结与展望 | 第59-61页 |
6.1 全文总结 | 第59-60页 |
6.2 展望 | 第60-61页 |
参考文献 | 第61-65页 |
致谢 | 第65-67页 |
攻读硕士学位期间发表的学术论文 | 第67页 |