基于领域特殊性和统计语言知识的新词抽取方法

摘要	第5-6页
Abstract	第6页
第1章绪论	第10-18页
1.1 研究背景	第10-11页
1.2 研究意义	第11-12页
1.3 研究现状	第12-15页
1.3.1 基于规则的方法	第12-13页
1.3.2 基于统计的方法	第13-14页
1.3.3 规则和统计相结合的方法	第14-15页
1.4 新词抽取的难点	第15-16页
1.5 本文的主要工作和创新点	第16-17页
1.5.1 本文的主要工作	第16页
1.5.2 创新点	第16-17页
1.6 本文的结构安排	第17-18页
第2章相关技术	第18-28页
2.1 基于普通统计特征的新词抽取方法	第18-21页
2.1.1 多种统计特征	第18-20页
2.1.2 统计特征的应用	第20-21页
2.2 基于SVM的新词发现模型	第21-22页
2.2.1 SVM的原理	第21页
2.2.2 SVM的常用核函数	第21-22页
2.3 基于HMM的新词发现模型	第22-23页
2.3.1 HMM在新词发现上的应用	第22页
2.3.2 HMM原理	第22-23页
2.4 基于CRF的新词发现模型	第23-24页
2.5 常用分词算法	第24-26页
2.5.1 基于字符串匹配的分词方法	第24-25页
2.5.2 基于统计的分词方法	第25-26页
2.5.3 基于理解的分词方法	第26页
2.5.4 分词方法的难点	第26页
2.6 本章小结	第26-28页
第3章基于领域特殊性和统计语言知识的新词抽取方法	第28-37页
3.1 新词特性分析	第28-29页
3.2 新词抽取方法概述	第29页
3.3 基于领域特殊性的垃圾串过滤	第29-31页
3.3.1 语料预处理	第30-31页
3.3.2 抽取n-gram	第31页
3.3.3 优化n-gram	第31页
3.3.4 基于领域特殊性的过滤算法	第31页
3.4 基于统计语言知识的新词抽取	第31-33页
3.4.1 词频	第32页
3.4.2 内部结合紧密性	第32-33页
3.4.3 统计特征的结合	第33页
3.5 实验分析	第33-35页
3.5.1 实验环境	第33页
3.5.2 数据集	第33-34页
3.5.3 评价标准	第34页
3.5.4 实验结果和分析	第34-35页
3.5.5 参数调整	第35页
3.6 方法的缺点	第35-36页
3.7 本章小结	第36-37页
第4章新词抽取方法的优化	第37-46页
4.1 统计特征的优化	第37-41页
4.1.1 词频	第37页
4.1.2 内部凝聚度	第37-38页
4.1.3 自由度	第38-40页
4.1.4 统计特征的结合	第40-41页
4.2 实验分析	第41-45页
4.2.1 实验结果和分析	第41-43页
4.2.2 不同统计特征的评估	第43-44页
4.2.3 参数调整	第44-45页
4.3 本章小结	第45-46页
第5章新词抽取方法的应用验证	第46-53页
5.1 新词抽取方法在中文分词系统中的应用	第46-48页
5.1.1 NLPIR分词系统简介	第46-47页
5.1.2 数据集	第47页
5.1.3 评价标准	第47页
5.1.4 实验结果和分析	第47-48页
5.2 英文领域词语的抽取	第48-52页
5.2.1 方法说明	第48-49页
5.2.2 数据集	第49页
5.2.3 评价标准	第49页
5.2.4 参数调整	第49-50页
5.2.5 实验结果和分析	第50-52页
5.3 本章小结	第52-53页
结论	第53-54页
参考文献	第54-58页
附录	第58-59页
攻读学位期间发表论文与研究成果清单	第59-60页
致谢	第60页