面向互联网数据的新词发现平台的设计与实现
摘要 | 第4-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第10-18页 |
1.1 课题背景及研究的目的和意义 | 第10-11页 |
1.2 与本课题有关的国内外研究状况 | 第11-16页 |
1.2.1 新词的研究领域 | 第11页 |
1.2.2 中文新词发现现状 | 第11-12页 |
1.2.3 新词发现主要研究方法 | 第12-16页 |
1.3 本文的主要研究内容和章节安排 | 第16-18页 |
第2章 新词发现平台需求分析 | 第18-24页 |
2.1 系统功能需求分析 | 第18-19页 |
2.2 新词覆盖面需求分析 | 第19-21页 |
2.3 垃圾词的删除需求分析 | 第21-22页 |
2.4 新词发现平台自学习的需求分析 | 第22页 |
2.5 非功能性需求 | 第22-23页 |
2.6 本章小结 | 第23-24页 |
第3章 新词发现平台的概要设计与相关技术分析 | 第24-34页 |
3.1 新词发现平台体系架构 | 第24-26页 |
3.2 新词发现平台功能结构 | 第26-28页 |
3.3 新词发现平台相关技术分析 | 第28-33页 |
3.3.1 新词发现平台相关技术概述 | 第28页 |
3.3.2 隐马尔可夫模型 | 第28-30页 |
3.3.3 Viterbi 算法 | 第30-32页 |
3.3.4 互信息 | 第32-33页 |
3.3.5 邻接多样度 | 第33页 |
3.4 本章小结 | 第33-34页 |
第4章 新词发现平台详细设计与实现 | 第34-60页 |
4.1 新词发现平台系统的详细设计与实现 | 第34-35页 |
4.2 隐马尔科夫模型组件详细设计与实现 | 第35-39页 |
4.3 实际语料加工组件详细设计与实现 | 第39-45页 |
4.4 新词候选词修正组件详细设计与实现 | 第45-55页 |
4.4.1 字串的凝聚度 | 第45-47页 |
4.4.2 邻接多样度 | 第47页 |
4.4.3 新词候选词修正算法 | 第47-55页 |
4.5 新词词表维护组件详细设计与实现 | 第55-58页 |
4.5.1 新词词表的存储结构 | 第55-56页 |
4.5.2 新词词表的删除操作 | 第56-57页 |
4.5.3 新词词表的增加操作 | 第57-58页 |
4.6 新词发现的并行化处理 | 第58-59页 |
4.7 本章小结 | 第59-60页 |
第5章 新词发现平台的测试 | 第60-76页 |
5.1 新词发现平台功能测试 | 第60-71页 |
5.1.0 新词发现平台的系统结构测试 | 第60-61页 |
5.1.1 隐马尔科夫模型组件的测试 | 第61-65页 |
5.1.2 实际语料切分组件的测试 | 第65-68页 |
5.1.3 新词候选词修正组件的测试 | 第68-70页 |
5.1.4 新词列表维护组件的测试 | 第70-71页 |
5.2 新词发现平台测评性能指标 | 第71-75页 |
5.2.1 准确率与召回率测试 | 第71-74页 |
5.2.2 语料处理速度测试 | 第74-75页 |
5.2.3 新词发现平台最优运行方式 | 第75页 |
5.3 本章小结 | 第75-76页 |
结论 | 第76-78页 |
主要参考文献 | 第78-83页 |
致谢 | 第83-84页 |
个人简历 | 第84页 |