基于位置标签的复合词抽取方法研究
摘要 | 第5-6页 |
Abstract | 第6页 |
第1章 引言 | 第11-18页 |
1.1 研究背景及意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-16页 |
1.3 本文主要工作 | 第16-17页 |
1.4 本文的组织结构 | 第17-18页 |
第2章 复合词抽取相关概念与技术 | 第18-29页 |
2.1 复合词的相关概念 | 第18-21页 |
2.1.1 概念 | 第18-19页 |
2.1.2 新词语 | 第19-20页 |
2.1.3 复合词 | 第20页 |
2.1.4 概念、新词语和复合词的联系与区别 | 第20-21页 |
2.2 中文分词技术 | 第21-24页 |
2.2.1 基于词典的分词算法 | 第21-22页 |
2.2.2 基于统计的分词算法 | 第22-24页 |
2.2.3 基于理解的分词算法 | 第24页 |
2.3 复合词抽取方法 | 第24-28页 |
2.3.1 基于统计学的方法 | 第24-27页 |
2.3.2 基于语言学的方法 | 第27-28页 |
2.3.3 混合的方法 | 第28页 |
2.4 本章小结 | 第28-29页 |
第3章 复合词抽取与反规则筛选 | 第29-42页 |
3.1 算法总体框架 | 第29-30页 |
3.2 文本预处理 | 第30-32页 |
3.2.1 文本清洁 | 第30页 |
3.2.2 自动分词与词性标注 | 第30-32页 |
3.3 基于位置标签的复合词抽取 | 第32-38页 |
3.3.1 相关定义 | 第32-33页 |
3.3.2 位置标签集生成 | 第33-35页 |
3.3.3 词条过滤 | 第35-37页 |
3.3.4 抽取算法 | 第37-38页 |
3.4 基于反规则的筛选 | 第38-41页 |
3.4.1 构建反规则模板 | 第38-39页 |
3.4.2 规则匹配 | 第39-40页 |
3.4.3 垃圾串再识别 | 第40-41页 |
3.5 本章小结 | 第41-42页 |
第4章 实验与分析 | 第42-54页 |
4.1 验证系统设计 | 第42-49页 |
4.1.1 功能模块设计 | 第42-43页 |
4.1.2 关键数据结构 | 第43-45页 |
4.1.3 关键算法实现 | 第45-49页 |
4.2 实验设计与分析 | 第49-53页 |
4.2.1 复合词抽取评价指标 | 第49页 |
4.2.2 实验设计 | 第49-50页 |
4.2.3 实验结果与分析 | 第50-53页 |
4.3 本章小结 | 第53-54页 |
总结与展望 | 第54-56页 |
参考文献 | 第56-60页 |
致谢 | 第60-61页 |
附录 A 攻读学位期间所发表的学术论文 | 第61-62页 |
附录 B 攻读学位期间参加的主要科研项目 | 第62页 |