摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第14-21页 |
1.1 研究背景 | 第14-15页 |
1.2 研究意义 | 第15-18页 |
1.3 研究内容 | 第18-19页 |
1.4 创新之处 | 第19-20页 |
1.5 章节安排 | 第20-21页 |
第2章 文献综述 | 第21-31页 |
2.1 组块研究与短语树库 | 第21-25页 |
2.1.1 转换生成语法及组块研究的出现 | 第21-23页 |
2.1.2 短语树库研究 | 第23-25页 |
2.2 现代句法理论及短语识别 | 第25-29页 |
2.2.1 现代句法理论 | 第25-27页 |
2.2.2 短语识别综述 | 第27-29页 |
2.3 术语短语研究综述 | 第29-30页 |
2.4 本章小结 | 第30-31页 |
第3章 基于多层语料短语知识获取 | 第31-49页 |
3.1 语料基本情况 | 第31-38页 |
3.1.1 清华树库 | 第31-33页 |
3.1.2 宾州中文树库 | 第33-35页 |
3.1.3 清华树库与宾州中文树库异同 | 第35-38页 |
3.2 树库解析与存储 | 第38-39页 |
3.2.1 预处理 | 第38-39页 |
3.2.2 基本数据结构 | 第39页 |
3.3 汉语短语基本分布获取 | 第39-42页 |
3.4 汉语短语结构获取样例 | 第42-46页 |
3.5 小规模CSSCI语料辅助标注及解析 | 第46-47页 |
3.6 本章小结 | 第47-49页 |
第4章 基于树库的汉语短语分布研究 | 第49-77页 |
4.1 树库内汉语短语分布 | 第49-56页 |
4.1.1 树库内汉语短语分布 | 第49-52页 |
4.1.2 树库内汉语基本短语分布 | 第52-56页 |
4.2 清华树库短语成分分析 | 第56-66页 |
4.2.1 清华树库基本短语成分统计 | 第56-59页 |
4.2.2 清华树库复杂短语成分统计 | 第59-63页 |
4.2.3 清华树库述宾结构统计分析 | 第63-66页 |
4.3 宾州树库短语成分分析 | 第66-70页 |
4.4 CSSCI标注语料分析 | 第70-76页 |
4.4.1 标注关键词短语分析 | 第71-74页 |
4.4.2 标注标题短语分析 | 第74-76页 |
4.5 本章小结 | 第76-77页 |
第5章 基于机器学习的汉语短语识别 | 第77-97页 |
5.1 短语识别机器学习算法模型及模板 | 第77-80页 |
5.1.1 最大熵模型 | 第77-78页 |
5.1.2 条件随机场模型 | 第78-79页 |
5.1.3 自动识别流程 | 第79-80页 |
5.2 清华树库中汉语短语识别 | 第80-92页 |
5.2.1 训练样本选择及语言学特征统计 | 第80-83页 |
5.2.2 基于最大熵的汉语短语识别 | 第83-87页 |
5.2.3 基于条件随机场的汉语短语识别 | 第87-92页 |
5.3 宾州中文树库中汉语短语识别 | 第92-95页 |
5.3.1 训练样本选择及语言学特征统计 | 第92-95页 |
5.3.2 训练结果 | 第95页 |
5.4 本章小结 | 第95-97页 |
第6章 面向CSSCI的汉语短语标注模型构建 | 第97-119页 |
6.1 模型理论基础 | 第97-104页 |
6.1.1 模型的语法理论基础 | 第97-98页 |
6.1.2 模型的算法理论基础 | 第98-102页 |
6.1.3 语料库基础 | 第102-104页 |
6.2 CSSCI语料预处理与基本统计 | 第104-106页 |
6.3 基于CSSCI短语词汇、词性统计及短语语法功能分析 | 第106-113页 |
6.4 基于CSSCI短语自动识别 | 第113-118页 |
6.5 本章小结 | 第118-119页 |
第7章 结语 | 第119-120页 |
7.1 结语 | 第119页 |
7.2 未来工作 | 第119-120页 |
参考文献 | 第120-123页 |
附录 | 第123-140页 |
致谢 | 第140-141页 |