基于大规模语料的中文新词识别技术研究
| 摘要 | 第1-6页 |
| Abstract | 第6-12页 |
| 图目录 | 第12-13页 |
| 表目录 | 第13-14页 |
| 第1章 绪论 | 第14-19页 |
| ·课题背景 | 第14-15页 |
| ·研究意义 | 第15-16页 |
| ·中文新词识别研究现状 | 第16-17页 |
| ·研究目标和研究内容 | 第17-18页 |
| ·论文组织安排 | 第18-19页 |
| 第2章 新词识别技术 | 第19-30页 |
| ·引言 | 第19页 |
| ·候选新词的提取和过滤 | 第19-24页 |
| ·新词的词性猜测 | 第24-26页 |
| ·新词识别技术研究状态 | 第26-27页 |
| ·本文设计思想 | 第27-28页 |
| ·论文总体设计 | 第28-29页 |
| ·本章小结 | 第29-30页 |
| 第3章 基于大规模语料的新词识别框架FNWI | 第30-39页 |
| ·引言 | 第30页 |
| ·FNWI 的设计目标 | 第30-32页 |
| ·新词识别框架的具体描述 | 第32-37页 |
| ·统一建模语言UML | 第32-33页 |
| ·领域无关的新词识别框架结构 | 第33-36页 |
| ·FNWI 框架中组件的重用 | 第36-37页 |
| ·FNWI 框架的扩展 | 第37页 |
| ·相关研究比较 | 第37-38页 |
| ·本章小结 | 第38-39页 |
| 第4章 基于逐层剪枝的重复模式快速提取方法 | 第39-62页 |
| ·引言 | 第39-40页 |
| ·常用重复模式提取算法 | 第40-44页 |
| ·重复模式提取的形式化描述 | 第40页 |
| ·基于递增N-gram 模型的重复模式提取算法 | 第40-41页 |
| ·基于Sequitur 算法的重复模式提取方法 | 第41-42页 |
| ·基于后缀索引的重复模式提取算法 | 第42-44页 |
| ·大规模语料分割算法 | 第44-45页 |
| ·一种基于逐层剪枝的重复模式提取方法 | 第45-51页 |
| ·基于低频剪枝字符的低频模式过滤算法 | 第46页 |
| ·基于级联剪枝的低频模式过滤算法 | 第46-47页 |
| ·语料划分和重复模式归并 | 第47-48页 |
| ·算法描述 | 第48-50页 |
| ·复杂度分析 | 第50-51页 |
| ·一种改进的字符串快速排序算法 | 第51-55页 |
| ·基数排序算法描述 | 第51-52页 |
| ·改进的中文字符串排序算法 | 第52-53页 |
| ·改进排序算法性能评价 | 第53-55页 |
| ·实验及分析 | 第55-60页 |
| ·相关研究比较 | 第60-61页 |
| ·本章小结 | 第61-62页 |
| 第5章 基于条件随机域的新词检测方法 | 第62-86页 |
| ·引言 | 第62页 |
| ·常用新词检测方法 | 第62-66页 |
| ·基于规则方法 | 第63-64页 |
| ·基于统计学习方法 | 第64-66页 |
| ·小结 | 第66页 |
| ·基于统计学习模型的新词检测框架 | 第66-68页 |
| ·条件随机域模型 | 第66-67页 |
| ·条件随机域模型的训练和解码 | 第67页 |
| ·条件随机域模型特点 | 第67-68页 |
| ·新词检测特征选取 | 第68-74页 |
| ·新词的语言知识特征 | 第68-69页 |
| ·新词的统计特征 | 第69-70页 |
| ·一种高效的外部统计特征计算方法 | 第70-74页 |
| ·重复模式提取策略 | 第74-80页 |
| ·对比实验数据 | 第75-77页 |
| ·一种实用的候选新词遗漏量化模型 | 第77-80页 |
| ·策略使用原则 | 第80页 |
| ·实验和分析 | 第80-84页 |
| ·实验条件 | 第80-82页 |
| ·实验数据分析 | 第82-84页 |
| ·相关研究比较 | 第84-85页 |
| ·本章小结 | 第85-86页 |
| 第6章 基于组合特征的新词分类方法 | 第86-105页 |
| ·引言 | 第86-87页 |
| ·新词词性分类技术 | 第87-92页 |
| ·词语词性标注方法 | 第87-91页 |
| ·新词词性猜测的困难和当前研究的不足 | 第91-92页 |
| ·新词词性猜测的形式化模型 | 第92-94页 |
| ·新词词性猜测的形式化描述 | 第92页 |
| ·词性猜测问题统计模型的选择 | 第92-93页 |
| ·新词词性猜测的特征选取 | 第93-94页 |
| ·汉字偏旁作为词性猜测内部特征 | 第94-97页 |
| ·汉字及其偏旁的表意功能 | 第95页 |
| ·偏旁作为词性猜测内部特征 | 第95-97页 |
| ·实验和分析 | 第97-102页 |
| ·实验条件 | 第97-98页 |
| ·实验数据分析 | 第98-102页 |
| ·分析结论 | 第102页 |
| ·相关研究比较 | 第102-103页 |
| ·本章小结 | 第103-105页 |
| 第7章 结论 | 第105-108页 |
| ·全文总结 | 第105-106页 |
| ·后续研究工作 | 第106-108页 |
| 参考文献 | 第108-113页 |
| 致谢 | 第113-115页 |
| 攻读学位期间发表的学术论文与取得的其他研究成果 | 第115-116页 |