汉字种子混淆集的构建方法研究
摘要 | 第1-4页 |
Abstract | 第4-10页 |
第1章 绪论 | 第10-18页 |
·自然语言处理概述 | 第10-11页 |
·文本自动校对概述 | 第11-14页 |
·英文文本自动校对概述 | 第11-12页 |
·中文文本自动校对概述 | 第12-14页 |
·研究背景与意义 | 第14-15页 |
·国内研究现状 | 第15-16页 |
·研究内容与方法 | 第16页 |
·论文的主要内容和章节安排 | 第16-17页 |
·本章小结 | 第17-18页 |
第2章 种子错别字混淆集和错别字混淆集图的构造 | 第18-28页 |
·中文文本常见错误分类 | 第18-19页 |
·种子错别字混淆集字典构造 | 第19-24页 |
·形似字和音似字的获取 | 第19-21页 |
·输入编码相近字词候选集的构造 | 第21-23页 |
·多音字、易混淆词混淆集构造 | 第23页 |
·其他一些情况导致的错别字混淆集构造 | 第23-24页 |
·错别字混淆集图的构造 | 第24-26页 |
·图的定义 | 第24-25页 |
·构造错别字混淆集图 | 第25-26页 |
·本章小结 | 第26-28页 |
第3章 错别字混淆集的自扩展 | 第28-36页 |
·相关概念及表示方法 | 第28-30页 |
·自扩展算法 | 第30-32页 |
·部分算法思想 | 第32-34页 |
·图的存储 | 第32-33页 |
·图的遍历 | 第33-34页 |
·本章小结 | 第34-36页 |
第4章 大数据补充混淆集 | 第36-54页 |
·中文分词 | 第36-39页 |
·中文分词技术概述 | 第36页 |
·中文分词方法介绍 | 第36-39页 |
·生词处理 | 第39-41页 |
·中文地名和机构名的识别概述 | 第40-41页 |
·生词处理 | 第41页 |
·双数组 trie 树 | 第41-46页 |
·常见分词词典机制 | 第41-44页 |
·双数组 Trie 树 | 第44-46页 |
·散串合并和模糊匹配 | 第46-49页 |
·统计与规则相结合 | 第49-52页 |
·运用统计进行验证 | 第49-50页 |
·运用规则进行验证 | 第50-52页 |
·本章小结 | 第52-54页 |
第5章 实验结果 | 第54-58页 |
·实验结果 | 第54-56页 |
·错别字混淆集的排序方法 | 第56页 |
·实验结果分析 | 第56-57页 |
·本章小结 | 第57-58页 |
总结与展望 | 第58-60页 |
总结 | 第58-59页 |
展望 | 第59-60页 |
参考文献 | 第60-64页 |
攻读学位期间发表的学术论文 | 第64-66页 |
致谢 | 第66-67页 |
详细摘要 | 第67-71页 |