中文错别字自动检测初探

摘要	第4-5页
Abstract	第5页
1.绪论	第8-16页
1.1 选题缘由及必要性	第8-10页
1.2 研究现状	第10-13页
1.3 研究重难点分析	第13-14页
1.4 研究方法及研究内容	第14-16页
2.错别字类型、成因及规律分析	第16-26页
2.1 错别字语料建设及频次统计	第16-18页
2.2 错别字特征及规律分析	第18-23页
2.2.1 错别字出现场合及特征分析	第18-19页
2.2.2 录入产生的误字与书写误字对比	第19-21页
2.2.3 错别字、多字、缺字出错频率及特征	第21-23页
2.3 错别字成因分析	第23-25页
2.4 小结	第25-26页
3.错别字检测角度、内容分析及汉语汉字本体研究的支撑	第26-33页
3.1 结合汉语与汉字的关系分析检测视角	第26-27页
3.2 结合汉语汉字的组合情况分析检测类型	第27-28页
3.3 结合汉语汉字特征分析检测内容	第28-31页
3.3.1 单字词与非单字词	第28-29页
3.3.2 固定式与非固定式	第29页
3.3.3 其余检测	第29-31页
3.4 小结	第31-33页
4.错别字自动检测研究及信息处理技术的支撑	第33-47页
4.1 现有语料库的支撑	第33-35页
4.2 错别字自动检测理论研究的支撑	第35-39页
4.2.1 基于规则和基于统计的方法	第35-36页
4.2.2 基于Web的方法	第36页
4.2.3 模式匹配	第36-37页
4.2.4 N元模型	第37页
4.2.5 句法语义依存法	第37-39页
4.2.6 聚类法	第39页
4.3 错别字自动检测应用研究的支撑	第39-44页
4.3.1 功能介绍	第40页
4.3.2 检测结果	第40-43页
4.3.3 对比及分析	第43-44页
4.4 信息处理技术的支撑	第44-46页
4.5 小结	第46-47页
5.错别字自动检测研究步骤分析和设计	第47-68页
5.1 错别字自动检测研究步骤分析	第47-48页
5.1.1 研究重难点突破	第47-48页
5.1.2 研究步骤和内容分析	第48页
5.2 错别字自动检测数据库建设	第48-61页
5.2.1 固定式数据语料建设	第48-52页
5.2.2 非固定式数据语料建设	第52-55页
5.2.3 词性、句法成分搭配数据语料建设	第55-56页
5.2.4 语义搭配及数据语料建设	第56-59页
5.2.5 位置搭配及数据语料建设	第59页
5.2.6 聚类法及数据语料建设	第59-61页
5.2.7 常见错别字分析及数据语料建设	第61页
5.3 语料标记与描写	第61-64页
5.3.1 含义及缘由	第61-62页
5.3.2 一般原则	第62页
5.3.3 语料标记难度分析	第62页
5.3.4 内容及方法	第62-64页
5.4 检测方法对比分析及设计	第64-66页
5.4.1 中文分词	第64页
5.4.2 检测方法对比和分析	第64-65页
5.4.3 检测方法设计	第65-66页
5.5 小结	第66-68页
6.结论	第68-70页
6.1 全文总结	第68-69页
6.2 展望	第69-70页
参考文献	第70-75页
附录一	第75-85页
微软Word字级错误检测结果（粗体表示红色划线、斜体表示绿色划线）	第75-77页
微软Word语病检测结果（粗体表示红色划线、斜体表示绿色划线）	第77-80页
黑马校对软件字级错误检测结果（粗体表示红色字体、斜体表示粉色字体）	第80-82页
黑马校对软件语病检测结果（粗体表示红色划线、斜体表示绿色划线）	第82-85页
附录二	第85-89页
出版物中100个常见错别字（《咬文嚼字》整理）	第85页
录入中100个常见错别字	第85-86页
录入错别字及频次统计	第86-89页
致谢	第89页