基于字频分布的中文网页编码识别研究

致谢	第7-8页
摘要	第8-9页
ABSTRACT	第9-10页
第一章绪论	第15-18页
1.1 概述	第15-16页
1.1.1 研究背景与意义	第15页
1.1.2 中文编码识别研究现状	第15-16页
1.2 本文研究内容	第16-17页
1.3 论文的组织结构	第17-18页
第二章编码识别技术	第18-29页
2.1 中文编码字符集	第18-19页
2.1.1 中文编码	第18-19页
2.1.2 编码范围	第19页
2.2 中文编码识别算法	第19-28页
2.2.1 编码识别算法的分类	第19-20页
2.2.2 基于字符集范围的识别算法	第20页
2.2.3 汉字编码统计算法	第20页
2.2.4 基于码制可信度的识别算法	第20-21页
2.2.5 贝叶斯分类编码识别算法	第21-23页
2.2.6 Unigram编码识别算法	第23-25页
2.2.7 CodeFinder算法	第25-28页
2.3 本章小结	第28-29页
第三章模式匹配算法	第29-40页
3.1 模式匹配算法概述	第29-30页
3.2 单模式匹配算法	第30-34页
3.2.1 BM算法	第30-31页
3.2.2 BMH算法	第31-32页
3.2.3 QS算法	第32-34页
3.3 多模式匹配算法	第34-39页
3.3.1 AC算法	第34-37页
3.3.2 AC BM算法	第37-39页
3.4 本章小结	第39-40页
第四章适合中文网页的编码识别算法	第40-54页
4.1 网页环境	第40-41页
4.2 现存算法的不足	第41-42页
4.2.1 汉字编码统计算法的不足	第41页
4.2.2 贝叶斯分类编码识别算法的不足	第41页
4.2.3 Unigram编码识别算法的不足	第41页
4.2.4 CoderFinder算法的不足	第41-42页
4.3 FKI算法	第42-51页
4.3.1 高频字符表	第43-44页
4.3.2 编码匹配	第44-46页
4.3.3 状态/码制表	第46-47页
4.3.4 FKI算法描述	第47-48页
4.3.5 FKI算法识别举例	第48-51页
4.4 FKI算法分析	第51-53页
4.4.1 准确率	第51-52页
4.4.2 时间性能	第52页
4.4.3 可扩展性	第52-53页
4.5 本章小结	第53-54页
第五章 FKI算法性能测试	第54-60页
5.1 实验环境	第54页
5.2 实验方案	第54页
5.3 实验数据及分析	第54-59页
5.4 本章小结	第59-60页
第六章展望与总结	第60-61页
6.1 总结	第60页
6.2 展望	第60-61页
参考文献	第61-64页
攻读硕士学位期间的学术活动及成果情况	第64-65页