基于Hash和CRF的中文分词算法研究

摘要	第4-6页
Abstract	第6-7页
第一章绪论	第10-15页
1.1 研究背景和意义	第10-11页
1.2 研究现状	第11-12页
1.3 主要研究内容	第12-13页
1.4 论文的组织结构	第13-14页
1.5 本章小结	第14-15页
第二章相关理论及技术	第15-24页
2.1 中文分词的主流算法	第15-19页
2.1.1 基于字符串匹配的机械分词算法	第15-17页
2.1.2 基于统计的分词方法	第17-18页
2.1.3 基于理解的分词方法	第18-19页
2.1.4 基于语义的分词方法	第19页
2.2 词典机制	第19-21页
2.2.1 整词二分机制	第19-20页
2.2.2 基于TREE树索引机制	第20-21页
2.2.3 基于逐字二分的分词词典机制	第21页
2.3 中文分词技术难点	第21-23页
2.3.1 中文分词规范问题	第21-22页
2.3.2 歧义的处理	第22页
2.3.3 未登录词的识别	第22-23页
2.4 中文分词技术测评	第23页
2.5 本章小结	第23-24页
第三章改进的基于HASH的正向回溯算法	第24-32页
3.1 概述	第24页
3.2 相关概念	第24-25页
3.3 问题的描述	第25-26页
3.3.1 词典的分词	第25页
3.3.2 正向回溯算法的分析	第25-26页
3.4 基于HASH的正向回溯算法的改进	第26-29页
3.4.1 词典的设计	第26-27页
3.4.2 词典的查询	第27-28页
3.4.3 回溯算法的改进	第28-29页
3.5 实验与评价	第29-31页
3.6 本章小结	第31-32页
第四章基于CRF的新词的识别	第32-41页
4.1 未登录词处理概述	第32-33页
4.2 条件随机场模型	第33-35页
4.3 基于CRF的命名实体识别	第35-38页
4.3.1 特征的选取	第36页
4.3.2 特征的构造	第36-38页
4.4 正向最大匹配和CRF的结合	第38-39页
4.5 实验与分析	第39-40页
4.6 本章小结	第40-41页
第五章原型系统的设计与实现	第41-49页
5.1 原型系统运行环境及开发平台	第41页
5.2 系统设计原则	第41-42页
5.3 系统功能模块设计	第42-45页
5.3.1 系统需求分析	第42-43页
5.3.2 主要功能模块	第43-45页
5.4 系统核心类的设计	第45-48页
5.4.1 文本预处理类	第45-46页
5.4.2 正向最大匹配分词类	第46-47页
5.4.3 命名实体识别类	第47-48页
5.5 原型系统的实现	第48页
5.6 本章小结	第48-49页
第六章总结和展望	第49-51页
6.1 总结	第49-50页
6.2 展望	第50-51页
致谢	第51-52页
参考文献	第52-57页
攻读硕士学位期间发表的学术成果	第57页