基于大规模语料的中文新词抽取算法的设计与实现

摘要	第1-4页
Abstract	第4-7页
1 绪论	第7-13页
·课题背景	第7页
·何谓新词	第7-9页
·研究意义	第9-10页
·新词抽取的难点	第10-11页
·本文研究内容	第11页
·论文的组织结构	第11-13页
2 新词抽取研究	第13-19页
·候选新词集合构造	第13-15页
·基于分词的方法	第13-14页
·基于启发式规则的方法	第14页
·基于重复串的方法	第14-15页
·新词检测技术	第15-17页
·基于统计学习的方法	第15-16页
·基于语言规则的方法	第16-17页
·评测标准	第17页
·本文新词抽取思路	第17-18页
·本章小结	第18-19页
3 基于大规模语料的重复串抽取	第19-32页
·相关工作	第19-20页
·基于语料划分的重复串抽取算法	第20-23页
·语料划分策略	第20-21页
·算法实现	第21-23页
·子串归并	第23-25页
·字符串排序算法改进	第25-27页
·实验及数据分析	第27-31页
·实验环境	第27页
·实验数据分析	第27-30页
·相关研究比较	第30-31页
·本章小结	第31-32页
4 新词自动检测	第32-47页
·最大熵模型概述	第32-37页
·思想简介	第32-33页
·相关基础概念	第33-34页
·模型的构造	第34-36页
·模型的解码	第36-37页
·最大熵模型的特点	第37页
·新词特征分析	第37-42页
·语言知识特征	第37-38页
·统计特征	第38-40页
·左右熵特征抽取算法的改进	第40-42页
·实验与分析	第42-45页
·相关研究比较	第45-46页
·本章小结	第46-47页
5 新词抽取系统	第47-54页
·新词抽取算法	第47-48页
·新词抽取系统	第48-53页
·系统简介	第48-49页
·预处理模块	第49-50页
·重复串抽取模块	第50-51页
·新词检测模块	第51页
·处理结果展示	第51-53页
·本章小结	第53-54页
6 结束语	第54-56页
·总结	第54页
·展望	第54-56页
致谢	第56-58页
参考文献	第58-61页
附录	第61页