基于统计语言模型的汉语浅层分析研究

摘要	第1-5页
Abstract	第5-7页
目录	第7-10页
1 绪论	第10-27页
·研究背景和意义	第10-12页
·研究背景	第10-12页
·研究意义	第12页
·自然语言处理的基本方法	第12-14页
·国内外研究概况	第14-25页
·新词识别研究概况	第14-16页
·命名实体识别研究概况	第16-21页
·组块分析研究概况	第21-25页
·本文主要工作和内容组织	第25-27页
·本文主要工作	第25-26页
·本文内容组织	第26-27页
2 统计语言模型	第27-43页
·N-gram模型	第27-29页
·N-gram模型介绍	第27-28页
·数据平滑方法	第28-29页
·隐马尔科夫模型	第29-31页
·最大熵模型	第31-34页
·最大熵模型介绍	第31-33页
·最大熵原理的数学表示	第33-34页
·支持向量机	第34-37页
·最优分类超平面	第35-36页
·核函数	第36-37页
·多分类问题	第37页
·Boosting算法	第37-38页
·条件随机域	第38-43页
·无向图模型	第38-39页
·条件随机域的图结构	第39-40页
·条件随机域的势函数表示	第40-43页
3 基于互信息与串频统计的新词识别	第43-54页
·新词的定义和特征	第43-44页
·新词的定义	第43页
·新词的特征	第43-44页
·互信息基本理论	第44-48页
·随机变量及其特征	第44-45页
·熵、联合熵和条件熵	第45-47页
·互信息	第47-48页
·基于互信息和串频统计的新词识别	第48-54页
·潜在新词串	第48-49页
·新词识别	第49-52页
·实验结果	第52-54页
4 基于有向图模型与分词一体化的命名实体识别	第54-78页
·基于有向图的语言模型	第54-64页
·分词有向图的建立	第54-55页
·有向图中边的权值	第55-56页
·正确切分路径的选择	第56-64页
·与分词一体化的中国人名识别	第64-68页
·中国人名的构成特点	第64-65页
·候选中国人名的生成	第65-66页
·中国人名的识别	第66-68页
·与分词一体化的中国地名识别	第68-73页
·词语级中国地名的特征	第68-69页
·候选地名的生成	第69-70页
·中国地名的识别	第70-73页
·与分词一体化的外国译名识别	第73-78页
·外国译名的构成	第74页
·候选外国译名的生成	第74-76页
·外国译名识别	第76-78页
5 基于DR-AdaBoost算法的汉语组块分析	第78-103页
·汉语组块的定义	第78-85页
·组块的定义	第78-80页
·组块的类型	第80-85页
·组块的标注形式和评测方法	第85-87页
·组块的标注形式	第85-86页
·组块分析结果的评测方法	第86-87页
·基于有向图模型的汉语组块分析	第87-91页
·组块分析有向图	第87-88页
·有向边权值计算和路径选择	第88-90页
·实验结果	第90-91页
·基于DR-AdaBoost的汉语组块分析	第91-103页
·Boosting与AdaBoost算法简介	第91-93页
·改进的AdaBoost算法:DR-AdaBoost	第93-97页
·DR-AdaBoost在UCI数据集上的测试	第97-99页
·DR-AdaBoost在CoNLL-2000共享数据集上的测试	第99-100页
·基于DR-AdaBoost的汉语组块分析	第100-103页
6 总结与展望	第103-105页
参考文献	第105-120页
创新点摘要	第120-121页
攻读博士学位期间发表学术论文情况	第121-122页
致谢	第122-124页