| 摘要 | 第1-5页 |
| Abstract | 第5-7页 |
| 目录 | 第7-10页 |
| 1 绪论 | 第10-27页 |
| ·研究背景和意义 | 第10-12页 |
| ·研究背景 | 第10-12页 |
| ·研究意义 | 第12页 |
| ·自然语言处理的基本方法 | 第12-14页 |
| ·国内外研究概况 | 第14-25页 |
| ·新词识别研究概况 | 第14-16页 |
| ·命名实体识别研究概况 | 第16-21页 |
| ·组块分析研究概况 | 第21-25页 |
| ·本文主要工作和内容组织 | 第25-27页 |
| ·本文主要工作 | 第25-26页 |
| ·本文内容组织 | 第26-27页 |
| 2 统计语言模型 | 第27-43页 |
| ·N-gram模型 | 第27-29页 |
| ·N-gram模型介绍 | 第27-28页 |
| ·数据平滑方法 | 第28-29页 |
| ·隐马尔科夫模型 | 第29-31页 |
| ·最大熵模型 | 第31-34页 |
| ·最大熵模型介绍 | 第31-33页 |
| ·最大熵原理的数学表示 | 第33-34页 |
| ·支持向量机 | 第34-37页 |
| ·最优分类超平面 | 第35-36页 |
| ·核函数 | 第36-37页 |
| ·多分类问题 | 第37页 |
| ·Boosting算法 | 第37-38页 |
| ·条件随机域 | 第38-43页 |
| ·无向图模型 | 第38-39页 |
| ·条件随机域的图结构 | 第39-40页 |
| ·条件随机域的势函数表示 | 第40-43页 |
| 3 基于互信息与串频统计的新词识别 | 第43-54页 |
| ·新词的定义和特征 | 第43-44页 |
| ·新词的定义 | 第43页 |
| ·新词的特征 | 第43-44页 |
| ·互信息基本理论 | 第44-48页 |
| ·随机变量及其特征 | 第44-45页 |
| ·熵、联合熵和条件熵 | 第45-47页 |
| ·互信息 | 第47-48页 |
| ·基于互信息和串频统计的新词识别 | 第48-54页 |
| ·潜在新词串 | 第48-49页 |
| ·新词识别 | 第49-52页 |
| ·实验结果 | 第52-54页 |
| 4 基于有向图模型与分词一体化的命名实体识别 | 第54-78页 |
| ·基于有向图的语言模型 | 第54-64页 |
| ·分词有向图的建立 | 第54-55页 |
| ·有向图中边的权值 | 第55-56页 |
| ·正确切分路径的选择 | 第56-64页 |
| ·与分词一体化的中国人名识别 | 第64-68页 |
| ·中国人名的构成特点 | 第64-65页 |
| ·候选中国人名的生成 | 第65-66页 |
| ·中国人名的识别 | 第66-68页 |
| ·与分词一体化的中国地名识别 | 第68-73页 |
| ·词语级中国地名的特征 | 第68-69页 |
| ·候选地名的生成 | 第69-70页 |
| ·中国地名的识别 | 第70-73页 |
| ·与分词一体化的外国译名识别 | 第73-78页 |
| ·外国译名的构成 | 第74页 |
| ·候选外国译名的生成 | 第74-76页 |
| ·外国译名识别 | 第76-78页 |
| 5 基于DR-AdaBoost算法的汉语组块分析 | 第78-103页 |
| ·汉语组块的定义 | 第78-85页 |
| ·组块的定义 | 第78-80页 |
| ·组块的类型 | 第80-85页 |
| ·组块的标注形式和评测方法 | 第85-87页 |
| ·组块的标注形式 | 第85-86页 |
| ·组块分析结果的评测方法 | 第86-87页 |
| ·基于有向图模型的汉语组块分析 | 第87-91页 |
| ·组块分析有向图 | 第87-88页 |
| ·有向边权值计算和路径选择 | 第88-90页 |
| ·实验结果 | 第90-91页 |
| ·基于DR-AdaBoost的汉语组块分析 | 第91-103页 |
| ·Boosting与AdaBoost算法简介 | 第91-93页 |
| ·改进的AdaBoost算法:DR-AdaBoost | 第93-97页 |
| ·DR-AdaBoost在UCI数据集上的测试 | 第97-99页 |
| ·DR-AdaBoost在CoNLL-2000共享数据集上的测试 | 第99-100页 |
| ·基于DR-AdaBoost的汉语组块分析 | 第100-103页 |
| 6 总结与展望 | 第103-105页 |
| 参考文献 | 第105-120页 |
| 创新点摘要 | 第120-121页 |
| 攻读博士学位期间发表学术论文情况 | 第121-122页 |
| 致谢 | 第122-124页 |