摘要 | 第1-5页 |
Abstract | 第5-7页 |
目录 | 第7-10页 |
1 绪论 | 第10-27页 |
·研究背景和意义 | 第10-12页 |
·研究背景 | 第10-12页 |
·研究意义 | 第12页 |
·自然语言处理的基本方法 | 第12-14页 |
·国内外研究概况 | 第14-25页 |
·新词识别研究概况 | 第14-16页 |
·命名实体识别研究概况 | 第16-21页 |
·组块分析研究概况 | 第21-25页 |
·本文主要工作和内容组织 | 第25-27页 |
·本文主要工作 | 第25-26页 |
·本文内容组织 | 第26-27页 |
2 统计语言模型 | 第27-43页 |
·N-gram模型 | 第27-29页 |
·N-gram模型介绍 | 第27-28页 |
·数据平滑方法 | 第28-29页 |
·隐马尔科夫模型 | 第29-31页 |
·最大熵模型 | 第31-34页 |
·最大熵模型介绍 | 第31-33页 |
·最大熵原理的数学表示 | 第33-34页 |
·支持向量机 | 第34-37页 |
·最优分类超平面 | 第35-36页 |
·核函数 | 第36-37页 |
·多分类问题 | 第37页 |
·Boosting算法 | 第37-38页 |
·条件随机域 | 第38-43页 |
·无向图模型 | 第38-39页 |
·条件随机域的图结构 | 第39-40页 |
·条件随机域的势函数表示 | 第40-43页 |
3 基于互信息与串频统计的新词识别 | 第43-54页 |
·新词的定义和特征 | 第43-44页 |
·新词的定义 | 第43页 |
·新词的特征 | 第43-44页 |
·互信息基本理论 | 第44-48页 |
·随机变量及其特征 | 第44-45页 |
·熵、联合熵和条件熵 | 第45-47页 |
·互信息 | 第47-48页 |
·基于互信息和串频统计的新词识别 | 第48-54页 |
·潜在新词串 | 第48-49页 |
·新词识别 | 第49-52页 |
·实验结果 | 第52-54页 |
4 基于有向图模型与分词一体化的命名实体识别 | 第54-78页 |
·基于有向图的语言模型 | 第54-64页 |
·分词有向图的建立 | 第54-55页 |
·有向图中边的权值 | 第55-56页 |
·正确切分路径的选择 | 第56-64页 |
·与分词一体化的中国人名识别 | 第64-68页 |
·中国人名的构成特点 | 第64-65页 |
·候选中国人名的生成 | 第65-66页 |
·中国人名的识别 | 第66-68页 |
·与分词一体化的中国地名识别 | 第68-73页 |
·词语级中国地名的特征 | 第68-69页 |
·候选地名的生成 | 第69-70页 |
·中国地名的识别 | 第70-73页 |
·与分词一体化的外国译名识别 | 第73-78页 |
·外国译名的构成 | 第74页 |
·候选外国译名的生成 | 第74-76页 |
·外国译名识别 | 第76-78页 |
5 基于DR-AdaBoost算法的汉语组块分析 | 第78-103页 |
·汉语组块的定义 | 第78-85页 |
·组块的定义 | 第78-80页 |
·组块的类型 | 第80-85页 |
·组块的标注形式和评测方法 | 第85-87页 |
·组块的标注形式 | 第85-86页 |
·组块分析结果的评测方法 | 第86-87页 |
·基于有向图模型的汉语组块分析 | 第87-91页 |
·组块分析有向图 | 第87-88页 |
·有向边权值计算和路径选择 | 第88-90页 |
·实验结果 | 第90-91页 |
·基于DR-AdaBoost的汉语组块分析 | 第91-103页 |
·Boosting与AdaBoost算法简介 | 第91-93页 |
·改进的AdaBoost算法:DR-AdaBoost | 第93-97页 |
·DR-AdaBoost在UCI数据集上的测试 | 第97-99页 |
·DR-AdaBoost在CoNLL-2000共享数据集上的测试 | 第99-100页 |
·基于DR-AdaBoost的汉语组块分析 | 第100-103页 |
6 总结与展望 | 第103-105页 |
参考文献 | 第105-120页 |
创新点摘要 | 第120-121页 |
攻读博士学位期间发表学术论文情况 | 第121-122页 |
致谢 | 第122-124页 |