| 摘要 | 第1-7页 |
| Abstract | 第7-13页 |
| 插图索引 | 第13-14页 |
| 附表索引 | 第14-15页 |
| 第1章 综述 | 第15-42页 |
| ·引言 | 第15-17页 |
| ·国内外文本信息抽取研究概述 | 第17-22页 |
| ·文本信息抽取模型概述 | 第22-38页 |
| ·包装器模型概述 | 第23-27页 |
| ·隐马尔可夫模型概述 | 第27-38页 |
| ·文本信息抽取性能评价指标 | 第38-39页 |
| ·本文研究内容 | 第39-40页 |
| ·全文组织结构 | 第40-42页 |
| 第2章 包装器归纳学习及平衡算法研究 | 第42-60页 |
| ·概述 | 第42-44页 |
| ·页面特征信息 | 第44-46页 |
| ·文本模式信息 | 第44-46页 |
| ·数据值的注释信息 | 第46页 |
| ·包装器归纳学习算法 | 第46-51页 |
| ·抽取规则的描述 | 第46-47页 |
| ·有限状态机 | 第47-48页 |
| ·LPWI算法 | 第48-50页 |
| ·LPWI类包装器表达能力分析 | 第50-51页 |
| ·包装器平衡算法 | 第51-54页 |
| ·页面模板算法 | 第51-52页 |
| ·包装器重新归纳学习算法 | 第52-53页 |
| ·与以往包装器平衡方法的比较 | 第53-54页 |
| ·实验与分析 | 第54-59页 |
| ·LPWI算法的抽取实验 | 第54-57页 |
| ·包装器平衡算法的实验 | 第57-59页 |
| ·小结 | 第59-60页 |
| 第3章 基于聚簇隐马尔可夫模型的文本信息抽取算法研究 | 第60-73页 |
| ·概述 | 第60-61页 |
| ·数据聚簇方法 | 第61-63页 |
| ·相似度矩阵 | 第61-62页 |
| ·数据聚簇的划分方法及其k-平均算法 | 第62-63页 |
| ·基于 Markov链模型的训练文本聚簇分析 | 第63-67页 |
| ·训练文本的 Markov链模型 | 第63-64页 |
| ·训练文本的 Markov链模型相似度 | 第64页 |
| ·初始簇中心选择算法 | 第64-66页 |
| ·训练文本的Markov链模型的聚簇 | 第66-67页 |
| ·基于聚簇 HMM的文本信息抽取 | 第67-69页 |
| ·实验与分析 | 第69-72页 |
| ·选择合适的聚簇数目的实验 | 第69-70页 |
| ·基于 C-HMM和基于 HMM文本信息抽取的性能比较实验 | 第70-72页 |
| ·小结 | 第72-73页 |
| 第4章 基于信息熵隐马尔可夫模型的文本信息抽取算法研究 | 第73-87页 |
| ·概述 | 第73-74页 |
| ·文本信息抽取中的信息熵 | 第74-78页 |
| ·最大熵模型 | 第74-76页 |
| ·互信息模型 | 第76-78页 |
| ·基于信息熵的HMM文本信息抽取算法 | 第78-80页 |
| ·文本中部分关键信息的抽取 | 第80-82页 |
| ·抽取模型结构的优化选择 | 第80-81页 |
| ·抽取模型的训练 | 第81-82页 |
| ·实验与分析 | 第82-86页 |
| ·文本中部分关键信息的抽取实验 | 第82-84页 |
| ·论文头部信息的抽取实验 | 第84-86页 |
| ·小结 | 第86-87页 |
| 第5章 基于二阶隐马尔可夫模型的文本信息抽取 | 第87-102页 |
| ·概述 | 第87-88页 |
| ·二阶隐马尔可夫模型 | 第88-90页 |
| ·基于二阶 HMM的文本信息抽取算法 | 第90-93页 |
| ·二阶 HMM的ML算法中模型参数计算公式的推导 | 第90-91页 |
| ·二阶 HMM的Viterbi算法 | 第91-92页 |
| ·基于二阶 HMM的文本信息抽取算法 | 第92-93页 |
| ·二阶 HMM在文本信息抽取中的有效性分析 | 第93-96页 |
| ·实验与分析 | 第96-101页 |
| ·二阶 HMM与一阶 HMM抽取性能比较 | 第96-98页 |
| ·结合文本聚簇方法的二阶 HMM抽取实验 | 第98-100页 |
| ·二阶 HMM和最大熵 HMM模型的比较 | 第100-101页 |
| ·小结 | 第101-102页 |
| 第6章 结合最大熵模型和二阶隐马尔可夫模型的文本信息抽取 | 第102-110页 |
| ·相关抽取模型概述 | 第102-103页 |
| ·结合最大熵和二阶 HMM的文本信息抽取 | 第103-107页 |
| ·二阶 HMM的状态转移概率和观察值输出概率 | 第103-104页 |
| ·结合最大熵模型的二阶 HMM相关参数训练 | 第104-107页 |
| ·相关抽取模型的性能比较实验 | 第107-109页 |
| ·小结 | 第109-110页 |
| 第7章 文本信息抽取中的主动学习算法研究 | 第110-122页 |
| ·概述 | 第110-111页 |
| ·基于部分标记训练文本的主动学习算法 | 第111-113页 |
| ·基于主动学习的文本信息抽取 | 第113-117页 |
| ·基于主动学习的HMM文本信息抽取 | 第113-116页 |
| ·基于主动学习算法的包装器归纳学习 | 第116-117页 |
| ·实验与分析 | 第117-120页 |
| ·HMM的主动学习性能实验 | 第117-120页 |
| ·包装器模型的主动学习性能实验 | 第120页 |
| ·小结 | 第120-122页 |
| 总结与展望 | 第122-126页 |
| 参考文献 | 第126-135页 |
| 致谢 | 第135-136页 |
| 附录A 攻读学位期间撰写的研究论文 | 第136-137页 |
| 附录B 攻读学位期间参与的科研项目 | 第137页 |