摘要 | 第3-4页 |
Abstract | 第4-5页 |
第一章 绪论 | 第8-13页 |
1.1 研究背景 | 第8页 |
1.2 研究意义与内容 | 第8-9页 |
1.3 “定义”的概念与形式 | 第9-10页 |
1.4 相关研究概述 | 第10-11页 |
1.4.1 研究现状 | 第10-11页 |
1.4.2 定义抽取的困难 | 第11页 |
1.5 论文结构 | 第11-13页 |
第二章 定义抽取语料库的构建 | 第13-31页 |
2.1 互联网语料 | 第13-16页 |
2.1.1 Wikipedia | 第13-15页 |
2.1.2 搜狗全网新闻数据 | 第15页 |
2.1.3 互联网语料的定义标注 | 第15-16页 |
2.2 语言学处理 | 第16-20页 |
2.2.1 中文分词 | 第16-18页 |
2.2.2 句法分析 | 第18-20页 |
2.3 语料库的语言学标注 | 第20-31页 |
2.3.1 互联网语料预处理 | 第20-24页 |
2.3.2 语料库生成 | 第24-29页 |
2.3.2.1 Xerces2 Java Parser | 第24页 |
2.3.2.2 XML 语料库生成模块设计 | 第24-26页 |
2.3.2.3 XML 语料库生成模块实现 | 第26-29页 |
2.3.3 语言学标注结果 | 第29-31页 |
第三章 基于统计的定义抽取 | 第31-67页 |
3.1 特征选择 | 第31-45页 |
3.1.1 对数似然率 | 第31-32页 |
3.1.2 N-Gram | 第32-35页 |
3.1.3 语法依赖关系 | 第35-37页 |
3.1.4 定义的语言学模式 | 第37-39页 |
3.1.5 定义隶属度 | 第39-45页 |
3.1.5.1 词语的定义隶属度 | 第39-41页 |
3.1.5.2 句子的最大定义隶属度 | 第41-45页 |
3.2 基于统计的分类方法 | 第45-53页 |
3.2.1 决策树 | 第45-46页 |
3.2.2 朴素贝叶斯 | 第46-48页 |
3.2.3 支持向量机 | 第48-49页 |
3.2.4 AdaBoost | 第49-51页 |
3.2.5 随机森林 | 第51-53页 |
3.3 实验与分析 | 第53-67页 |
3.3.1 实验准备 | 第53-63页 |
3.3.1.1 语料相关特征集生成模块 | 第53-57页 |
3.3.1.2 XML 语料库向量转换模块 | 第57-59页 |
3.3.1.3 实验语料准备 | 第59-61页 |
3.3.1.4 R 语言 | 第61-62页 |
3.3.1.5 K 折交叉验证 | 第62页 |
3.3.1.6 评价指标 | 第62-63页 |
3.3.2 不同分类方法比较 | 第63-64页 |
3.3.2.1 实验方法 | 第63页 |
3.3.2.2 实验结果 | 第63-64页 |
3.3.3 不同 N-Gram Plus 数量的交叉验证 | 第64-66页 |
3.3.3.1 实验方法 | 第64页 |
3.3.3.2 实验结果 | 第64-66页 |
3.3.4 不同特征集的交叉验证 | 第66页 |
3.3.4.1 实验方法 | 第66页 |
3.3.4.2 实验结果 | 第66页 |
3.3.5 结果分析 | 第66-67页 |
第四章 网页获取与信息抽取 | 第67-82页 |
4.1 网页批量获取 | 第67-74页 |
4.1.1 Google AJAX API | 第67-68页 |
4.1.2 HttpClient | 第68页 |
4.1.3 HtmlParser | 第68页 |
4.1.4 多线程网页获取模块设计与实现 | 第68-73页 |
4.1.4.1 WebExtract 类 | 第69-70页 |
4.1.4.2 GoogleQuery 类 | 第70-71页 |
4.1.4.3 LinkTable 类 | 第71-72页 |
4.1.4.4 ThreadPoolHelper 类 | 第72页 |
4.1.4.5 HttpClientHelper 类 | 第72-73页 |
4.1.5 网页批量获取效果 | 第73-74页 |
4.2 网页信息抽取 | 第74-80页 |
4.2.1 NekoHTML | 第74页 |
4.2.2 JoyDoc | 第74-75页 |
4.2.3 网页信息抽取模块设计与实现 | 第75-79页 |
4.2.3.1 网页信息抽取函数 | 第75页 |
4.2.3.2 段落权重计算函数 | 第75-79页 |
4.2.4 网页信息抽取效果 | 第79-80页 |
4.3 互联网定义抽取实验 | 第80-82页 |
4.3.1 实验方法 | 第80-81页 |
4.3.2 实验结果 | 第81-82页 |
第五章 互联网定义抽取模型 | 第82-86页 |
5.1 设计思想 | 第82-83页 |
5.2 互联网定义抽取模型设计 | 第83-86页 |
结论 | 第86-88页 |
参考文献 | 第88-91页 |
作者简介及在读期间科研成果 | 第91-92页 |
致谢 | 第92页 |