摘要 | 第4-5页 |
Abstract | 第5-6页 |
第1章 绪论 | 第10-16页 |
1.1 论文的研究背景 | 第10-11页 |
1.1.1 研究背景意义 | 第10页 |
1.1.2 选题意义 | 第10-11页 |
1.2 研究问题描述 | 第11-12页 |
1.3 国内外研究现状 | 第12-13页 |
1.4 研究的主要内容 | 第13页 |
1.5 论文的章节安排 | 第13-16页 |
第2章 相关工作综述 | 第16-22页 |
2.1 链式数据的抽取 | 第16页 |
2.2 网页数据的抽取 | 第16-17页 |
2.2.1 文本数据的抽取 | 第17页 |
2.2.2 表格数据的抽取 | 第17页 |
2.3 链式数据关联概述 | 第17-18页 |
2.4 Wikipedia | 第18-19页 |
2.5 DBpedia | 第19-22页 |
第3章 从DBpedia中抽取金属材料知识 | 第22-36页 |
3.1 抽取步骤 | 第22-30页 |
3.1.1 利用递归算法获取Wikipedia API | 第23-24页 |
3.1.2 获取候选种子数据集 | 第24-25页 |
3.1.3 利用直接链接子图语义距离算法(DLSSD)进行初步筛选 | 第25-28页 |
3.1.4 根据语义字符串算法对金属材料进一步筛选 | 第28-29页 |
3.1.5 获取金属材料实例和金属材料属性 | 第29-30页 |
3.2 抽取金属材料算法实验评价及抽取结果 | 第30-35页 |
3.2.1 DLSSD算法实验 | 第30-31页 |
3.2.2 语义字符串算法实验 | 第31-32页 |
3.2.3 逐步过滤策略和Wu-Palmer算法效果对比实验 | 第32-33页 |
3.2.4 逐步过滤算法和Wu-Palmer算法时间性能对比实验 | 第33页 |
3.2.5 协同过滤算法时间性能实验 | 第33-34页 |
3.2.6 抽取结果 | 第34-35页 |
3.3 本章小结 | 第35-36页 |
第4章 基于Wikipedia对抽取数据进行补充 | 第36-56页 |
4.1 数据补充框架 | 第36-39页 |
4.1.1 表格抽取器 | 第37-38页 |
4.1.2 参考文献等信息抽取器 | 第38-39页 |
4.1.3 图片信息抽取器 | 第39页 |
4.2 表格抽取 | 第39-46页 |
4.2.1 获取简洁的材料网页 | 第39页 |
4.2.2 网页表格识别 | 第39-40页 |
4.2.3 网页表格标准化 | 第40-43页 |
4.2.4 网页表格结构识别 | 第43-44页 |
4.2.5 网页表格内容抽取 | 第44-45页 |
4.2.6 对金属材料数据语义丰富 | 第45页 |
4.2.7 基于本体表格抽取的实例图 | 第45-46页 |
4.3 参考文献等信息抽取补充 | 第46-50页 |
4.3.1 文献定位 | 第46-47页 |
4.3.2 内容匹配和抽取 | 第47-48页 |
4.3.4 生成链式数据 | 第48-50页 |
4.4 图片等信息抽取补充 | 第50-51页 |
4.5 实验 | 第51-55页 |
4.5.1 表格定位实验 | 第51-52页 |
4.5.2 表格结构识别实验 | 第52-54页 |
4.5.3 表格处理时间性能实验 | 第54页 |
4.5.4 参考文献等信息抽取抽实验 | 第54-55页 |
4.6 本章小结 | 第55-56页 |
第5章 金属材料图谱链接到材料本体 | 第56-62页 |
5.1 金属材料图谱链接到本体框架 | 第56-58页 |
5.1.1 数据选定 | 第56-57页 |
5.1.2 数据比较 | 第57-58页 |
5.1.3 结果过滤和分析 | 第58页 |
5.2 基于SILK框架把金属材料图谱链接到本体 | 第58-60页 |
5.3 链接数据实验评价 | 第60-61页 |
5.4 本章小结 | 第61-62页 |
第6章 软件系统设计和展示 | 第62-70页 |
6.1 Jena介绍 | 第62页 |
6.2 需求分析 | 第62页 |
6.3 类图 | 第62-63页 |
6.4 从DBpedia中抽取金属材料的设计与实现 | 第63-66页 |
6.5 对Wikipedia网页中相关金属材料数据抽取的设计与实现 | 第66-68页 |
6.6 数据展示 | 第68-69页 |
6.7 本章小结 | 第69-70页 |
结论 | 第70-72页 |
参考文献 | 第72-75页 |
攻读硕士学位期间所发表的论文 | 第75-76页 |
致谢 | 第76页 |