面向OA期刊检索结果页面的信息抽取方法研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-16页
·课题背景及意义	第10-11页
·国内外研究现状	第11-14页
·本文的主要研究内容	第14-15页
·本文的组织结构	第15-16页
第2章信息抽取相关技术	第16-26页
·信息抽取综述	第16-18页
·信息抽取概述	第16-17页
·Web 信息抽取概述	第17-18页
·Web 信息抽取方法分类与典型系统介绍	第18-21页
·基于自然语言处理方式的信息抽取	第18-19页
·Wrapper 方式的信息抽取	第19页
·基于Ontology 方式的信息抽取	第19-20页
·基于HTML 结构的信息抽取	第20-21页
·基于Web 查询的信息抽取	第21页
·HTML 介绍	第21-23页
·HTML 基本语法	第22页
·HTML 结构树	第22-23页
·DOM 介绍	第23-24页
·Web 解析工具HtmlParser 介绍	第24-25页
·功能介绍	第24页
·访问HTML 的两种方式	第24-25页
·本章小结	第25-26页
第3章 OA 期刊检索结果页面的数据区域定位	第26-38页
·问题的分析	第26-28页
·要解决的问题	第26-27页
·目前的解决方法	第27-28页
·OA 期刊网站布局特点和结构特征	第28-31页
·数据记录集中显示	第28页
·数据记录标签相似性	第28页
·网页布局分块性	第28-30页
·网站布局相似性	第30-31页
·基于HtmlParser 的网页分块	第31-33页
·网页预处理	第31-32页
·网页分块模型	第32页
·网页分块算法	第32-33页
·基于统计的数据区域定位	第33-37页
·数据区域与非数据区域区别	第33-34页
·相关概念和定义	第34-35页
·基于统计的数据区域定位算法	第35-37页
·本章小结	第37-38页
第4章数据区域论文信息识别和抽取	第38-54页
·问题描述	第38-39页
·基于聚类的数据记录划分	第39-46页
·相关概念和定义	第39-41页
·相似度计算	第41-42页
·数据记录划分说明	第42-44页
·基于聚类的数据记录划分算法	第44-46页
·数据记录对齐	第46-48页
·数据单元语义识别	第48-53页
·语义标注集	第48页
·简单表格类型语义识别	第48-49页
·复杂表格和独立块表格类型语义识别	第49-53页
·本章小结	第53-54页
第5章算法的实验与评价	第54-64页
·实验及分析	第54-61页
·实验数据集	第54页
·实验评价标准	第54-55页
·实验结果	第55-61页
·本文算法在系统中应用效果	第61-63页
·本章小结	第63-64页
结论	第64-66页
参考文献	第66-71页
攻读硕士学位期间承担的科研任务与主要成果	第71-72页
致谢	第72-73页
作者简介	第73页