致谢 | 第1-5页 |
中文摘要 | 第5-6页 |
ABSTRACT | 第6-10页 |
1 引言 | 第10-19页 |
·研究背景 | 第10-11页 |
·信息抽取技术 | 第11-15页 |
·信息抽取定义 | 第11-12页 |
·信息抽取的应用对象 | 第12-14页 |
·信息抽取的评价标准 | 第14-15页 |
·网页信息抽取的实现方法 | 第15-17页 |
·基于自然语言处理方式的信息抽取 | 第15页 |
·基于Wrapper 归纳方式的信息抽取 | 第15-16页 |
·基于模型的信息抽取 | 第16页 |
·基于Ontology 方式的信息抽取 | 第16页 |
·基于Wrapper 开发语言的信息抽取 | 第16-17页 |
·基于HTML 结构的信息抽取 | 第17页 |
·研究的内容和意义 | 第17-18页 |
·论文的组织和安排 | 第18页 |
·本章小结 | 第18-19页 |
2 基于网站语义结构的信息抽取系统总体设计 | 第19-22页 |
·基于网站语义结构的信息抽取系统的研究思路 | 第19-20页 |
·系统的总体结构 | 第20页 |
·开发平台选择 | 第20-21页 |
·本章小结 | 第21-22页 |
3 构建网站网页搜索器 | 第22-40页 |
·问题描述 | 第22页 |
·网页链接识别实现方法 | 第22-25页 |
·链接属性判断实现方法 | 第25-28页 |
·网页编码识别实现方法 | 第28-31页 |
·其他问题处理方法 | 第31-34页 |
·页面重定向问题 | 第31-33页 |
·robots.txt 文件和Robots META 标签问题 | 第33-34页 |
·一些需要注意其他问题 | 第34页 |
·网 | 第34-38页 |
·搜索策略 | 第34-35页 |
·构建方式及作业管理 | 第35-38页 |
·流程图 | 第38页 |
·本章小结 | 第38-40页 |
4 构建网站语义结构生成器 | 第40-59页 |
·网站有向图 | 第40-45页 |
·引入网站有向图的目的 | 第40页 |
·表示方式与生成方法 | 第40-43页 |
·表示方式与生成方法的改进 | 第43-45页 |
·网页分类 | 第45-52页 |
·引入网页分类的目的 | 第45页 |
·网页分类的方法研究 | 第45-47页 |
·网站内网页分类策略 | 第47-49页 |
·基于网站语义的网页分类方法的提出 | 第49页 |
·从网站语义分类出发解决问题的一个应用实例 | 第49-52页 |
·网站语义结构生成算法 | 第52-57页 |
·本章小结 | 第57-59页 |
5 构建网页信息抽取器 | 第59-71页 |
·网页表示 | 第59-61页 |
·问题描述 | 第59页 |
·网页的标记树表示方法 | 第59页 |
·将网页转化为标记树实现方法 | 第59-61页 |
·主题信息抽取 | 第61-69页 |
·问题描述 | 第61页 |
·主题信息所处区域确定、网页去噪及模板生成 | 第61-69页 |
·标题信息抽取 | 第69页 |
·本章小结 | 第69-71页 |
6 结论和展望 | 第71-73页 |
参考文献 | 第73-75页 |
作者简历 | 第75-76页 |