基于网站语义结构的信息抽取系统的研究与实现

致谢	第1-5页
中文摘要	第5-6页
ABSTRACT	第6-10页
1 引言	第10-19页
·研究背景	第10-11页
·信息抽取技术	第11-15页
·信息抽取定义	第11-12页
·信息抽取的应用对象	第12-14页
·信息抽取的评价标准	第14-15页
·网页信息抽取的实现方法	第15-17页
·基于自然语言处理方式的信息抽取	第15页
·基于Wrapper 归纳方式的信息抽取	第15-16页
·基于模型的信息抽取	第16页
·基于Ontology 方式的信息抽取	第16页
·基于Wrapper 开发语言的信息抽取	第16-17页
·基于HTML 结构的信息抽取	第17页
·研究的内容和意义	第17-18页
·论文的组织和安排	第18页
·本章小结	第18-19页
2 基于网站语义结构的信息抽取系统总体设计	第19-22页
·基于网站语义结构的信息抽取系统的研究思路	第19-20页
·系统的总体结构	第20页
·开发平台选择	第20-21页
·本章小结	第21-22页
3 构建网站网页搜索器	第22-40页
·问题描述	第22页
·网页链接识别实现方法	第22-25页
·链接属性判断实现方法	第25-28页
·网页编码识别实现方法	第28-31页
·其他问题处理方法	第31-34页
·页面重定向问题	第31-33页
·robots.txt 文件和Robots META 标签问题	第33-34页
·一些需要注意其他问题	第34页
·网	第34-38页
·搜索策略	第34-35页
·构建方式及作业管理	第35-38页
·流程图	第38页
·本章小结	第38-40页
4 构建网站语义结构生成器	第40-59页
·网站有向图	第40-45页
·引入网站有向图的目的	第40页
·表示方式与生成方法	第40-43页
·表示方式与生成方法的改进	第43-45页
·网页分类	第45-52页
·引入网页分类的目的	第45页
·网页分类的方法研究	第45-47页
·网站内网页分类策略	第47-49页
·基于网站语义的网页分类方法的提出	第49页
·从网站语义分类出发解决问题的一个应用实例	第49-52页
·网站语义结构生成算法	第52-57页
·本章小结	第57-59页
5 构建网页信息抽取器	第59-71页
·网页表示	第59-61页
·问题描述	第59页
·网页的标记树表示方法	第59页
·将网页转化为标记树实现方法	第59-61页
·主题信息抽取	第61-69页
·问题描述	第61页
·主题信息所处区域确定、网页去噪及模板生成	第61-69页
·标题信息抽取	第69页
·本章小结	第69-71页
6 结论和展望	第71-73页
参考文献	第73-75页
作者简历	第75-76页