基于HTML的Web信息抽取技术的研究与应用

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-15页
·课题研究背景	第10页
·信息抽取的发展及国内外研究现状	第10-12页
·信息抽取的概念与发展	第10-11页
·信息抽取的国内外研究现状	第11-12页
·Web信息抽取的发展及研究现状	第12-13页
·本论文研究的主要内容	第13-14页
·论文的组织结构	第14-15页
第2章信息抽取技术及相关技术概述	第15-29页
·Web信息抽取的含义	第15页
·Web信息抽取的几种方式	第15-22页
·基于自然语言处理方式的信息抽取	第16-17页
·基于本体方式的信息抽取	第17-18页
·基于包装器归纳的信息抽取	第18-19页
·基于HTML结构的信息抽取	第19-20页
·基于Web查询的信息抽取	第20-21页
·其它几种信息抽取方式	第21-22页
·相关技术及工作基础	第22-28页
·文本聚类技术简述	第22-23页
·人工神经网络简述	第23-25页
·相关基础工作简述	第25-28页
·本章小结	第28-29页
第3章基于HTML的Web信息抽取技术的研究	第29-54页
·新闻列表页特征的深入探讨	第29-31页
·页面结构特征及问题的提出	第31-34页
·Web信息抽取流程	第34-37页
·基于文本聚类算法的目标网页检索	第37-41页
·探寻目标网页算法设计	第37-40页
·算法描述	第40-41页
·HTML页面的预处理	第41-45页
·HTML到XML的格式转换	第41-43页
·XML文档解析	第43-45页
·信息抽取技术的设计	第45-52页
·基于BP神经网络的新闻列表页的抽取规则的设计	第45-49页
·基于BP神经网络的新闻正文页的抽取规则的设计	第49-52页
·信息抽取规则的建立	第52页
·本章小结	第52-54页
第4章应用实例-原型系统的信息抽取实现及性能评测	第54-61页
·原型系统信息抽取的整体设计	第54页
·开发环境及系统结构简述	第54-55页
·系统操作界面及其功能介绍	第55-58页
·信息抽取系统的评测指标	第58-59页
·实验结果评价及系统性能分析	第59-60页
·本章小结	第60-61页
结论	第61-63页
参考文献	第63-66页
攻读硕士学位期间发表的论文和取得的科研成果	第66-67页
致谢	第67页