基于Web的信息抽取技术研究

摘要	第1-7页
Abstract	第7-10页
第1章绪论	第10-14页
·研究背景	第10-11页
·研究意义	第11-12页
·本文研究内容	第12页
·论文结构安排	第12-14页
第2章 Web信息抽取概述	第14-28页
·Web信息抽取的发展历史	第14-15页
·Web信息抽取的定义和Web信息的特点	第15-17页
·Web信息抽取技术分析	第17-26页
·基于正则表达式的信息抽取	第17-19页
·基于自然语言处理的信息抽取	第19-20页
·基于本体的信息抽取	第20-23页
·基于包装器归纳的信息抽取	第23-25页
·基于HTML结构的信息抽取	第25-26页
·基于Web查询的信息抽取	第26页
·本章小结	第26-28页
第3章基于XML技术的Web信息抽取	第28-38页
·概述	第28-30页
·问题的提出	第28页
·网页的格式及XML技术的优势	第28-30页
·Web信息抽取流程	第30-31页
·相关技术介绍	第31-38页
·DOM模型	第32-34页
·XPath	第34-38页
第四章基于XML技术的Web信息抽取的实现	第38-66页
·Web文档的预处理	第38-45页
·将HTML文档解析为DOM模型	第39页
·将HTML文档转换为形式上的XML文档	第39-45页
·抽取规则	第45-53页
·抽取规则的设计	第45-48页
·抽取规则的生成	第48-53页
·信息抽取	第53-57页
·附加语义	第57-60页
·抽取规则的优化	第60-66页
·利用标记属性进行优化	第61-62页
·利用标记之间的数量关系进行优化	第62-63页
·对新闻信息抽取规则进行优化	第63-66页
第五章原型系统和实验	第66-72页
·原型系统的介绍	第66-68页
·开发平台和工具	第66页
·操作界面和功能介绍	第66-68页
·信息抽取的评价标准	第68-69页
·实验结果及分析	第69-72页
结论	第72-74页
本文总结	第72页
下一步工作	第72-74页
致谢	第74-75页
参考文献	第75-79页
攻读硕士学位期间发表的论文	第79页