基于网页的信息抽取的研究

摘要	第1-4页
Abstract	第4-8页
1 绪论	第8-11页
·论文背景	第8页
·论文主要工作	第8-10页
·论文目标	第8-9页
·工作内容	第9页
·工作成果	第9页
·相关技术对比	第9-10页
·论文组织结构	第10页
·本章小结	第10-11页
2 信息抽取相关理论	第11-18页
·引言	第11页
·信息抽取的定义和任务	第11页
·信息抽取技术及工具	第11-14页
·基于自然语言处理方式的信息抽取	第12页
·包装器归纳方式的信息抽取	第12-13页
·基于ontology方式的信息抽取	第13页
·基于HTML结构的信息抽取	第13-14页
·基于Web查询的信息抽取	第14页
·知识表示方法研究	第14-16页
·概念图	第15页
·面向对象	第15页
·粗糙集	第15页
·XML	第15-16页
·Petri网	第16页
·框架结构	第16页
·本章小结	第16-18页
3 基于HTML的信息抽取技术	第18-33页
·引言	第18页
·HTML介绍	第18页
·基于HTML信息抽取的原理	第18-24页
·原理概述	第18-20页
·确定样本	第20-21页
·定义模式	第21-22页
·生成抽取规则	第22-24页
·抽取过程	第24页
·基于HTML信息抽取的实现技术	第24-32页
·正则表达式	第24-25页
·基于正则表达式的实现过程	第25-31页
·正则表达式的简化	第31-32页
·本章小结	第32-33页
4 基于HTML的信息抽取原型系统功能流程分析设计	第33-46页
·引言	第33页
·系统功能分析	第33-36页
·外部角色	第33页
·前端查询模块	第33-34页
·后台信息抽取模块	第34-36页
·核心信息抽取流程设计	第36-37页
·数据库设计	第37-40页
·系统数据表介绍	第37-39页
·同内容不同格式页面抽取的考虑	第39-40页
·后台信息抽取模块流程设计	第40-44页
·相同格式页面信息抽取	第40-42页
·不同格式页面信息抽取	第42-43页
·使用网络蜘蛛(Spider)抓取网页并抽取信息	第43-44页
·待抽取资源的接口抽象	第44-45页
·本章小结	第45-46页
5 原型系统详细设计	第46-70页
·引言	第46页
·信息抽取功能选择	第46页
·查看现有信息表	第46-47页
·创建新表	第47-48页
·向现有信息表中添加内容	第48-60页
·选择网页	第48-49页
·选择或创建规则	第49-50页
·创建新规则	第50-55页
·显示规则	第55-56页
·生成正则表达式	第56-60页
·使用网络蜘蛛抓取网页并抽取信息	第60-67页
·使用网络蜘蛛抓取网页	第61-65页
·网页过滤	第65页
·抓取及抽取结果	第65-67页
·前端查询	第67-69页
·本章小结	第69-70页
6 总结	第70-72页
·论文总结	第70页
·不足和改进	第70-72页
参考文献	第72-75页
攻读硕士学位期间发表的论文	第75-76页
致谢	第76-78页