结构化信息抽取—半自动化包装器的研究与应用

摘要	第1-5页
Abstract	第5-8页
第一章绪论	第8-13页
·结构化信息抽取的发展背景	第8-9页
·国内外研究状况	第9-10页
·国外研究状况	第9页
·国内研究状况	第9-10页
·研究的意义和目的	第10页
·研究的意义	第10页
·研究的目的	第10页
·当今技术分类及面临的主要问题	第10-11页
·论文工作相关说明	第11-12页
·本章小结	第12-13页
第二章基于列表页的Web 结构化信息抽取算法的研究及改进	第13-26页
·列表页Web 页面介绍	第13-14页
·列表页数据抽取过程及算法的研究	第14-24页
·DOM 树的建立	第14-16页
·有关列表页数据记录的观察结果	第16-17页
·数据区域的挖掘	第17-20页
·数据记录的识别	第20-21页
·抽取模式生成	第21-24页
·本章小结	第24-26页
第三章基于详情页的Web 结构化信息抽取算法的研究及改进	第26-35页
·详情页Web 页面介绍	第26-27页
·详情页数据的抽取过程及算法研究	第27-34页
·结构化数据模型及HTML 标记编码规则定义	第27-29页
·网页建模	第29-30页
·抽取算法	第30-34页
·本章小结	第34-35页
第四章实验结果展示	第35-39页
·相关技术介绍	第35-36页
·Java 语言	第35页
·htmlparser	第35-36页
·列表页形式的Web 页面的实验抽取结果	第36-37页
·详情页形式的Web 页面抽取结果	第37-39页
第五章结论及技术展望	第39-41页
·论文的总结	第39页
·未来工作展望	第39-41页
参考文献	第41-43页
作者简介	第43页
作者在攻读硕士学位期间发表的学术论文	第43-44页
致谢	第44-45页