| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第一章 绪论 | 第8-13页 |
| ·结构化信息抽取的发展背景 | 第8-9页 |
| ·国内外研究状况 | 第9-10页 |
| ·国外研究状况 | 第9页 |
| ·国内研究状况 | 第9-10页 |
| ·研究的意义和目的 | 第10页 |
| ·研究的意义 | 第10页 |
| ·研究的目的 | 第10页 |
| ·当今技术分类及面临的主要问题 | 第10-11页 |
| ·论文工作相关说明 | 第11-12页 |
| ·本章小结 | 第12-13页 |
| 第二章 基于列表页的Web 结构化信息抽取算法的研究及改进 | 第13-26页 |
| ·列表页Web 页面介绍 | 第13-14页 |
| ·列表页数据抽取过程及算法的研究 | 第14-24页 |
| ·DOM 树的建立 | 第14-16页 |
| ·有关列表页数据记录的观察结果 | 第16-17页 |
| ·数据区域的挖掘 | 第17-20页 |
| ·数据记录的识别 | 第20-21页 |
| ·抽取模式生成 | 第21-24页 |
| ·本章小结 | 第24-26页 |
| 第三章 基于详情页的Web 结构化信息抽取算法的研究及改进 | 第26-35页 |
| ·详情页Web 页面介绍 | 第26-27页 |
| ·详情页数据的抽取过程及算法研究 | 第27-34页 |
| ·结构化数据模型及HTML 标记编码规则定义 | 第27-29页 |
| ·网页建模 | 第29-30页 |
| ·抽取算法 | 第30-34页 |
| ·本章小结 | 第34-35页 |
| 第四章 实验结果展示 | 第35-39页 |
| ·相关技术介绍 | 第35-36页 |
| ·Java 语言 | 第35页 |
| ·htmlparser | 第35-36页 |
| ·列表页形式的Web 页面的实验抽取结果 | 第36-37页 |
| ·详情页形式的Web 页面抽取结果 | 第37-39页 |
| 第五章 结论及技术展望 | 第39-41页 |
| ·论文的总结 | 第39页 |
| ·未来工作展望 | 第39-41页 |
| 参考文献 | 第41-43页 |
| 作者简介 | 第43页 |
| 作者在攻读硕士学位期间发表的学术论文 | 第43-44页 |
| 致谢 | 第44-45页 |