| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第一章 绪论 | 第8-14页 |
| ·研究背景 | 第8-9页 |
| ·发展历史和研究现状 | 第9-11页 |
| ·本文主要内容 | 第11-14页 |
| 第二章 Web信息提取技术综述 | 第14-27页 |
| ·分装器生成 | 第15-17页 |
| ·手工生成分装器 | 第15-16页 |
| ·半自动化生成分装器 | 第16页 |
| ·全自动生成分装器 | 第16-17页 |
| ·Web网页特征 | 第17-18页 |
| ·Web信息抽取规则表达 | 第18-19页 |
| ·有限状态自动机 | 第18页 |
| ·一阶逻辑规则 | 第18-19页 |
| ·常用Web信息抽取算法 | 第19-23页 |
| ·基于统计机器学习的信息抽取算法 | 第19-22页 |
| ·基于ontology方式的信息抽取算法 | 第22-23页 |
| ·基于HTML结构的信息抽取算法 | 第23页 |
| ·基于Web查询的信息抽取算法 | 第23页 |
| ·Web信息抽取系统的评价标准 | 第23-24页 |
| ·典型的Web信息抽取系统 | 第24-26页 |
| ·WIEN | 第24页 |
| ·SRV | 第24-25页 |
| ·WHISK | 第25-26页 |
| ·Cora计算机科学研究论文搜索引擎 | 第26页 |
| ·小结 | 第26-27页 |
| 第三章 系统开发环境及相关技术XML&DOM简介 | 第27-33页 |
| ·系统开发环境 | 第27-28页 |
| ·XML概述和模式 | 第28页 |
| ·XML在信息抽取中的优势 | 第28-30页 |
| ·XML在本文信息抽取中的应用 | 第30页 |
| ·DOM概述和特点 | 第30-31页 |
| ·小结 | 第31-33页 |
| 第四章 信息抽取系统PeopleInfoAbstract的实现 | 第33-46页 |
| ·系统流程图 | 第33-34页 |
| ·系统模块与功能 | 第34-35页 |
| ·网页数据采集 | 第35-38页 |
| ·网上人物信息的定义和分类 | 第35-36页 |
| ·网页采集标准 | 第36-38页 |
| ·网页预处理 | 第38-39页 |
| ·提取网页正文区 | 第38-39页 |
| ·去掉所有html标签 | 第39页 |
| ·PeopleInfoAbstract信息抽取算法 | 第39-45页 |
| ·算法流程图 | 第39-41页 |
| ·数据有效性检验和冗余判断 | 第41页 |
| ·字段值的提取 | 第41-43页 |
| ·姓名的提取 | 第43-45页 |
| ·小结 | 第45-46页 |
| 第五章 PeopleInfoAbstract系统的测试与改进 | 第46-51页 |
| ·系统测试 | 第46-49页 |
| ·系统改进 | 第49-51页 |
| 第六章 总结与展望 | 第51-53页 |
| ·本文主要研究内容 | 第51-52页 |
| ·下一步研究工作 | 第52-53页 |
| 参考文献 | 第53-55页 |
| 致谢 | 第55-56页 |
| 硕士期间发表论文 | 第56-57页 |
| 附录 | 第57-68页 |