摘要 | 第1-5页 |
Abstract | 第5-8页 |
第一章 绪论 | 第8-14页 |
·研究背景 | 第8-9页 |
·发展历史和研究现状 | 第9-11页 |
·本文主要内容 | 第11-14页 |
第二章 Web信息提取技术综述 | 第14-27页 |
·分装器生成 | 第15-17页 |
·手工生成分装器 | 第15-16页 |
·半自动化生成分装器 | 第16页 |
·全自动生成分装器 | 第16-17页 |
·Web网页特征 | 第17-18页 |
·Web信息抽取规则表达 | 第18-19页 |
·有限状态自动机 | 第18页 |
·一阶逻辑规则 | 第18-19页 |
·常用Web信息抽取算法 | 第19-23页 |
·基于统计机器学习的信息抽取算法 | 第19-22页 |
·基于ontology方式的信息抽取算法 | 第22-23页 |
·基于HTML结构的信息抽取算法 | 第23页 |
·基于Web查询的信息抽取算法 | 第23页 |
·Web信息抽取系统的评价标准 | 第23-24页 |
·典型的Web信息抽取系统 | 第24-26页 |
·WIEN | 第24页 |
·SRV | 第24-25页 |
·WHISK | 第25-26页 |
·Cora计算机科学研究论文搜索引擎 | 第26页 |
·小结 | 第26-27页 |
第三章 系统开发环境及相关技术XML&DOM简介 | 第27-33页 |
·系统开发环境 | 第27-28页 |
·XML概述和模式 | 第28页 |
·XML在信息抽取中的优势 | 第28-30页 |
·XML在本文信息抽取中的应用 | 第30页 |
·DOM概述和特点 | 第30-31页 |
·小结 | 第31-33页 |
第四章 信息抽取系统PeopleInfoAbstract的实现 | 第33-46页 |
·系统流程图 | 第33-34页 |
·系统模块与功能 | 第34-35页 |
·网页数据采集 | 第35-38页 |
·网上人物信息的定义和分类 | 第35-36页 |
·网页采集标准 | 第36-38页 |
·网页预处理 | 第38-39页 |
·提取网页正文区 | 第38-39页 |
·去掉所有html标签 | 第39页 |
·PeopleInfoAbstract信息抽取算法 | 第39-45页 |
·算法流程图 | 第39-41页 |
·数据有效性检验和冗余判断 | 第41页 |
·字段值的提取 | 第41-43页 |
·姓名的提取 | 第43-45页 |
·小结 | 第45-46页 |
第五章 PeopleInfoAbstract系统的测试与改进 | 第46-51页 |
·系统测试 | 第46-49页 |
·系统改进 | 第49-51页 |
第六章 总结与展望 | 第51-53页 |
·本文主要研究内容 | 第51-52页 |
·下一步研究工作 | 第52-53页 |
参考文献 | 第53-55页 |
致谢 | 第55-56页 |
硕士期间发表论文 | 第56-57页 |
附录 | 第57-68页 |