基于语义和版式的网上人物信息提取

摘要	第1-5页
Abstract	第5-8页
第一章绪论	第8-14页
·研究背景	第8-9页
·发展历史和研究现状	第9-11页
·本文主要内容	第11-14页
第二章 Web信息提取技术综述	第14-27页
·分装器生成	第15-17页
·手工生成分装器	第15-16页
·半自动化生成分装器	第16页
·全自动生成分装器	第16-17页
·Web网页特征	第17-18页
·Web信息抽取规则表达	第18-19页
·有限状态自动机	第18页
·一阶逻辑规则	第18-19页
·常用Web信息抽取算法	第19-23页
·基于统计机器学习的信息抽取算法	第19-22页
·基于ontology方式的信息抽取算法	第22-23页
·基于HTML结构的信息抽取算法	第23页
·基于Web查询的信息抽取算法	第23页
·Web信息抽取系统的评价标准	第23-24页
·典型的Web信息抽取系统	第24-26页
·WIEN	第24页
·SRV	第24-25页
·WHISK	第25-26页
·Cora计算机科学研究论文搜索引擎	第26页
·小结	第26-27页
第三章系统开发环境及相关技术XML&DOM简介	第27-33页
·系统开发环境	第27-28页
·XML概述和模式	第28页
·XML在信息抽取中的优势	第28-30页
·XML在本文信息抽取中的应用	第30页
·DOM概述和特点	第30-31页
·小结	第31-33页
第四章信息抽取系统PeopleInfoAbstract的实现	第33-46页
·系统流程图	第33-34页
·系统模块与功能	第34-35页
·网页数据采集	第35-38页
·网上人物信息的定义和分类	第35-36页
·网页采集标准	第36-38页
·网页预处理	第38-39页
·提取网页正文区	第38-39页
·去掉所有html标签	第39页
·PeopleInfoAbstract信息抽取算法	第39-45页
·算法流程图	第39-41页
·数据有效性检验和冗余判断	第41页
·字段值的提取	第41-43页
·姓名的提取	第43-45页
·小结	第45-46页
第五章 PeopleInfoAbstract系统的测试与改进	第46-51页
·系统测试	第46-49页
·系统改进	第49-51页
第六章总结与展望	第51-53页
·本文主要研究内容	第51-52页
·下一步研究工作	第52-53页
参考文献	第53-55页
致谢	第55-56页
硕士期间发表论文	第56-57页
附录	第57-68页