Web信息抽取技术的研究与应用

摘要	第1-5页
ABSTRACT	第5-6页
创新点摘要	第6-9页
前言	第9-10页
第一章绪论	第10-21页
·信息抽取技术概述	第10-14页
·信息抽取发展历史及研究现状	第10-11页
·信息抽取系统的两大设计方法	第11-12页
·信息抽取文本的分类	第12-13页
·信息抽取技术的评价指标	第13-14页
·信息抽取方法分类	第14-16页
·按照自动化程度分类	第14页
·按照抽取技术路线的分类	第14-16页
·WEB信息抽取技术研究	第16-18页
·信息抽取的发展趋势	第18-19页
·本文的研究内容	第19-21页
第二章抽取规则描述	第21-29页
·抽取规则	第21-24页
·抽取规则定义	第21-22页
·典型抽取工具的规则描述	第22-24页
·正则表达式的概述	第24-28页
·正则表达式的定义	第24-26页
·正则表达式的测试	第26页
·页面清理	第26-28页
·小结	第28-29页
第三章基于规则的WEB信息抽取	第29-38页
·WEB信息抽取相关技术	第29-30页
·基于规则的WEB信息抽取	第30-36页
·系统流程	第30-32页
·DOM树生成算法	第32-34页
·抽取规则生成及抽取执行	第34-35页
·数据处理模块	第35-36页
·实验结果	第36页
·小结	第36-38页
第四章基于时间频率加权DOM的WEB信息抽取	第38-49页
·相关定义及技术	第38-42页
·基本定义	第38-39页
·HTML解析器	第39-42页
·基于TFW-DOM的WEB信息抽取概述	第42-48页
·DOM树的遍历算法	第43-44页
·页面清理模块	第44-46页
·DOM树加权	第46-47页
·计算抽取时间算法	第47-48页
·实验结果	第48页
·小结	第48-49页
结论	第49-50页
参考文献	第50-54页
发表文章目录	第54-55页
致谢	第55-56页
详细摘要	第56-66页