基于页面结构分析的网页信息抽取方法研究

摘要	第1-5页
Abstract	第5-8页
第一章前言	第8-14页
·课题背景与意义	第8页
·国内外研究现状	第8-12页
·论文研究内容	第12-13页
·论文组织结构	第13-14页
第二章网页信息抽取技术综述	第14-22页
·网页信息抽取的概念	第14页
·网页信息抽取的关键技术	第14-18页
·HTML	第14-15页
·XML	第15-16页
·DOM	第16-17页
·正则表达式	第17页
·网页分块技术	第17-18页
·网页信息抽取技术分类	第18-21页
·基于自然语言处理的网页信息抽取	第18-19页
·基于Wrapper 的网页信息抽取	第19页
·基于Ontology 的网页信息抽取	第19页
·基于Web 查询的网页信息抽取	第19-20页
·基于HTML结构分析的网页信息抽取	第20页
·各方法的比较	第20-21页
·信息抽取评价标准	第21页
·本章小结	第21-22页
第三章页面结构分析方法	第22-32页
·页面结构分析技术	第22-25页
·利用DOM 树分析页面结构	第22-23页
·利用HTML标签的分布规律分析页面结构	第23-24页
·利用页面视觉特征分析页面结构	第24-25页
·各方法的比较	第25页
·本文的信息抽取方法	第25-27页
·问题的提出	第25-26页
·页面视觉特征分析的优势	第26-27页
·拟解决的关键问题	第27页
·本文研究的方法	第27-31页
·VIPS 算法	第27-29页
·文本聚类	第29-31页
·本章小结	第31-32页
第四章基于视觉特征的网页信息块抽取方法	第32-38页
·网页预处理	第32页
·网页分块	第32-33页
·块特征提取	第33-35页
·相似度计算	第35-36页
·聚类	第36-37页
·本章小结	第37-38页
第五章网页信息抽取实验系统设计	第38-50页
·实验环境设定	第38页
·实验系统结构设计	第38-43页
·DOM 树构建模块	第39页
·划分内容块模块	第39页
·特征提取模块	第39-41页
·相似度计算模块	第41页
·聚类模块	第41-43页
·运行结果及分析	第43-49页
·网页抽取实验	第43-45页
·网页分类实验	第45-47页
·运行结果分析	第47-49页
·本章小结	第49-50页
总结	第50-52页
主要工作	第50-51页
主要创新点	第51页
存在的问题及未来的方向	第51-52页
参考文献	第52-57页
在学期间的研究成果	第57-58页
致谢	第58页