基于多特征的网页信息抽取技术的研究与应用

摘要	第5-7页
Abstract	第7-8页
1. 绪论	第12-20页
1.1 课题背景与意义	第12-13页
1.2 国内外研究现状	第13-17页
1.2.1 网页信息形式化组织研究现状	第13-14页
1.2.2 信息抽取技术研究现状	第14-17页
1.3 论文研究思路及创新点	第17-18页
1.4 论文组织结构	第18-20页
2. 网页信息抽取相关技术介绍	第20-26页
2.1 网页信息抽取概念	第20页
2.2 网页信息抽取关键技术	第20-23页
2.2.1 HTML	第20-21页
2.2.2 XML	第21-22页
2.2.3 DOM	第22-23页
2.2.4 正则表达式	第23页
2.3 网页信息抽取评价标准	第23-24页
2.4 本章小结	第24-26页
3. 网页信息形式化描述模型	第26-36页
3.1 网页信息形式化描述概念及原理	第28-31页
3.1.1 网页信息形式化描述概念	第28-30页
3.1.2 网页信息、形式化组织原理	第30-31页
3.2 网页信息粒度模型	第31-34页
3.3 网页形式化模型优点	第34-35页
3.4 本章小结	第35-36页
4. 基于结构与视觉相结合的信息抽取算法改进	第36-52页
4.1 网页结构分析技术	第36-39页
4.1.1 利用DOM树分析页面结构	第36-37页
4.1.2 利用HTML标签特性分析	第37-38页
4.1.3 利用网页视觉特征	第38-39页
4.2 网页DOM结构预处理	第39-43页
4.2.1 HTML格式标准化	第39-40页
4.2.2 网页噪声信息清除	第40-42页
4.2.3 DOM树节点标记信息处理	第42-43页
4.3 基于DOM结构的HTML标签分析	第43-45页
4.3.1 HTML结构性标签分析	第43-44页
4.3.2 HTML可视性标签分析	第44-45页
4.4 文本视觉特征提取与处理	第45-48页
4.4.1 基于CSS样式的视觉特征处理	第46-47页
4.4.2 基于文本特征的视觉特征处理	第47-48页
4.5 基于提取特征的块聚类	第48-50页
4.6 阈值的分析与确定	第50-51页
4.6.1 标签阂值	第50页
4.6.2 文本阈值	第50-51页
4.7 本章小结	第51-52页
5. 仿真及应用实验系统设计	第52-64页
5.1 传统网站移动化系统简介	第52页
5.2 实验环境	第52-53页
5.3 仿真实验系统架构设计	第53-55页
5.3.1 信息抽取模块	第53-54页
5.3.2 网页预处理模块	第54页
5.3.3 DOM结构处理模块	第54页
5.3.4 视觉信息处理模块	第54-55页
5.3.5 信息块处理模块	第55页
5.3.6 超链接处理模块	第55页
5.4 仿真实验结果及分析	第55-60页
5.4.1 网页抽取与组织实验	第55-56页
5.4.2 运行结果分析	第56-60页
5.5 应用系统实验结果及分析	第60-62页
5.5.1 应用及优势	第60-61页
5.5.2 运行效果演示	第61-62页
5.6 本章小结	第62-64页
6. 总结与展望	第64-67页
6.1 主要工作	第64-65页
6.2 主要创新点	第65页
6.3 存在问题及未来方向	第65-67页
参考文献	第67-71页
个人简历	第71页
在校期间研究成果	第71-72页
致谢	第72页