基于多特征的网页信息抽取技术的研究与应用
摘要 | 第5-7页 |
Abstract | 第7-8页 |
1. 绪论 | 第12-20页 |
1.1 课题背景与意义 | 第12-13页 |
1.2 国内外研究现状 | 第13-17页 |
1.2.1 网页信息形式化组织研究现状 | 第13-14页 |
1.2.2 信息抽取技术研究现状 | 第14-17页 |
1.3 论文研究思路及创新点 | 第17-18页 |
1.4 论文组织结构 | 第18-20页 |
2. 网页信息抽取相关技术介绍 | 第20-26页 |
2.1 网页信息抽取概念 | 第20页 |
2.2 网页信息抽取关键技术 | 第20-23页 |
2.2.1 HTML | 第20-21页 |
2.2.2 XML | 第21-22页 |
2.2.3 DOM | 第22-23页 |
2.2.4 正则表达式 | 第23页 |
2.3 网页信息抽取评价标准 | 第23-24页 |
2.4 本章小结 | 第24-26页 |
3. 网页信息形式化描述模型 | 第26-36页 |
3.1 网页信息形式化描述概念及原理 | 第28-31页 |
3.1.1 网页信息形式化描述概念 | 第28-30页 |
3.1.2 网页信息、形式化组织原理 | 第30-31页 |
3.2 网页信息粒度模型 | 第31-34页 |
3.3 网页形式化模型优点 | 第34-35页 |
3.4 本章小结 | 第35-36页 |
4. 基于结构与视觉相结合的信息抽取算法改进 | 第36-52页 |
4.1 网页结构分析技术 | 第36-39页 |
4.1.1 利用DOM树分析页面结构 | 第36-37页 |
4.1.2 利用HTML标签特性分析 | 第37-38页 |
4.1.3 利用网页视觉特征 | 第38-39页 |
4.2 网页DOM结构预处理 | 第39-43页 |
4.2.1 HTML格式标准化 | 第39-40页 |
4.2.2 网页噪声信息清除 | 第40-42页 |
4.2.3 DOM树节点标记信息处理 | 第42-43页 |
4.3 基于DOM结构的HTML标签分析 | 第43-45页 |
4.3.1 HTML结构性标签分析 | 第43-44页 |
4.3.2 HTML可视性标签分析 | 第44-45页 |
4.4 文本视觉特征提取与处理 | 第45-48页 |
4.4.1 基于CSS样式的视觉特征处理 | 第46-47页 |
4.4.2 基于文本特征的视觉特征处理 | 第47-48页 |
4.5 基于提取特征的块聚类 | 第48-50页 |
4.6 阈值的分析与确定 | 第50-51页 |
4.6.1 标签阂值 | 第50页 |
4.6.2 文本阈值 | 第50-51页 |
4.7 本章小结 | 第51-52页 |
5. 仿真及应用实验系统设计 | 第52-64页 |
5.1 传统网站移动化系统简介 | 第52页 |
5.2 实验环境 | 第52-53页 |
5.3 仿真实验系统架构设计 | 第53-55页 |
5.3.1 信息抽取模块 | 第53-54页 |
5.3.2 网页预处理模块 | 第54页 |
5.3.3 DOM结构处理模块 | 第54页 |
5.3.4 视觉信息处理模块 | 第54-55页 |
5.3.5 信息块处理模块 | 第55页 |
5.3.6 超链接处理模块 | 第55页 |
5.4 仿真实验结果及分析 | 第55-60页 |
5.4.1 网页抽取与组织实验 | 第55-56页 |
5.4.2 运行结果分析 | 第56-60页 |
5.5 应用系统实验结果及分析 | 第60-62页 |
5.5.1 应用及优势 | 第60-61页 |
5.5.2 运行效果演示 | 第61-62页 |
5.6 本章小结 | 第62-64页 |
6. 总结与展望 | 第64-67页 |
6.1 主要工作 | 第64-65页 |
6.2 主要创新点 | 第65页 |
6.3 存在问题及未来方向 | 第65-67页 |
参考文献 | 第67-71页 |
个人简历 | 第71页 |
在校期间研究成果 | 第71-72页 |
致谢 | 第72页 |