网页核心语义数据提取算法研究
| 摘要 | 第1-7页 |
| ABSTRACT | 第7-10页 |
| 第一章 绪论 | 第10-14页 |
| ·研究背景和意义 | 第10页 |
| ·网页语义描述和提取 | 第10-12页 |
| ·本文工作和主要贡献 | 第12页 |
| ·本文结构 | 第12-14页 |
| 第二章 相关技术和研究现状 | 第14-24页 |
| ·网络挖掘技术 | 第14-21页 |
| ·网页抽取 | 第14-19页 |
| ·网页分类 | 第19-21页 |
| ·网页语义研究 | 第21-24页 |
| ·语义网络和网络挖掘 | 第21-22页 |
| ·网页语义挖掘技术 | 第22-24页 |
| 第三章 方法设计 | 第24-39页 |
| ·概念定义 | 第25-27页 |
| ·重复结构和重复单元 | 第25页 |
| ·网页生成模型 | 第25-27页 |
| ·重复结构定位方法 | 第27-32页 |
| ·分组算法 | 第28-29页 |
| ·合并规则 | 第29页 |
| ·特征选择 | 第29-32页 |
| ·结构化和表格提取 | 第32-34页 |
| ·序列化算法 | 第33页 |
| ·MSA算法在重复结构结构化中的应用 | 第33-34页 |
| ·结构化效果分析 | 第34页 |
| ·语义标定与网页逻辑结构划分 | 第34-38页 |
| ·重复结构语义标定 | 第34-35页 |
| ·非重复结构区域提取算法 | 第35-36页 |
| ·非重复结构区域语义标定 | 第36-37页 |
| ·特征选择 | 第37-38页 |
| ·本章小结 | 第38-39页 |
| 第四章 实验分析 | 第39-45页 |
| ·实验环境 | 第39页 |
| ·数据集准备 | 第39页 |
| ·数据预处理 | 第39-40页 |
| ·分类型设计 | 第40-41页 |
| ·失衡样本上的分类器设计 | 第40页 |
| ·过滤效果的评价 | 第40-41页 |
| ·性能评价标准 | 第41页 |
| ·实验过程和分析 | 第41-45页 |
| 第五章 总结和展望 | 第45-47页 |
| ·总结 | 第45页 |
| ·展望 | 第45-47页 |
| 附录 | 第47-48页 |
| 参考文献 | 第48-53页 |
| 后记 | 第53页 |