网页核心语义数据提取算法研究
摘要 | 第1-7页 |
ABSTRACT | 第7-10页 |
第一章 绪论 | 第10-14页 |
·研究背景和意义 | 第10页 |
·网页语义描述和提取 | 第10-12页 |
·本文工作和主要贡献 | 第12页 |
·本文结构 | 第12-14页 |
第二章 相关技术和研究现状 | 第14-24页 |
·网络挖掘技术 | 第14-21页 |
·网页抽取 | 第14-19页 |
·网页分类 | 第19-21页 |
·网页语义研究 | 第21-24页 |
·语义网络和网络挖掘 | 第21-22页 |
·网页语义挖掘技术 | 第22-24页 |
第三章 方法设计 | 第24-39页 |
·概念定义 | 第25-27页 |
·重复结构和重复单元 | 第25页 |
·网页生成模型 | 第25-27页 |
·重复结构定位方法 | 第27-32页 |
·分组算法 | 第28-29页 |
·合并规则 | 第29页 |
·特征选择 | 第29-32页 |
·结构化和表格提取 | 第32-34页 |
·序列化算法 | 第33页 |
·MSA算法在重复结构结构化中的应用 | 第33-34页 |
·结构化效果分析 | 第34页 |
·语义标定与网页逻辑结构划分 | 第34-38页 |
·重复结构语义标定 | 第34-35页 |
·非重复结构区域提取算法 | 第35-36页 |
·非重复结构区域语义标定 | 第36-37页 |
·特征选择 | 第37-38页 |
·本章小结 | 第38-39页 |
第四章 实验分析 | 第39-45页 |
·实验环境 | 第39页 |
·数据集准备 | 第39页 |
·数据预处理 | 第39-40页 |
·分类型设计 | 第40-41页 |
·失衡样本上的分类器设计 | 第40页 |
·过滤效果的评价 | 第40-41页 |
·性能评价标准 | 第41页 |
·实验过程和分析 | 第41-45页 |
第五章 总结和展望 | 第45-47页 |
·总结 | 第45页 |
·展望 | 第45-47页 |
附录 | 第47-48页 |
参考文献 | 第48-53页 |
后记 | 第53页 |