网页核心语义数据提取算法研究

摘要	第1-7页
ABSTRACT	第7-10页
第一章绪论	第10-14页
·研究背景和意义	第10页
·网页语义描述和提取	第10-12页
·本文工作和主要贡献	第12页
·本文结构	第12-14页
第二章相关技术和研究现状	第14-24页
·网络挖掘技术	第14-21页
·网页抽取	第14-19页
·网页分类	第19-21页
·网页语义研究	第21-24页
·语义网络和网络挖掘	第21-22页
·网页语义挖掘技术	第22-24页
第三章方法设计	第24-39页
·概念定义	第25-27页
·重复结构和重复单元	第25页
·网页生成模型	第25-27页
·重复结构定位方法	第27-32页
·分组算法	第28-29页
·合并规则	第29页
·特征选择	第29-32页
·结构化和表格提取	第32-34页
·序列化算法	第33页
·MSA算法在重复结构结构化中的应用	第33-34页
·结构化效果分析	第34页
·语义标定与网页逻辑结构划分	第34-38页
·重复结构语义标定	第34-35页
·非重复结构区域提取算法	第35-36页
·非重复结构区域语义标定	第36-37页
·特征选择	第37-38页
·本章小结	第38-39页
第四章实验分析	第39-45页
·实验环境	第39页
·数据集准备	第39页
·数据预处理	第39-40页
·分类型设计	第40-41页
·失衡样本上的分类器设计	第40页
·过滤效果的评价	第40-41页
·性能评价标准	第41页
·实验过程和分析	第41-45页
第五章总结和展望	第45-47页
·总结	第45页
·展望	第45-47页
附录	第47-48页
参考文献	第48-53页
后记	第53页