基于视觉语义块的网页正文提取算法研究

摘要	第1-4页
Abstract	第4-9页
第1章绪论	第9-14页
·课题背景	第9-11页
·本文工作	第11-12页
·本文组织	第12页
·本章小结	第12-14页
第2章网页正文提取技术分析	第14-24页
·基于DOM树的网页正文提取技术	第14-19页
·基于视觉特征的网页正文提取技术	第19-20页
·基于文本特征的网页正文提取技术	第20-23页
·本章小结	第23-24页
第3章基于视觉语义块的网页正文提取算法	第24-42页
·算法思想	第24-25页
·网页预处理工作	第25-28页
·字符编码问题	第26页
·规范网页源文件	第26-28页
·DOM树创建	第28-30页
·寻找最大视觉语义块	第30-35页
·寻找有效语义块	第35-39页
·合并有效语义块	第39-40页
·本章小结	第40-42页
第4章实验与分析	第42-53页
·实验环境	第42页
·实验数据	第42-43页
·实验评估	第43-52页
·提取结果展示	第43-49页
·平均准确率及平均召回率评估	第49-52页
·本章小结	第52-53页
第5章总结与展望	第53-55页
·研究总结	第53页
·研究展望	第53-55页
参考文献	第55-58页
攻读硕士学位期间主要的研究成果	第58-59页
致谢	第59页