首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于标签特征向量的网页去噪声研究及其应用

目录第1-9页
摘要第9-10页
Abstract第10-11页
第一章 网页去噪声概述第11-21页
     ·研究背景第11-12页
       ·互联网及其应用发展第11-12页
       ·Web信息提取第12页
     ·研究意义第12-13页
     ·网页模型第13-17页
       ·HTML文档第13-14页
       ·元数据模型第14-16页
       ·DocView模型第16页
       ·DOM树第16-17页
     ·网页噪声及其分类第17-19页
     ·国内外研究现状第19页
     ·本文组织结构第19-21页
       ·本文主要研究内容第19-20页
       ·本文的组织结构第20-21页
第二章 网页去噪声主要模型和方法第21-33页
     ·压缩样式树模型第21-25页
       ·压缩样式树例子第21-22页
       ·相关定义第22-23页
       ·DOM树合并过程第23-24页
       ·权重策略第24-25页
       ·结果评估第25页
     ·基于内容块的模型第25-29页
       ·块的划分第26页
       ·主要过程第26-29页
     ·基于视觉分块模型第29-31页
       ·网页块重要性等级第29页
       ·标签块重要性模型第29-31页
     ·其他方法综述第31-32页
     ·总结第32-33页
第三章 基于标签特征向量的模型和方法第33-46页
     ·聚类分析第33-37页
       ·聚类的准则函数第33-34页
       ·聚类中常用的距离第34-35页
       ·常用聚类方法第35-37页
       ·几种常用算法比较第37页
     ·标签特征向量模型第37-44页
       ·模型定义第37-39页
       ·基于标签特征向量的网页去噪声方法第39-44页
     ·标签特征向量模型的其他应用第44-46页
       ·网页分类器第44页
       ·文本块容器第44-46页
第四章 基于标签特征向量的模型实现第46-51页
     ·HtmlParser介绍第46-48页
       ·主要类和接口第46-47页
       ·HtmlParser主要功能第47-48页
     ·主要数据结构第48-49页
       ·特征向量的结构第48页
       ·标签重要性定义第48-49页
     ·主要算法代码实现第49-51页
       ·规范化DOM树第49页
       ·产生中间节点第49页
       ·标注叶子节点特征第49-50页
       ·聚类第50页
       ·选取文本簇第50页
       ·标签节点位置关系判断第50-51页
第五章 实验结果及其分析第51-61页
     ·实验流程图第51-54页
       ·网页去噪声流程图第51-52页
       ·分类子系统流程图第52-53页
       ·实验说明第53-54页
     ·网页去噪声度量指标第54-55页
       ·查全率第54页
       ·查准率第54页
       ·F-分数第54页
       ·纯净度第54页
       ·完整性第54-55页
     ·网页去噪声数据源和参数设定第55-56页
     ·网页去噪声实验结果及其分析第56-60页
       ·分类实验第56页
       ·文本抽取实验第56-59页
       ·内容块容器实验第59-60页
     ·网页去噪声实验总结第60-61页
第六章 总结和展望第61-63页
     ·总结第61页
     ·展望第61-63页
附录第63-69页
参考文献第69-72页
致谢第72页

论文共72页,点击 下载论文
上一篇:基于web日志挖掘的个性化服务研究
下一篇:Peers-assisted CDN系统的研究与改进