首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页的预处理技术

提要第1-7页
第一章 引言第7-8页
第二章 网页正则化第8-15页
   ·编码的自动发现第8-9页
   ·全角转半角第9-15页
第三章 网页去重技术第15-24页
   ·引言第15页
   ·相关工作第15-17页
   ·基于SHINGLING 的网页去重算法第17-21页
     ·shingle 编码第18-20页
     ·网页去重算法描述第20-21页
   ·基于随机映射的网页去重算法第21-23页
     ·理论基础第21-22页
     ·算法描述第22-23页
   ·两个算法的比较第23-24页
第四章 网页去噪技术第24-33页
   ·引言第24页
   ·相关工作第24-25页
   ·算法描述第25-33页
     ·一些准备工作第25-26页
     ·基于网页结构的噪音去除方法第26-28页
     ·基于网页模板的噪音去除方法第28-30页
     ·基于可视化信息的去噪算法第30-33页
第五章 基于主题的网页去噪第33-40页
   ·引言第33页
   ·算法描述第33-37页
     ·训练分类器第33-34页
     ·将网页表示为内容块树第34页
     ·去除网页噪音第34-37页
   ·实验评估第37-40页
     ·算法实现第37页
     ·实验设置第37-40页
第六章 总结和展望第40-41页
参考文献第41-44页
摘要第44-47页
ABSTRACT第47-50页
致谢第50-51页
导师及作者简介第51页

论文共51页,点击 下载论文
上一篇:大型科学仪器工作站屏幕图像远程共享技术的研究
下一篇:SSL协议实现及其在远程抄表系统中的应用