首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于段落指纹的大规模近似网页检测算法研究

摘要第1-4页
Abstract第4-8页
1 绪论第8-13页
   ·研究背景第8-9页
   ·研究意义第9-10页
   ·本文研究内容第10-11页
   ·本文组织结构第11-13页
2 近似网页检测算法综述第13-24页
   ·近似网页的定义第13-14页
   ·近似网页检测研究现状第14-15页
   ·近似网页检测算法通用模型第15-21页
     ·特征提取算法第16-18页
     ·特征指纹生成算法第18-20页
     ·文本距离计算方法第20-21页
   ·近似网页检测算法评价指标第21页
   ·现有近似网页检测算法分析第21-23页
   ·本章小结第23-24页
3 基于加权DOM树的网页正文提取算法第24-40页
   ·网页噪声概述第24-25页
   ·网页正文提取算法分析第25-26页
   ·基于加权DOM树的网页正文提取算法第26-32页
     ·基本概念第26-27页
     ·算法思想第27-28页
     ·算法描述第28-31页
     ·算法对比与分析第31-32页
   ·实验数据与分析第32-38页
     ·实验环境和实验所用技术第32-33页
     ·单个网页的实验结果第33-36页
     ·多个网页的实验结果第36-37页
     ·实验数据分析第37-38页
   ·本章小结第38-40页
4 基于段落指纹的近似网页检测算法第40-62页
   ·算法的提出第40-41页
   ·算法的描述第41-44页
     ·算法总体流程的形式化描述第41-43页
     ·算法核心问题分析第43-44页
   ·基于加权长句的段落特征提取算法第44-46页
     ·段落长句提取第44页
     ·段落长句权重计算第44-46页
   ·基于SimHash的段落指纹生成算法第46-49页
     ·SimHash算法思想第47页
     ·段落指纹生成算法描述第47-49页
   ·网页相似度计算第49-50页
   ·算法的分析与优化第50-52页
   ·实验数据与分析第52-61页
     ·实验环境第52-53页
     ·实验内容和实验数据集第53页
     ·本文算法实验数据与分析第53-57页
     ·本文算法与已有算法的对比分析第57-61页
   ·本章小结第61-62页
5 基于MapReduce的近似网页检测算法并行化设计第62-81页
   ·MapReduce计算模型第62-65页
     ·MapReduce概述第62-63页
     ·MapReduce执行流程第63-64页
     ·Hadoop的开源MapReduce框架第64-65页
   ·近似网页检测算法的并行化设计第65-73页
     ·总体框架第65-66页
     ·段落指纹索引的建立第66-68页
     ·近似网页的检测第68-72页
     ·段落指纹索引的更新第72-73页
   ·实验数据与分析第73-80页
     ·实验环境第73-74页
     ·实验内容和实验数据集第74-75页
     ·算法MapReduce化的实现第75-77页
     ·实验数据分析第77-80页
   ·本章小结第80-81页
6 总结与展望第81-83页
   ·工作总结第81-82页
   ·工作展望第82-83页
致谢第83-84页
参考文献第84-88页

论文共88页,点击 下载论文
上一篇:企业邮件监管系统的设计与实现
下一篇:情感化设计在网络界面中的应用与研究