首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于半监督聚类的爬虫在线样本生成算法

摘要第1-5页
Abstract第5-10页
第1章 绪论第10-18页
   ·研究背景和意义第10-11页
   ·国内外相关技术研究现状第11-16页
     ·主题爬虫技术现状第11-14页
     ·样本生成研究现状第14-16页
   ·本文的主要研究内容与章节组织第16-18页
第2章 基于分类的样本生成算法第18-24页
   ·引言第18页
   ·基于分类的样本生成算法第18-22页
     ·静态样本生成算法的缺陷第18-19页
     ·基于分类的增量样本生成算法研究第19-21页
     ·基于分类的样本生成算法存在的问题第21-22页
   ·实验结果及分析第22页
   ·本章小结第22-24页
第3章 基于半监督聚类的增量样本生成算法第24-45页
   ·基于增量学习的样本生成模型第24-27页
     ·增量学习模型的定义第24-26页
     ·基于增量学习的样本生成器体系结构第26-27页
   ·半监督聚类算法CONSTRAINED-KMEANS第27-33页
     ·聚类算法第27-28页
     ·constrained-kmeans 算法第28-29页
     ·基于锚文本的页面模型第29页
     ·hubs 页面的特征描述第29-30页
     ·基于锚文本的页面模型第30-32页
     ·样本向量空间中距离的定义第32页
     ·全样本向量第32-33页
   ·增量样本生成算法第33-38页
     ·基于constrain-kmeans 的样本生成算法第33-35页
     ·样本增量策略第35-36页
     ·ISG 算法及其分析第36-38页
   ·实验与分析第38-43页
     ·数据描述第38页
     ·结果分析第38-43页
   ·本章小结第43-45页
第4章 采用多页面特征的改进样本生成算法第45-53页
   ·问题的定义第45-47页
     ·窄主题样本生成问题第45-46页
     ·样本生成准确率降低的原因第46-47页
   ·样本页面特征表示模型第47-49页
     ·超文本的多特征特性第47-48页
     ·基于多特征的页面表示模型第48-49页
   ·基于多特征的样本生成算法第49-51页
     ·种子向量模型建立的问题第49-50页
     ·基于多特征的样本生成算法第50-51页
   ·实验与分析第51-52页
     ·数据描述第51页
     ·实验结果分析第51-52页
   ·本章小结第52-53页
第5章 增量样本生成系统与应用第53-61页
   ·系统设计与实现第53-54页
     ·系统的功能目标第53页
     ·开发平台及工具第53-54页
   ·系统总体设计第54-55页
   ·系统详细设计第55-59页
     ·爬行解析模块第55-56页
     ·页面特征提取/数据预处理模块第56页
     ·样本模型建立模块第56-57页
     ·样本生成模块第57-58页
     ·样本增量筛选模块第58-59页
   ·系统应用第59-60页
   ·本章小结第60-61页
结论第61-62页
参考文献第62-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:基于ontology的Blog信息抽取技术研究
下一篇:主题驱动的Blog社区发现技术研究