首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网页采集、净化与分类

摘要第1-4页
ABSTRACT第4-11页
第一章 引言第11-15页
   ·研究背景和意义第11-12页
   ·搜索引擎发展概况第12-14页
   ·本文的研究内容第14页
   ·本文的组织结构第14-15页
第二章 网页采集第15-29页
   ·网页采集原理第15-18页
   ·面向主题的网页采集第18-22页
     ·面向主题的网页采集程序的特点第18页
     ·传统的面向主题的网页采集算法第18-22页
       ·基于内容评价的采集程序第19页
       ·基于巩固学习的搜索算法第19页
       ·PageRank方法第19-20页
       ·HITS算法第20-21页
       ·各种采集策略的特点第21-22页
   ·一种新的采集算法─基于Ontology的网页采集算法第22-29页
     ·Ontology的建立第22-23页
     ·采集算法第23-26页
     ·试验第26-28页
       ·传统的基于内容评价的采集程序第26页
       ·基于Ontology的采集程序第26-27页
       ·数据分析第27-28页
     ·结束语第28-29页
第三章 网页净化第29-50页
   ·概述第29-31页
   ·几种常见的网页分块方法第31-39页
     ·基于 DOM树的分割方法第31-32页
     ·ST树第32-34页
     ·VIPS(Vision-based Page Segmentation)第34-39页
       ·网页的基于可视化的内容结构第34-38页
       ·VIPS算法描述第38-39页
   ·几种网页净化方法第39-42页
     ·基于标签树的净化方法第39-40页
     ·基于 ST树的净化方法第40-41页
     ·基于标签树的净化方法与基于 ST树的净化方法的特点第41-42页
   ·一种新的网页净化方法─基于 VIPS的净化算法第42-50页
     ·算法描述第42-46页
     ·网页净化实例第46-49页
     ·小结第49-50页
第四章 网页分类第50-80页
   ·概述第50页
   ·特征项选取与文本表示第50-55页
     ·文本分词第50-51页
     ·特征项提取第51-54页
       ·IG(Information gain)第51页
       ·CHI第51-52页
       ·文档频率方法第52页
       ·互信息(MI)第52-53页
       ·信息熵第53-54页
     ·文本表示第54-55页
   ·传统的分类算法第55-63页
     ·简单向量距离分类法第55-56页
     ·贝叶斯算法第56-57页
     ·KNN第57-58页
       ·KNN算法原理第57页
       ·KNN算法的特点第57-58页
     ·LSA第58-59页
       ·LSA原理第58页
       ·LSA特点第58-59页
     ·支持向量机(SVM)第59-60页
       ·SVM原理第59-60页
       ·SVM特点第60页
     ·试验第60-63页
   ·一种新的文本分类算法─基于 Ontology的web文本分类法第63-71页
     ·引言第63页
     ·基于Ontology的Web文本分类第63-64页
       ·“知网”简介第63-64页
       ·将“知网”转化为Ontology第64页
     ·基于ontology的分类算法第64-67页
       ·确定分类体系第64页
       ·建立每个类的 Ontology第64-65页
       ·计算 T_On中各个概念与中心点的相关度第65-66页
       ·基于Ontology的分类算法第66-67页
     ·试验第67-70页
       ·KNN分类法第67-68页
       ·基于Ontology的分类法第68-70页
       ·数据比较与分析第70页
     ·结束语第70-71页
   ·LSA的新应用──多层次分类第71-80页
     ·概述第71页
     ·多层次Web文本分类方法第71-73页
       ·特征项的选取第71-72页
       ·特征项权重的计算第72-73页
     ·基于 LSA理论的多层次web分类第73-75页
       ·LSA理论第73页
       ·定义 LS空间第73-74页
       ·建立多层次类模型第74页
       ·web文本分类算法第74-75页
     ·实验第75-79页
       ·实验步骤第75-76页
       ·实验数据第76-79页
     ·结束语第79-80页
第五章 总结和展望第80-81页
参考文献第81-87页
附录 1──部分程序代码第87-100页
附录 2──已发表的论文第100-101页
致谢第101-102页

论文共102页,点击 下载论文
上一篇:NA和B值拟鞅差序列的几个大数定律
下一篇:云南东盟贸易背景下的昆明经济技术开发区开拓东盟市场战略研究