首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于质心具有增量性质的主题爬行

提要第1-8页
第一章 绪论第8-25页
   ·互联网的兴起第8-9页
   ·通用搜索引擎第9-14页
     ·搜索引擎的分类第9-10页
     ·搜索引擎的发展历史第10-11页
     ·搜索引擎的基本原理第11-12页
     ·搜索引擎的局限性第12-13页
     ·搜索引擎的未来发展第13-14页
   ·面向主题的Internet资源发现第14-19页
     ·主题爬行技术概述第15-17页
     ·爬行网页集合的后处理第17-18页
     ·主题爬行与通用搜索引擎的关系第18-19页
   ·本文的研究内容第19-22页
     ·研究背景第19-20页
     ·关于锚文本(Anchor Text)的假设第20页
     ·本文的研究思路与内容第20-22页
   ·相关工作第22-23页
   ·本文的组织第23-25页
第二章 相关技术第25-55页
   ·信息检索技术第25-27页
     ·布尔模型第25-26页
     ·向量模型第26-27页
     ·概率模型第27页
   ·监督学习技术第27-42页
     ·监督学习的背景第28页
     ·特征选择第28-34页
       ·贪婪包含算法(Greedy Inclusion Algorithm)第30-33页
       ·切断算法(Truncation Algorithm)第33-34页
     ·评价文本分类器第34-36页
       ·精度测量第35-36页
     ·贝叶斯学习器第36-37页
       ·朴素贝叶斯学习器第37页
     ·最近邻学习器第37-39页
       ·优势与不足第38-39页
     ·支持向量机(Support Vector Machine)第39-41页
     ·超文本分类第41-42页
       ·超文本的表示第41-42页
   ·主题爬行技术第42-53页
     ·爬行框架第43页
     ·爬行算法第43-50页
       ·Best-First算法第43-44页
       ·SharkSearch算法第44-46页
       ·双分类器Critic-Apprentice框架第46-48页
       ·Context Graphs爬行算法第48-49页
       ·增强学习(Reinforcement Learning)第49-50页
     ·性能评价第50-53页
       ·超文本分类器的性能评价第52-53页
   ·小结第53-55页
第三章 TFIDF-2模型与质心构建第55-65页
   ·文档特征权重及其计算第55-56页
   ·质心特征权重及其计算第56-57页
   ·实验方法与实验结果第57-63页
     ·使用质心向量进行文本分类第57-60页
     ·使用质心向量提取未标识数据集中的相关文档第60-62页
     ·本体与质心向量相结合提取未标识数据集中的相关文档第62-63页
   ·小结第63-65页
第四章 基于质心的增量式主题爬行第65-77页
   ·概述第65页
   ·网页抓取与解析第65-66页
   ·锚文本在主题爬行中的使用第66-67页
   ·后端分类器的训练第67页
   ·前端分类器的训练第67-69页
   ·爬行优先级队列第69页
   ·爬行框架第69-70页
   ·主题爬行第70-72页
     ·具有增量性质的主题爬行第71-72页
   ·实验方法与结果第72-75页
     ·比较Sum+Back与Best-First两种爬行策略的效率第72-73页
     ·对比链接上下文信息三种提取方法的性能第73页
     ·检验TFIDF-2模型的有效性第73-74页
     ·基于质心向量的增量式主题爬行第74-75页
   ·小结第75-77页
第五章 总结与展望第77-80页
   ·本文的创新工作第77-78页
   ·不足之处与未来的工作第78-80页
参考文献第80-89页
攻读博士期间发表的学术论文及其它成果第89-91页
致谢第91-92页
摘要第92-96页
ABSTRACT第96-99页

论文共99页,点击 下载论文
上一篇:基于P2P网络的SIP通讯系统的设计与实现
下一篇:中国农村金融服务体系协调发展研究