首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎检索结果聚类系统的研究与实现

摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-14页
   ·研究背景与意义第10-11页
   ·研究现状第11-12页
     ·国外研究现状第12页
     ·国内研究现状第12页
   ·主要研究工作第12-13页
   ·论文结构第13-14页
第二章 搜索引擎相关技术分析第14-19页
   ·搜索引擎分类第14-15页
     ·按照应用技术分类第14页
     ·按照覆盖领域分类第14-15页
   ·搜索引擎体系结构第15-16页
     ·网络爬虫第16页
     ·索引器第16页
     ·检索器第16页
     ·用户接口第16页
   ·搜索引擎搜索结果分析第16-19页
     ·搜索结果显示第17页
     ·搜索结果分析第17-19页
第三章 聚类分析第19-34页
   ·聚类定义第19页
   ·主要聚类方法第19-22页
     ·基于划分的聚类算法第19页
     ·基于层次的聚类算法第19-21页
     ·基于网格的聚类算法第21页
     ·基于密度的聚类算法第21页
     ·基于模型的聚类算法第21页
     ·聚类算法的比较第21-22页
   ·文本聚类算法及相关技术第22-31页
     ·文本聚类定义第22页
     ·文本预处理第22-23页
     ·文本特征表示第23-25页
       ·布尔模型第23页
       ·概率模型第23-24页
       ·向量空间模型第24-25页
     ·特征提取与降维第25-29页
       ·特征选择第25-28页
       ·特征重构第28-29页
     ·聚类结果的评价方法第29-31页
       ·准确率和召回率第29页
       ·F-测量第29-30页
       ·宏平均和微平均第30-31页
   ·文本聚类与网络搜索结果聚类第31页
   ·网络搜索结果聚类系统概述第31-34页
第四章 网络搜索结果聚类系统的设计与实现第34-68页
   ·系统设计思想第34-38页
   ·系统结构第38页
   ·系统模块介绍第38-68页
     ·搜索结果获取模块第39-53页
       ·HERITRIX介绍第39页
       ·运行HERITRIX第39-41页
       ·设置任务第41-47页
       ·任务的运行第47-49页
       ·抓取结果第49-50页
       ·HTMLP-SER介绍第50页
       ·HTMLP-SER访问内容第50页
       ·HTMLP-SER处理过程第50-53页
     ·预处理模块第53-55页
     ·特征提取模块第55-60页
     ·聚类模块第60-68页
       ·后缀树算法定义第60-61页
       ·后缀树的构造第61-63页
       ·后缀树聚类算法第63-65页
       ·STC性能测试第65-66页
       ·STC中聚类标签的生成第66-68页
第五章 系统运行结果与分析第68-76页
   ·开发环境第68页
   ·实验数据集第68页
   ·实验结果第68-76页
     ·TF-IDF权重计算方法的改进第68-73页
     ·聚类系统运行结果对比第73-76页
第六章 总结和展望第76-78页
   ·总结第76页
   ·下一步工作第76-78页
参考文献第78-87页
作者攻读学位期间发表的学术论文目录第87页

论文共87页,点击 下载论文
上一篇:改进算法的文本去重研究
下一篇:中文多文档摘要关键技术研究