搜索引擎检索结果聚类系统的研究与实现
摘要 | 第1-5页 |
ABSTRACT | 第5-10页 |
第一章 绪论 | 第10-14页 |
·研究背景与意义 | 第10-11页 |
·研究现状 | 第11-12页 |
·国外研究现状 | 第12页 |
·国内研究现状 | 第12页 |
·主要研究工作 | 第12-13页 |
·论文结构 | 第13-14页 |
第二章 搜索引擎相关技术分析 | 第14-19页 |
·搜索引擎分类 | 第14-15页 |
·按照应用技术分类 | 第14页 |
·按照覆盖领域分类 | 第14-15页 |
·搜索引擎体系结构 | 第15-16页 |
·网络爬虫 | 第16页 |
·索引器 | 第16页 |
·检索器 | 第16页 |
·用户接口 | 第16页 |
·搜索引擎搜索结果分析 | 第16-19页 |
·搜索结果显示 | 第17页 |
·搜索结果分析 | 第17-19页 |
第三章 聚类分析 | 第19-34页 |
·聚类定义 | 第19页 |
·主要聚类方法 | 第19-22页 |
·基于划分的聚类算法 | 第19页 |
·基于层次的聚类算法 | 第19-21页 |
·基于网格的聚类算法 | 第21页 |
·基于密度的聚类算法 | 第21页 |
·基于模型的聚类算法 | 第21页 |
·聚类算法的比较 | 第21-22页 |
·文本聚类算法及相关技术 | 第22-31页 |
·文本聚类定义 | 第22页 |
·文本预处理 | 第22-23页 |
·文本特征表示 | 第23-25页 |
·布尔模型 | 第23页 |
·概率模型 | 第23-24页 |
·向量空间模型 | 第24-25页 |
·特征提取与降维 | 第25-29页 |
·特征选择 | 第25-28页 |
·特征重构 | 第28-29页 |
·聚类结果的评价方法 | 第29-31页 |
·准确率和召回率 | 第29页 |
·F-测量 | 第29-30页 |
·宏平均和微平均 | 第30-31页 |
·文本聚类与网络搜索结果聚类 | 第31页 |
·网络搜索结果聚类系统概述 | 第31-34页 |
第四章 网络搜索结果聚类系统的设计与实现 | 第34-68页 |
·系统设计思想 | 第34-38页 |
·系统结构 | 第38页 |
·系统模块介绍 | 第38-68页 |
·搜索结果获取模块 | 第39-53页 |
·HERITRIX介绍 | 第39页 |
·运行HERITRIX | 第39-41页 |
·设置任务 | 第41-47页 |
·任务的运行 | 第47-49页 |
·抓取结果 | 第49-50页 |
·HTMLP-SER介绍 | 第50页 |
·HTMLP-SER访问内容 | 第50页 |
·HTMLP-SER处理过程 | 第50-53页 |
·预处理模块 | 第53-55页 |
·特征提取模块 | 第55-60页 |
·聚类模块 | 第60-68页 |
·后缀树算法定义 | 第60-61页 |
·后缀树的构造 | 第61-63页 |
·后缀树聚类算法 | 第63-65页 |
·STC性能测试 | 第65-66页 |
·STC中聚类标签的生成 | 第66-68页 |
第五章 系统运行结果与分析 | 第68-76页 |
·开发环境 | 第68页 |
·实验数据集 | 第68页 |
·实验结果 | 第68-76页 |
·TF-IDF权重计算方法的改进 | 第68-73页 |
·聚类系统运行结果对比 | 第73-76页 |
第六章 总结和展望 | 第76-78页 |
·总结 | 第76页 |
·下一步工作 | 第76-78页 |
参考文献 | 第78-87页 |
作者攻读学位期间发表的学术论文目录 | 第87页 |