基于结构分析的大规模WWW文本信息检索技术的研究
独创性声明 | 第1页 |
关于论文使用授权的说明 | 第4-5页 |
摘 要 | 第5-7页 |
ABSTRACT | 第7-11页 |
第一章 WEB IR 技术研究 | 第11-37页 |
·课题背景 | 第11-12页 |
·Web IR 问题描述 | 第12-17页 |
·Web IR 与经典IR 的不同 | 第13-15页 |
·当前Web 检索存在的不足 | 第15-17页 |
·Web IR 研究的主要流派 | 第17-28页 |
·经典IR | 第17-19页 |
·元数据演算流派 | 第19-23页 |
·数据库方法流派 | 第23-26页 |
·链接分析流派 | 第26-28页 |
·各流派综合比较 | 第28页 |
·Web IR 工具和相关技术 | 第28-36页 |
·Web 分类目录 | 第28-29页 |
·搜索引擎 | 第29-36页 |
·小结 | 第36页 |
·论文内容安排 | 第36-37页 |
第二章 理想WEB IR 服务模式 | 第37-48页 |
·Web 用户信息检索特点 | 第37-38页 |
·理想Web IR 服务框架 | 第38-48页 |
·理想Web IR 服务框架 | 第38-44页 |
·超大规模综合型Web 搜索引擎技术 | 第44-45页 |
·领域型搜索引擎技术 | 第45-48页 |
第三章 SAINSE 原理 | 第48-57页 |
·概述 | 第48-51页 |
·粗粒度基本检索单位 | 第48-50页 |
·基于结构分析的页面聚类 | 第50页 |
·挖掘利用型标引 | 第50-51页 |
·通过链接分析产生页面组原理 | 第51-53页 |
·除镜像页面算法原理 | 第53-55页 |
·有关SAInSE 特色的几点讨论 | 第55-57页 |
第四章 SAINSE 系统实现 | 第57-78页 |
·概述 | 第57-58页 |
·噪音消解 | 第58-62页 |
·噪音链接和有效链接 | 第58-59页 |
·抽取链接和去除导航链接 | 第59-60页 |
·超级中心页面 | 第60页 |
·镜像页面 | 第60-61页 |
·停用页面和广告链接 | 第61-62页 |
·生成页面组 | 第62-65页 |
·页面组的标引 | 第65-76页 |
·页面组中各类文本反映主题能力的研究 | 第65-69页 |
·标引方案评测 | 第69-76页 |
·确定标引方案 | 第76页 |
·实现检索功能 | 第76-78页 |
第五章 SAINSE 检索效果和对比分析 | 第78-97页 |
·检索能力和检索质量 | 第78-79页 |
·检索特色比较 | 第79-96页 |
·SAInSE 检索特色小结 | 第96-97页 |
第六章 SAINSE 检索质量效果分析 | 第97-111页 |
·页面组覆盖面和质量问题 | 第97-100页 |
·页面组覆盖面和检索集合大小 | 第100-105页 |
·页面组的质量评价和错误页面组的识别 | 第105-110页 |
·SAInSE 的局限性 | 第110-111页 |
第7 章 结束语 | 第111-113页 |
·论文总结 | 第111-112页 |
·进一步的工作 | 第112-113页 |
参考文献 | 第113-120页 |
作者简介 | 第120-121页 |
发表文章目录 | 第121-122页 |
致 谢 | 第122-123页 |