基于结构分析的大规模WWW文本信息检索技术的研究
| 独创性声明 | 第1页 |
| 关于论文使用授权的说明 | 第4-5页 |
| 摘 要 | 第5-7页 |
| ABSTRACT | 第7-11页 |
| 第一章 WEB IR 技术研究 | 第11-37页 |
| ·课题背景 | 第11-12页 |
| ·Web IR 问题描述 | 第12-17页 |
| ·Web IR 与经典IR 的不同 | 第13-15页 |
| ·当前Web 检索存在的不足 | 第15-17页 |
| ·Web IR 研究的主要流派 | 第17-28页 |
| ·经典IR | 第17-19页 |
| ·元数据演算流派 | 第19-23页 |
| ·数据库方法流派 | 第23-26页 |
| ·链接分析流派 | 第26-28页 |
| ·各流派综合比较 | 第28页 |
| ·Web IR 工具和相关技术 | 第28-36页 |
| ·Web 分类目录 | 第28-29页 |
| ·搜索引擎 | 第29-36页 |
| ·小结 | 第36页 |
| ·论文内容安排 | 第36-37页 |
| 第二章 理想WEB IR 服务模式 | 第37-48页 |
| ·Web 用户信息检索特点 | 第37-38页 |
| ·理想Web IR 服务框架 | 第38-48页 |
| ·理想Web IR 服务框架 | 第38-44页 |
| ·超大规模综合型Web 搜索引擎技术 | 第44-45页 |
| ·领域型搜索引擎技术 | 第45-48页 |
| 第三章 SAINSE 原理 | 第48-57页 |
| ·概述 | 第48-51页 |
| ·粗粒度基本检索单位 | 第48-50页 |
| ·基于结构分析的页面聚类 | 第50页 |
| ·挖掘利用型标引 | 第50-51页 |
| ·通过链接分析产生页面组原理 | 第51-53页 |
| ·除镜像页面算法原理 | 第53-55页 |
| ·有关SAInSE 特色的几点讨论 | 第55-57页 |
| 第四章 SAINSE 系统实现 | 第57-78页 |
| ·概述 | 第57-58页 |
| ·噪音消解 | 第58-62页 |
| ·噪音链接和有效链接 | 第58-59页 |
| ·抽取链接和去除导航链接 | 第59-60页 |
| ·超级中心页面 | 第60页 |
| ·镜像页面 | 第60-61页 |
| ·停用页面和广告链接 | 第61-62页 |
| ·生成页面组 | 第62-65页 |
| ·页面组的标引 | 第65-76页 |
| ·页面组中各类文本反映主题能力的研究 | 第65-69页 |
| ·标引方案评测 | 第69-76页 |
| ·确定标引方案 | 第76页 |
| ·实现检索功能 | 第76-78页 |
| 第五章 SAINSE 检索效果和对比分析 | 第78-97页 |
| ·检索能力和检索质量 | 第78-79页 |
| ·检索特色比较 | 第79-96页 |
| ·SAInSE 检索特色小结 | 第96-97页 |
| 第六章 SAINSE 检索质量效果分析 | 第97-111页 |
| ·页面组覆盖面和质量问题 | 第97-100页 |
| ·页面组覆盖面和检索集合大小 | 第100-105页 |
| ·页面组的质量评价和错误页面组的识别 | 第105-110页 |
| ·SAInSE 的局限性 | 第110-111页 |
| 第7 章 结束语 | 第111-113页 |
| ·论文总结 | 第111-112页 |
| ·进一步的工作 | 第112-113页 |
| 参考文献 | 第113-120页 |
| 作者简介 | 第120-121页 |
| 发表文章目录 | 第121-122页 |
| 致 谢 | 第122-123页 |