首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

主题搜索引擎中网络蜘蛛搜索策略研究

摘要第1-3页
Abstract第3-4页
目录第4-7页
第一章 绪论第7-17页
 1.1 背景第7-15页
  1.1.1 通用型搜索引擎第7-10页
  1.1.2 主题性搜索引擎第10-14页
  1.1.3 网络蜘蛛第14-15页
 1.2 本文的工作第15页
 1.3 本文的组织第15-17页
第二章 网络蜘蛛 Web信息提取概述第17-21页
 2.1 网络蜘蛛的基本原理与结构第17-19页
  2.1.1 URL处理器第17-18页
  2.1.2 Web信息提取器第18页
  2.1.3 网页去重检测器第18页
  2.1.4 URL提取器第18页
  2.1.5 标签信息获取器第18-19页
  2.1.6 数据库第19页
 2.2 Web信息提取中的主要技术问题第19-20页
 2.4 本章小结第20-21页
第三章 面向主题的网络蜘蛛 Web信息提取第21-33页
 3.1 面向主题的Web信息提取的优点第21-22页
 3.2 面向主题的Web信息提取的分类第22-23页
  3.2.1 广泛主题和具体主题的 Web信息提取第22页
  3.2.2 固定主题和可变主题的 Web信息提取第22-23页
 3.3 主题页面在Web上的分布特征第23-24页
  3.3.1 Hub特征第23页
  3.3.2 Linkage/ Sibling Locality特征第23页
  3.3.3 站点主题特征第23-24页
  3.3.4 Tunnel特征第24页
 3.4 相关性判别算法研究第24-31页
  3.4.1 基于元数据的判别第24-25页
  3.4.2 基于链接标签数据的判别第25-26页
  3.4.3 基于链接结构分析的判断第26-29页
  3.4.4 基于页面语义信息的判定第29-31页
 3.5 本章小结第31-33页
第四章 主题网络蜘蛛搜索策略算法研究第33-49页
 4.1 系统模型第33页
 4.2 主题选择第33-35页
  4.2.1 Web主题分类第33-35页
  4.2.1 主题选择策略第35页
 4.3 Web信息提取第35-38页
  4.3.1 信息提取线程调度策略第35-36页
  4.3.2 页面采集流程第36-37页
  4.3.3 采集数据的组织第37-38页
 4.4 页面分析与过滤第38-39页
  4.4.1 HTML语法分析第38页
  4.4.2 页面主题相关性判断算法第38-39页
 4.5 URL的主题相关性剪枝 EPR算法第39-43页
  4.5.1 EPR算法的目标第39-40页
  4.5.2 EPR算法的产生过程第40-42页
  4.5.3 基于 EPR的 URL主题裁剪算法第42-43页
 4.6 基于索引页的增量搜索策略第43-48页
  4.6.1 增量 Web信息提取概述第44页
  4.6.2 RSS/Atom在增量 Web信息提取中的应用第44-46页
  4.6.3 索引页概念的分析与提出第46-47页
  4.6.3 基于索引页的增量信息提取算法第47-48页
 4.7 本章小结第48-49页
第五章 实验系统与测试分析第49-53页
 5.1 简述第49-50页
 5.2 系统测试结果第50-53页
  5.2.1 测试页面集的选择第50页
  5.2.2 测试指标第50页
  5.2.3 对 URL主题相关性裁剪算法的测试第50-52页
  5.2.3 基于索引页的增量 Web信息提取算法应用分析第52页
  5.2.4 系统性能测试第52-53页
第六章 总结与展望第53-54页
参考文献第54-57页
致谢第57页

论文共57页,点击 下载论文
上一篇:云南新型农业合作经济组织利益机制研究
下一篇:凸面脑膜瘤硬膜侵袭的研究