首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于主题的网络蜘蛛的设计与实现

中文摘要第3-4页
ABSTRACT第4页
引言第8-10页
第1章 搜索引擎概述第10-24页
    1.1 搜索引擎简介第10-19页
        1.1.1 搜索引擎的诞生第13页
        1.1.2 搜索引擎的分类第13-14页
        1.1.3 搜索引擎的原理第14-17页
        1.1.4 搜索引擎发展趋势第17-19页
    1.2 主题型搜索引擎概述第19-22页
        1.2.1 产生背景第19-21页
        1.2.2 主题型搜索引擎第21-22页
    1.3 主题搜索的研究与发展现况第22页
    1.4 网络蜘蛛第22-23页
    1.5 本文的主要工作第23-24页
第2章 主题蜘蛛技术概述第24-32页
    2.1 网络蜘蛛简介第24-25页
    2.2 网络蜘蛛关键技术第25-26页
    2.3 主题蜘蛛的搜索策略第26-28页
        2.3.1 基于内容评价的搜索策略第26-27页
        2.3.2 基于链接结构评价的搜索策略第27-28页
    2.4 主题相关度计算第28-30页
        2.4.1 HTML链接标签第29页
        2.4.2 本文的主题相关度计算方法第29-30页
    2.5 初始URL的选择第30-31页
        2.5.1 Web主题关联模型第30-31页
        2.5.2 初始URL的选择方法第31页
    2.6 本章小结第31-32页
第3章 页面正文提取与中文分词第32-40页
    3.1 页面正文提取技术第32-37页
        3.1.1 HTML简介第32-33页
        3.1.2 HTML文档标准化第33-34页
        3.1.3 构造标签树第34页
        3.1.4 HTML内容分块技术第34-35页
        3.1.5 正文块提取第35-36页
        3.1.6 正则表达式第36-37页
    3.2 中文分词简介第37-39页
        3.2.1 中文分词常用算法第38-39页
    3.3 本章小结第39-40页
第4章 基于主题的蜘蛛设计与实现第40-60页
    4.1 数据库主要表设计第40-42页
        4.1.1 Link表第40-41页
        4.1.2 Topic表第41页
        4.1.3 Document表第41-42页
    4.2 架构设计第42-43页
    4.3 作业管理器第43-44页
    4.4 线程管理器第44-48页
        4.4.1 多线程技术第44-46页
        4.4.2 线程管理器第46-48页
    4.5 Spider类的实现第48-50页
    4.6 重复检测技术实现第50-51页
    4.7 中文分词技术实现第51-57页
        4.7.1 词典结构设计第52-53页
        4.7.2 构建词典第53-54页
        4.7.3 切词实现第54-57页
    4.8 动态网页内容获得技术实现第57-58页
    4.9 实验效果第58-59页
    4.10 本章小结第59-60页
第5章 主题蜘蛛性能分析第60-62页
    5.1 主题蜘蛛的性能分析第60-61页
    5.2 本章小结第61-62页
第6章 主题词典第62-65页
    6.1 主题词典的建立第62-63页
    6.2 主题词典的维护第63-64页
    6.3 本章小结第64-65页
结论第65-66页
参考文献第66-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:法官员额制研究
下一篇:蓝宝石红外窗口用碳纳米管薄膜的制备及其性能调控研究