首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎系统的研究与设计

摘要第2-3页
ABSTRACT第3页
第一章 绪论第7-16页
    1.1 研究背景第7-8页
    1.2 搜索引擎的分类第8-9页
        1.2.1 通用搜索引擎第8页
        1.2.2 垂直搜索引擎第8-9页
    1.3 垂直搜索的WEB 信息提取的优点第9-10页
    1.4 垂直搜索引擎的相关研究第10-13页
    1.5 论文的主要工作第13-14页
    1.6 论文的组织结构第14-16页
第二章 搜索引擎的原理第16-24页
    2.1 搜索引擎的系统架构第16-17页
        2.1.1 从互联网上抓取网页第16页
        2.1.2 建立索引数据库第16-17页
        2.1.3 在索引数据库中搜索第17页
        2.1.4 对搜索结果进行处理并排序第17页
    2.2 搜索引擎的工作流程第17-23页
        2.2.1 搜索器的工作流程第19-20页
        2.2.2 索引器的工作流程第20页
        2.2.3 检索器的工作流程第20-23页
        2.2.4 用户接口的工作流程第23页
    2.3 本章小结第23-24页
第三章 网络爬虫的相关知识第24-38页
    3.1 网络爬虫基本原理及结构第24-28页
        3.1.1 网络爬虫的基本结构第25-27页
        3.1.2 网络爬虫(Crawler)程序的常用构造方式第27-28页
    3.2 网络爬虫的工作流程第28-29页
    3.3 网络爬虫的搜索策略第29-35页
        3.3.1 基于内容评价的搜索策略第30-35页
    3.4 网络爬虫的性能评价指标第35-36页
    3.5 网页信息的采集流程第36-37页
    3.6 本章小结第37-38页
第四章 网络爬虫的分析与设计第38-48页
    4.1 网络爬虫的主体设计目标第38-39页
    4.2 网络爬虫系统的详细设计介绍第39-42页
        4.2.1 协议处理部分第40页
        4.2.2 页面分析部分第40页
        4.2.3 URL 优先权判定部分第40页
        4.2.4 页面内容检查部分第40页
        4.2.5 页面存储部分第40-42页
    4.3 网络爬虫的设计要点第42-47页
        4.3.1 网络爬虫系统的队列的选择第42-43页
        4.3.2 队列的数据结构及队列的管理第43-45页
        4.3.3 多线程技术的采用第45-46页
        4.3.4 网络爬虫停止协议第46-47页
    4.4 本章小结第47-48页
第五章 文本信息的抽取,存储和索引技术第48-59页
    5.1 网页内容的解析第48-50页
        5.1.1 HTML 语法的分析第48-50页
    5.2 网页中信息资源的提取第50-54页
        5.2.1 超链接信息的提取第51-53页
        5.2.2 正文内容的提取第53-54页
    5.3 文本特征信息的索引第54-57页
        5.3.1 倒排索引第54-56页
        5.3.2 Nextword 索引第56-57页
    5.4 本章小结第57-59页
第六章 全文总结第59-62页
    6.1 工作总结第59-60页
    6.2 研究展望第60-62页
参考文献第62-68页
致谢第68-69页
攻读硕士学位期间已发表的学术论文第69-71页

论文共71页,点击 下载论文
上一篇:苏南中小城市停车规划关键问题研究--以江阴市为例
下一篇:S公司VMI应用研究