垂直搜索引擎系统的研究与设计

摘要	第2-3页
ABSTRACT	第3页
第一章绪论	第7-16页
1.1 研究背景	第7-8页
1.2 搜索引擎的分类	第8-9页
1.2.1 通用搜索引擎	第8页
1.2.2 垂直搜索引擎	第8-9页
1.3 垂直搜索的WEB 信息提取的优点	第9-10页
1.4 垂直搜索引擎的相关研究	第10-13页
1.5 论文的主要工作	第13-14页
1.6 论文的组织结构	第14-16页
第二章搜索引擎的原理	第16-24页
2.1 搜索引擎的系统架构	第16-17页
2.1.1 从互联网上抓取网页	第16页
2.1.2 建立索引数据库	第16-17页
2.1.3 在索引数据库中搜索	第17页
2.1.4 对搜索结果进行处理并排序	第17页
2.2 搜索引擎的工作流程	第17-23页
2.2.1 搜索器的工作流程	第19-20页
2.2.2 索引器的工作流程	第20页
2.2.3 检索器的工作流程	第20-23页
2.2.4 用户接口的工作流程	第23页
2.3 本章小结	第23-24页
第三章网络爬虫的相关知识	第24-38页
3.1 网络爬虫基本原理及结构	第24-28页
3.1.1 网络爬虫的基本结构	第25-27页
3.1.2 网络爬虫(Crawler)程序的常用构造方式	第27-28页
3.2 网络爬虫的工作流程	第28-29页
3.3 网络爬虫的搜索策略	第29-35页
3.3.1 基于内容评价的搜索策略	第30-35页
3.4 网络爬虫的性能评价指标	第35-36页
3.5 网页信息的采集流程	第36-37页
3.6 本章小结	第37-38页
第四章网络爬虫的分析与设计	第38-48页
4.1 网络爬虫的主体设计目标	第38-39页
4.2 网络爬虫系统的详细设计介绍	第39-42页
4.2.1 协议处理部分	第40页
4.2.2 页面分析部分	第40页
4.2.3 URL 优先权判定部分	第40页
4.2.4 页面内容检查部分	第40页
4.2.5 页面存储部分	第40-42页
4.3 网络爬虫的设计要点	第42-47页
4.3.1 网络爬虫系统的队列的选择	第42-43页
4.3.2 队列的数据结构及队列的管理	第43-45页
4.3.3 多线程技术的采用	第45-46页
4.3.4 网络爬虫停止协议	第46-47页
4.4 本章小结	第47-48页
第五章文本信息的抽取，存储和索引技术	第48-59页
5.1 网页内容的解析	第48-50页
5.1.1 HTML 语法的分析	第48-50页
5.2 网页中信息资源的提取	第50-54页
5.2.1 超链接信息的提取	第51-53页
5.2.2 正文内容的提取	第53-54页
5.3 文本特征信息的索引	第54-57页
5.3.1 倒排索引	第54-56页
5.3.2 Nextword 索引	第56-57页
5.4 本章小结	第57-59页
第六章全文总结	第59-62页
6.1 工作总结	第59-60页
6.2 研究展望	第60-62页
参考文献	第62-68页
致谢	第68-69页
攻读硕士学位期间已发表的学术论文	第69-71页