基于主题的搜索引擎的研究与实现

致谢	第1-6页
中文摘要	第6-7页
ABSTRACT	第7-8页
序	第8-12页
1 引言	第12-15页
·搜索引擎及其发展现状	第12-13页
·基于主题的搜索引擎简介	第13页
·本文的主要工作	第13-14页
·本文内容的组织	第14-15页
2 基于主题的搜索引擎架构设计	第15-20页
·通用搜索引擎架构介绍	第15-16页
·通用搜索引擎架构的局限性	第16页
·基于主题的搜索引擎架构设计	第16-17页
·核心模块介绍	第17-19页
·基于主题的Web信息抓取	第17-18页
·基于规则的中文分词模块	第18-19页
·文档的索引与存储模块	第19页
·本章小结	第19-20页
3 中文分词算法的研究与实现	第20-29页
·分词技术概述	第20页
·传统的中文分词方法	第20-21页
·基于字符串匹配的分词算法	第20-21页
·基于理解的分词算法	第21页
·基于统计的分词算法	第21页
·传统的中文分词面临的主要问题	第21-22页
·基于规则的中文分词算法	第22-27页
·构建分词系统的主要工作	第22页
·文本预处理	第22-23页
·词典结构设计	第23-24页
·分词规则	第24-26页
·未登陆词的识别	第26-27页
·分词流程	第27页
·实验结果及算法优势	第27-28页
·本章小结	第28-29页
4 基于主题的Web信息抓取	第29-40页
·传统Web信息抓取方法	第30-31页
·传统Web信息抓取存在的问题	第31-32页
·动态Web信息抓取技术	第32-34页
·主题的定义	第34页
·基于主题的Web信息抓取技术	第34-39页
·URL Provider	第34-35页
·Link表结构设计	第35-36页
·主题(Topic)表结构设计	第36-37页
·基于主题信息抓取的实现	第37页
·基于主题的信息抓取流程	第37-38页
·关于字符集	第38-39页
·本章小结	第39-40页
5 Web内容的存储与索引设计	第40-60页
·B+树索引的结构	第40页
·基于B+树的文档索引的设计	第40-42页
·B+树索引内部块设计	第41页
·B+树索引叶子块设计	第41-42页
·文档内容的存储	第42页
·使用B+树组织和存储索引	第42-44页
·文档的加入过程	第42-43页
·处理文档查询	第43-44页
·全文检索与倒排索引	第44-47页
·全文检索的概念	第44-45页
·倒排索引的概念	第45-46页
·倒排索引设计和存储	第46-47页
·与CLucene结合	第47-59页
·CLucene简介	第47-48页
·CLucene索引实现机制	第48-51页
·结合CLucene实现文档存储与索引	第51页
·在CLucene中加入自己的分词算法	第51-55页
·索引文档	第55-57页
·检索索引	第57-59页
·CLucene小结	第59页
·本章小结	第59-60页
6 结论	第60-61页
参考文献	第61-62页
作者简历	第62-64页
学位论文数据集	第64页