首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于主题的搜索引擎的研究与实现

致谢第1-6页
中文摘要第6-7页
ABSTRACT第7-8页
第8-12页
1 引言第12-15页
   ·搜索引擎及其发展现状第12-13页
   ·基于主题的搜索引擎简介第13页
   ·本文的主要工作第13-14页
   ·本文内容的组织第14-15页
2 基于主题的搜索引擎架构设计第15-20页
   ·通用搜索引擎架构介绍第15-16页
   ·通用搜索引擎架构的局限性第16页
   ·基于主题的搜索引擎架构设计第16-17页
   ·核心模块介绍第17-19页
     ·基于主题的Web信息抓取第17-18页
     ·基于规则的中文分词模块第18-19页
     ·文档的索引与存储模块第19页
   ·本章小结第19-20页
3 中文分词算法的研究与实现第20-29页
   ·分词技术概述第20页
   ·传统的中文分词方法第20-21页
     ·基于字符串匹配的分词算法第20-21页
     ·基于理解的分词算法第21页
     ·基于统计的分词算法第21页
   ·传统的中文分词面临的主要问题第21-22页
   ·基于规则的中文分词算法第22-27页
     ·构建分词系统的主要工作第22页
     ·文本预处理第22-23页
     ·词典结构设计第23-24页
     ·分词规则第24-26页
     ·未登陆词的识别第26-27页
     ·分词流程第27页
   ·实验结果及算法优势第27-28页
   ·本章小结第28-29页
4 基于主题的Web信息抓取第29-40页
   ·传统Web信息抓取方法第30-31页
   ·传统Web信息抓取存在的问题第31-32页
   ·动态Web信息抓取技术第32-34页
   ·主题的定义第34页
   ·基于主题的Web信息抓取技术第34-39页
     ·URL Provider第34-35页
     ·Link表结构设计第35-36页
     ·主题(Topic)表结构设计第36-37页
     ·基于主题信息抓取的实现第37页
     ·基于主题的信息抓取流程第37-38页
     ·关于字符集第38-39页
   ·本章小结第39-40页
5 Web内容的存储与索引设计第40-60页
   ·B+树索引的结构第40页
   ·基于B+树的文档索引的设计第40-42页
     ·B+树索引内部块设计第41页
     ·B+树索引叶子块设计第41-42页
   ·文档内容的存储第42页
   ·使用B+树组织和存储索引第42-44页
     ·文档的加入过程第42-43页
     ·处理文档查询第43-44页
   ·全文检索与倒排索引第44-47页
     ·全文检索的概念第44-45页
     ·倒排索引的概念第45-46页
     ·倒排索引设计和存储第46-47页
   ·与CLucene结合第47-59页
     ·CLucene简介第47-48页
     ·CLucene索引实现机制第48-51页
     ·结合CLucene实现文档存储与索引第51页
     ·在CLucene中加入自己的分词算法第51-55页
     ·索引文档第55-57页
     ·检索索引第57-59页
     ·CLucene小结第59页
   ·本章小结第59-60页
6 结论第60-61页
参考文献第61-62页
作者简历第62-64页
学位论文数据集第64页

论文共64页,点击 下载论文
上一篇:大学生学习倦怠初探
下一篇:中国研究型大学收支特征及管理研究