首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Lucene的网页抓取与检索系统

摘要第1-6页
Abstract第6-10页
第1章 引言第10-12页
   ·研究背景第10页
   ·课题的内容与意义第10-11页
   ·本人所做的工作第11页
   ·论文结构第11-12页
第2章 论文相关理论第12-24页
   ·搜索引擎的相关理论第12-14页
     ·搜索引擎定义第12页
     ·搜索引擎的特点第12-13页
     ·搜索引擎的分类第13-14页
   ·中文分词技术第14-16页
     ·单字分词第14页
     ·双字分词第14-15页
     ·基于词典的分词技术第15-16页
   ·文本搜索第16-20页
     ·文本搜索概述第16页
     ·英文文本处理方式第16-17页
     ·倒排索引第17-20页
   ·Lucene介绍与源码分析第20-24页
     ·Lucene概述第20页
     ·Lucene建立索引第20-23页
     ·Lucene分词器(Analyzer)第23-24页
第3章 网页模板的提取第24-42页
   ·网页模板第24页
   ·网页模板的作用第24-25页
   ·问题的提出第25页
   ·问题模型与求解第25-40页
     ·初步模型第25-27页
     ·最长公共子序列模型第27-35页
     ·统计模型第35-40页
   ·模型总结第40-42页
第4章 网络蜘蛛原理与设计第42-54页
   ·网络蜘蛛第42-43页
     ·网络蜘蛛的基本原理第42-43页
     ·企业级搜索引擎的网络蜘蛛第43页
   ·内容提取第43-44页
   ·利用Java语言开发网络蜘蛛第44-51页
     ·Java网络蜘蛛的优点第44-45页
     ·基于Java的网络蜘蛛的构成第45-51页
   ·利用Lucene进行检索第51-53页
     ·索引那些字段?第51-52页
     ·建立索引第52页
     ·搜索第52-53页
   ·小结第53-54页
第5章 互联网信息抓取系统设计与实现第54-64页
   ·系统介绍第54页
   ·系统基本设计第54-56页
     ·硬件连接图第54-55页
     ·数据流向图第55-56页
   ·软件模块设计概述第56-62页
     ·网页抓取程序第56-57页
     ·WEB服务器第57-60页
     ·Lucene的使用第60-62页
   ·小结第62-64页
第6章 结束语第64-66页
   ·本文总结第64页
   ·进一步的工作第64-66页
参考文献第66-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:企业搜索引擎中网页分类技术的研究与实现
下一篇:基于GA的ABC支持型QoS切换管理机制的研究与仿真实现