基于Lucene的网页抓取与检索系统

摘要	第1-6页
Abstract	第6-10页
第1章引言	第10-12页
·研究背景	第10页
·课题的内容与意义	第10-11页
·本人所做的工作	第11页
·论文结构	第11-12页
第2章论文相关理论	第12-24页
·搜索引擎的相关理论	第12-14页
·搜索引擎定义	第12页
·搜索引擎的特点	第12-13页
·搜索引擎的分类	第13-14页
·中文分词技术	第14-16页
·单字分词	第14页
·双字分词	第14-15页
·基于词典的分词技术	第15-16页
·文本搜索	第16-20页
·文本搜索概述	第16页
·英文文本处理方式	第16-17页
·倒排索引	第17-20页
·Lucene介绍与源码分析	第20-24页
·Lucene概述	第20页
·Lucene建立索引	第20-23页
·Lucene分词器(Analyzer)	第23-24页
第3章网页模板的提取	第24-42页
·网页模板	第24页
·网页模板的作用	第24-25页
·问题的提出	第25页
·问题模型与求解	第25-40页
·初步模型	第25-27页
·最长公共子序列模型	第27-35页
·统计模型	第35-40页
·模型总结	第40-42页
第4章网络蜘蛛原理与设计	第42-54页
·网络蜘蛛	第42-43页
·网络蜘蛛的基本原理	第42-43页
·企业级搜索引擎的网络蜘蛛	第43页
·内容提取	第43-44页
·利用Java语言开发网络蜘蛛	第44-51页
·Java网络蜘蛛的优点	第44-45页
·基于Java的网络蜘蛛的构成	第45-51页
·利用Lucene进行检索	第51-53页
·索引那些字段?	第51-52页
·建立索引	第52页
·搜索	第52-53页
·小结	第53-54页
第5章互联网信息抓取系统设计与实现	第54-64页
·系统介绍	第54页
·系统基本设计	第54-56页
·硬件连接图	第54-55页
·数据流向图	第55-56页
·软件模块设计概述	第56-62页
·网页抓取程序	第56-57页
·WEB服务器	第57-60页
·Lucene的使用	第60-62页
·小结	第62-64页
第6章结束语	第64-66页
·本文总结	第64页
·进一步的工作	第64-66页
参考文献	第66-68页
致谢	第68页