基于Lucene的中英文文档全文搜索引擎

摘要	第1-6页
ABSTRACT	第6-11页
第一章引言	第11-16页
·背景	第11-14页
·搜索引擎介绍	第11-14页
·Lucene 介绍	第14页
·研究内容	第14-15页
·论文组织	第15页
·本章小结	第15-16页
第二章搜索引擎系统的相关研究	第16-23页
·搜集系统	第16页
·索引系统	第16-19页
·检索系统	第19-20页
·文档搜索引擎现状	第20-21页
·本章小结	第21-23页
第三章系统关键算法和方案	第23-46页
·小型文档搜索系统实现方案	第23-26页
·HTTP Spider	第23-24页
·FTP Spider	第24页
·分词系统	第24页
·索引	第24-25页
·UI	第25-26页
·网页抓取系统	第26-27页
·DNS 缓存	第27-28页
·URL 去重算法	第28-30页
·中文分词算法	第30-32页
·隐含马尔可夫模型	第30-31页
·多层隐马尔可夫模型	第31页
·基于类的隐马分词算法	第31-32页
·WORD，EXCEL，PPT 文档解析	第32-36页
·Apache POI 介绍	第32-33页
·Word 文档	第33页
·Powerpoint 文档	第33-35页
·Excel 文档	第35-36页
·Lucene 分析	第36-45页
·Lucene 主要模块	第36-38页
·索引文件的组成结构	第38-41页
·数据流分析	第41-42页
·存储抽象	第42-43页
·Lucene 索引构建逻辑模块分析	第43-45页
·本章小结	第45-46页
第四章系统设计实现	第46-88页
·系统架构	第46-47页
·HTTP spider 模块	第47-69页
·模块架构	第47-49页
·DNS Cache 设计和实现	第49-54页
·HTTP spider 的运行流程	第54-57页
·FIFO 设计	第57-62页
·Polite Nice 抓取处理和robots 协议	第62-64页
·HTML 页面的处理流程	第64-65页
·文档抓取	第65-68页
·文件去重	第68页
·与文档解析模块的接口	第68-69页
·FTP spider	第69-79页
·FTP 协议简述	第69-70页
·总体设计	第70-71页
·多线程和多进程考虑	第71页
·FTP spider 用到的FTP 命令	第71-73页
·FTP 站点信息搜集流程	第73-77页
·文档去重	第77-79页
·FTP 抓取的文件和文件解析模块之间的接口	第79页
·文档解析模块	第79-82页
·文档解析模块设计	第79-82页
·存储优化	第82页
·检索和UI 模块	第82-87页
·Web 技术	第82-83页
·JSP 和servlet	第83-84页
·检索流程	第84-86页
·格式化输出	第86-87页
·本章小结	第87-88页
第五章实验设计及实验结果	第88-93页
·实验环境及配置	第88-89页
·实验结果	第89-90页
·效果说明	第90-92页
·解析文档的bad case 比率	第90页
·检索效果	第90-91页
·Spider 抓取速度	第91页
·文档解析速度	第91页
·存储压缩比率	第91-92页
·本章小结	第92-93页
第六章总结与展望	第93-95页
·总结	第93-94页
·展望	第94页
·本章小结	第94-95页
致谢	第95-96页
参考文献	第96-100页
攻硕期间取得的研究成果	第100-101页