首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Lucene的中英文文档全文搜索引擎

摘要第1-6页
ABSTRACT第6-11页
第一章 引言第11-16页
   ·背景第11-14页
     ·搜索引擎介绍第11-14页
     ·Lucene 介绍第14页
   ·研究内容第14-15页
   ·论文组织第15页
   ·本章小结第15-16页
第二章 搜索引擎系统的相关研究第16-23页
   ·搜集系统第16页
   ·索引系统第16-19页
   ·检索系统第19-20页
   ·文档搜索引擎现状第20-21页
   ·本章小结第21-23页
第三章 系统关键算法和方案第23-46页
   ·小型文档搜索系统实现方案第23-26页
     ·HTTP Spider第23-24页
     ·FTP Spider第24页
     ·分词系统第24页
     ·索引第24-25页
     ·UI第25-26页
   ·网页抓取系统第26-27页
   ·DNS 缓存第27-28页
   ·URL 去重算法第28-30页
   ·中文分词算法第30-32页
     ·隐含马尔可夫模型第30-31页
     ·多层隐马尔可夫模型第31页
     ·基于类的隐马分词算法第31-32页
   ·WORD,EXCEL,PPT 文档解析第32-36页
     ·Apache POI 介绍第32-33页
     ·Word 文档第33页
     ·Powerpoint 文档第33-35页
     ·Excel 文档第35-36页
   ·Lucene 分析第36-45页
     ·Lucene 主要模块第36-38页
     ·索引文件的组成结构第38-41页
     ·数据流分析第41-42页
     ·存储抽象第42-43页
     ·Lucene 索引构建逻辑模块分析第43-45页
   ·本章小结第45-46页
第四章 系统设计实现第46-88页
   ·系统架构第46-47页
   ·HTTP spider 模块第47-69页
     ·模块架构第47-49页
     ·DNS Cache 设计和实现第49-54页
     ·HTTP spider 的运行流程第54-57页
     ·FIFO 设计第57-62页
     ·Polite Nice 抓取处理和robots 协议第62-64页
     ·HTML 页面的处理流程第64-65页
     ·文档抓取第65-68页
     ·文件去重第68页
     ·与文档解析模块的接口第68-69页
   ·FTP spider第69-79页
     ·FTP 协议简述第69-70页
     ·总体设计第70-71页
     ·多线程和多进程考虑第71页
     ·FTP spider 用到的FTP 命令第71-73页
     ·FTP 站点信息搜集流程第73-77页
     ·文档去重第77-79页
     ·FTP 抓取的文件和文件解析模块之间的接口第79页
   ·文档解析模块第79-82页
     ·文档解析模块设计第79-82页
     ·存储优化第82页
   ·检索和UI 模块第82-87页
     ·Web 技术第82-83页
     ·JSP 和servlet第83-84页
     ·检索流程第84-86页
     ·格式化输出第86-87页
   ·本章小结第87-88页
第五章 实验设计及实验结果第88-93页
   ·实验环境及配置第88-89页
   ·实验结果第89-90页
   ·效果说明第90-92页
     ·解析文档的bad case 比率第90页
     ·检索效果第90-91页
     ·Spider 抓取速度第91页
     ·文档解析速度第91页
     ·存储压缩比率第91-92页
   ·本章小结第92-93页
第六章 总结与展望第93-95页
   ·总结第93-94页
   ·展望第94页
   ·本章小结第94-95页
致谢第95-96页
参考文献第96-100页
攻硕期间取得的研究成果第100-101页

论文共101页,点击 下载论文
上一篇:基于粗糙集的数据挖掘算法研究与实现
下一篇:上海郊区农村居民点拆并和整理的实践与评价