摘要 | 第1-6页 |
ABSTRACT | 第6-11页 |
第一章 引言 | 第11-16页 |
·背景 | 第11-14页 |
·搜索引擎介绍 | 第11-14页 |
·Lucene 介绍 | 第14页 |
·研究内容 | 第14-15页 |
·论文组织 | 第15页 |
·本章小结 | 第15-16页 |
第二章 搜索引擎系统的相关研究 | 第16-23页 |
·搜集系统 | 第16页 |
·索引系统 | 第16-19页 |
·检索系统 | 第19-20页 |
·文档搜索引擎现状 | 第20-21页 |
·本章小结 | 第21-23页 |
第三章 系统关键算法和方案 | 第23-46页 |
·小型文档搜索系统实现方案 | 第23-26页 |
·HTTP Spider | 第23-24页 |
·FTP Spider | 第24页 |
·分词系统 | 第24页 |
·索引 | 第24-25页 |
·UI | 第25-26页 |
·网页抓取系统 | 第26-27页 |
·DNS 缓存 | 第27-28页 |
·URL 去重算法 | 第28-30页 |
·中文分词算法 | 第30-32页 |
·隐含马尔可夫模型 | 第30-31页 |
·多层隐马尔可夫模型 | 第31页 |
·基于类的隐马分词算法 | 第31-32页 |
·WORD,EXCEL,PPT 文档解析 | 第32-36页 |
·Apache POI 介绍 | 第32-33页 |
·Word 文档 | 第33页 |
·Powerpoint 文档 | 第33-35页 |
·Excel 文档 | 第35-36页 |
·Lucene 分析 | 第36-45页 |
·Lucene 主要模块 | 第36-38页 |
·索引文件的组成结构 | 第38-41页 |
·数据流分析 | 第41-42页 |
·存储抽象 | 第42-43页 |
·Lucene 索引构建逻辑模块分析 | 第43-45页 |
·本章小结 | 第45-46页 |
第四章 系统设计实现 | 第46-88页 |
·系统架构 | 第46-47页 |
·HTTP spider 模块 | 第47-69页 |
·模块架构 | 第47-49页 |
·DNS Cache 设计和实现 | 第49-54页 |
·HTTP spider 的运行流程 | 第54-57页 |
·FIFO 设计 | 第57-62页 |
·Polite Nice 抓取处理和robots 协议 | 第62-64页 |
·HTML 页面的处理流程 | 第64-65页 |
·文档抓取 | 第65-68页 |
·文件去重 | 第68页 |
·与文档解析模块的接口 | 第68-69页 |
·FTP spider | 第69-79页 |
·FTP 协议简述 | 第69-70页 |
·总体设计 | 第70-71页 |
·多线程和多进程考虑 | 第71页 |
·FTP spider 用到的FTP 命令 | 第71-73页 |
·FTP 站点信息搜集流程 | 第73-77页 |
·文档去重 | 第77-79页 |
·FTP 抓取的文件和文件解析模块之间的接口 | 第79页 |
·文档解析模块 | 第79-82页 |
·文档解析模块设计 | 第79-82页 |
·存储优化 | 第82页 |
·检索和UI 模块 | 第82-87页 |
·Web 技术 | 第82-83页 |
·JSP 和servlet | 第83-84页 |
·检索流程 | 第84-86页 |
·格式化输出 | 第86-87页 |
·本章小结 | 第87-88页 |
第五章 实验设计及实验结果 | 第88-93页 |
·实验环境及配置 | 第88-89页 |
·实验结果 | 第89-90页 |
·效果说明 | 第90-92页 |
·解析文档的bad case 比率 | 第90页 |
·检索效果 | 第90-91页 |
·Spider 抓取速度 | 第91页 |
·文档解析速度 | 第91页 |
·存储压缩比率 | 第91-92页 |
·本章小结 | 第92-93页 |
第六章 总结与展望 | 第93-95页 |
·总结 | 第93-94页 |
·展望 | 第94页 |
·本章小结 | 第94-95页 |
致谢 | 第95-96页 |
参考文献 | 第96-100页 |
攻硕期间取得的研究成果 | 第100-101页 |