基于Lucene的面向主题信息搜索系统的关键技术分析及应用
摘要 | 第1-6页 |
Abstract | 第6-11页 |
第1章 引言 | 第11-19页 |
·课题研究背景及现状 | 第11页 |
·搜索引擎技术的研究背景与发展趋势 | 第11-14页 |
·搜索引擎的发展历史 | 第11-12页 |
·搜索引擎的现状与发展趋势 | 第12-14页 |
·面向主题的搜索引擎系统 | 第14-17页 |
·面向主题搜索引擎的优势 | 第15-16页 |
·面向主题搜索系统的研究现状 | 第16-17页 |
·本文研究内容 | 第17-18页 |
·本文组织结构 | 第18-19页 |
第2章 面向主题搜索系统的关键技术分析 | 第19-40页 |
·数据搜集器 | 第19-26页 |
·Heritrix简介 | 第21-22页 |
·Heritrix与Nutch的比较 | 第22-23页 |
·Heritrix的配置使用 | 第23-26页 |
·网页解析技术HTMLPARSER | 第26-31页 |
·HtmlParser概述 | 第26页 |
·HtmlParser中主要类的介绍 | 第26-29页 |
·HtmlParser中遍历方式 | 第29-31页 |
·中文分词技术 | 第31-34页 |
·中文分词的研究现状 | 第31-33页 |
·常见分词系统 | 第33-34页 |
·全文搜索框架LUCENE | 第34-38页 |
·Lucene概述 | 第34页 |
·Lucene索引结构 | 第34-35页 |
·Lucene工作原理 | 第35-38页 |
·向量空间模型在面向主题搜索系统中的应用 | 第38-40页 |
第3章 面向主题搜索系统的设计 | 第40-45页 |
·系统提出背景 | 第40页 |
·系统框架设计 | 第40-42页 |
·词典库设计 | 第42-43页 |
·气象专业词库 | 第42页 |
·动态词库 | 第42-43页 |
·开发环境与系统编程框架 | 第43-45页 |
·系统的开发环境 | 第43页 |
·系统编程框架与技术介绍 | 第43-45页 |
第4章 数据搜集与网页预处理模块 | 第45-71页 |
·数据搜集模块详细设计 | 第45-51页 |
·数据搜集模块的基本配置 | 第45-47页 |
·面向主题的搜集 | 第47-50页 |
·实验结果分析 | 第50-51页 |
·网页预处理模块详细设计 | 第51-71页 |
·网页净化模块 | 第51-62页 |
·网页消重模块 | 第62-71页 |
第5章 LUCENE索引与搜索模块 | 第71-88页 |
·LUCENE建立索引的过程 | 第71-83页 |
·提取文本内容 | 第71-77页 |
·多线程建立索引 | 第77-83页 |
·LUCENE查询模块 | 第83-88页 |
·lucene搜索过程 | 第83-84页 |
·lucene中自带排序算法研究 | 第84-85页 |
·改进后的网页排序算法 | 第85-87页 |
·实验结果分析 | 第87-88页 |
第6章 个性化设置与系统应用界面 | 第88-93页 |
·热点词推荐 | 第88-89页 |
·网页预览功能 | 第89-91页 |
·系统应用界面 | 第91-93页 |
第7章 结论与展望 | 第93-95页 |
致谢 | 第95-96页 |
参考文献 | 第96-98页 |
攻读硕士研究生期间主要成果 | 第98页 |