基于Lucene的中文自然语言搜索引擎

摘要	第1-7页
ABSTRACT	第7-12页
第一章引言	第12-18页
·研究背景	第12页
·搜索引擎技术的现状	第12-14页
·新一代搜索引擎技术的研发方向	第14-15页
·本文研究的意义	第15-16页
·论文的研究内容以及论文安排	第16-18页
第二章全文检索引擎LUCENE 的分析研究	第18-27页
·全文检索系统	第18-19页
·LUCENE 系统结构分析	第19-21页
·LUCENE 数据流分析	第21-22页
·LUCENE 索引机制	第22-25页
·Lucene 索引建立	第22-24页
·Lucene 索引文件结构	第24-25页
·小结	第25-27页
第三章 LUCENE 中文分析器改进	第27-40页
·LUCENE 分析器	第27-31页
·分析器剖析	第27-28页
·Lucene 内置分析器	第28-30页
·支持中文的分析器	第30-31页
·分析器实现	第31-36页
·中文分词算法	第31-32页
·Lucene 中文分词算法选择	第32-33页
·词典构造	第33-34页
·具体实现	第34-36页
·分析器比较	第36-39页
·分词结果示例	第36-37页
·分词速度比较	第37页
·建立索引	第37-38页
·检索效果	第38页
·实验分析	第38-39页
·小节	第39-40页
第四章自然语言检索	第40-50页
·检索模型	第40-41页
·自然语言搜索引擎	第41-45页
·自然语言理解与处理的现状	第41-42页
·自然语言查询	第42-44页
·自然语言查询的处理过程	第44-45页
·智能型交互式查询	第45页
·自然语言理解实现	第45-49页
·分词处理	第46-47页
·去除辅助词	第47页
·具体实现	第47-49页
·小节	第49-50页
第五章检索结果排序分析	第50-63页
·文档相关度	第50-51页
·向量空间模型	第50页
·权值计算公式	第50-51页
·PageRank 算法分析	第51-55页
·PageRank 算法偏重旧网页	第52-53页
·判断网页的权值时，忽视了站点的权威性	第53页
·从网页中指出的超链接，对网页PR 值的影响是不相同的	第53-54页
·其它因素对PageRank 的影响	第54-55页
·LUCENE 的评分机制	第55-57页
·Lucene 评分算法	第55-56页
·Lucene 评分算法的改进	第56-57页
·相似网页检测	第57-59页
·相关算法研究	第57-58页
·Simhash 算法应用	第58-59页
·排序算法改进	第59-62页
·排序算法概述	第59-60页
·排序算法性能比较	第60-61页
·快速排序算法改进	第61-62页
·小节	第62-63页
第六章中文自然语言搜索系统实现	第63-70页
·搜索系统结构	第63页
·SPIDER 系统	第63-66页
·WebLech 的特性	第64页
·Spider 系统搜索策略选择	第64-65页
·WebLech 系统配置	第65-66页
·索引系统	第66-67页
·HTML 解析	第66-67页
·建立索引	第67页
·检索器	第67-68页
·用户界面	第68页
·小节	第68-70页
总结与展望	第70-72页
参考文献	第72-76页
致谢	第76-77页
攻读硕士学位期间发表的学术论文	第77-78页
攻读硕士学位期间参加的科研项目	第78页