首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Lucene的中文自然语言搜索引擎

摘要第1-7页
 ABSTRACT第7-12页
第一章 引言第12-18页
   ·研究背景第12页
   ·搜索引擎技术的现状第12-14页
   ·新一代搜索引擎技术的研发方向第14-15页
   ·本文研究的意义第15-16页
   ·论文的研究内容以及论文安排第16-18页
第二章 全文检索引擎LUCENE 的分析研究第18-27页
   ·全文检索系统第18-19页
   ·LUCENE 系统结构分析第19-21页
   ·LUCENE 数据流分析第21-22页
   ·LUCENE 索引机制第22-25页
     ·Lucene 索引建立第22-24页
     ·Lucene 索引文件结构第24-25页
   ·小结第25-27页
第三章 LUCENE 中文分析器改进第27-40页
   ·LUCENE 分析器第27-31页
     ·分析器剖析第27-28页
     ·Lucene 内置分析器第28-30页
     ·支持中文的分析器第30-31页
   ·分析器实现第31-36页
     ·中文分词算法第31-32页
     ·Lucene 中文分词算法选择第32-33页
     ·词典构造第33-34页
     ·具体实现第34-36页
   ·分析器比较第36-39页
     ·分词结果示例第36-37页
     ·分词速度比较第37页
     ·建立索引第37-38页
     ·检索效果第38页
     ·实验分析第38-39页
   ·小节第39-40页
第四章 自然语言检索第40-50页
   ·检索模型第40-41页
   ·自然语言搜索引擎第41-45页
     ·自然语言理解与处理的现状第41-42页
     ·自然语言查询第42-44页
     ·自然语言查询的处理过程第44-45页
     ·智能型交互式查询第45页
   ·自然语言理解实现第45-49页
     ·分词处理第46-47页
     ·去除辅助词第47页
     ·具体实现第47-49页
   ·小节第49-50页
第五章 检索结果排序分析第50-63页
   ·文档相关度第50-51页
     ·向量空间模型第50页
     ·权值计算公式第50-51页
   ·PageRank 算法分析第51-55页
     ·PageRank 算法偏重旧网页第52-53页
     ·判断网页的权值时,忽视了站点的权威性第53页
     ·从网页中指出的超链接,对网页PR 值的影响是不相同的第53-54页
     ·其它因素对PageRank 的影响第54-55页
   ·LUCENE 的评分机制第55-57页
     ·Lucene 评分算法第55-56页
     ·Lucene 评分算法的改进第56-57页
   ·相似网页检测第57-59页
     ·相关算法研究第57-58页
     ·Simhash 算法应用第58-59页
   ·排序算法改进第59-62页
     ·排序算法概述第59-60页
     ·排序算法性能比较第60-61页
     ·快速排序算法改进第61-62页
   ·小节第62-63页
第六章 中文自然语言搜索系统实现第63-70页
   ·搜索系统结构第63页
   ·SPIDER 系统第63-66页
     ·WebLech 的特性第64页
     ·Spider 系统搜索策略选择第64-65页
     ·WebLech 系统配置第65-66页
   ·索引系统第66-67页
     ·HTML 解析第66-67页
     ·建立索引第67页
   ·检索器第67-68页
   ·用户界面第68页
   ·小节第68-70页
总结与展望第70-72页
参考文献第72-76页
致谢第76-77页
攻读硕士学位期间发表的学术论文第77-78页
攻读硕士学位期间参加的科研项目第78页

论文共78页,点击 下载论文
上一篇:互联网短文本信息分类关键技术研究
下一篇:基于主题相关性的中文文本情感分类研究