首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Lucene的产品比价搜索系统的研究与设计

摘要第1-6页
Abstract第6-10页
第一章 绪论第10-17页
   ·搜索引擎发展历史第10-11页
   ·垂直搜索引擎的特征及其关键技术第11-13页
     ·垂直搜索引擎的特征第11-12页
     ·垂直搜索引擎的关键技术第12-13页
   ·研究的背景与意义第13-14页
     ·研究的背景第13页
     ·研究的意义第13-14页
   ·国内外研究现状第14-15页
   ·本文的研究工作以及组织结构第15-17页
第二章 系统实现的核心技术第17-27页
   ·网络爬虫第17-21页
     ·爬虫抓取策略第17-19页
     ·网络爬虫的基本结构第19-20页
     ·垂直爬虫的架构第20-21页
   ·页面解析技术第21-24页
     ·HTML 介绍第22页
     ·使用 HTMLParser 抽取网页中的内容第22-24页
   ·使用 Lucene 进行索引与搜索第24-26页
     ·Lucene 建立索引第25页
     ·Lucene 进行搜索第25-26页
   ·本章小结第26-27页
第三章 中文分词的研究第27-46页
   ·中文分词常用的方法第27-33页
     ·字符串匹配法第27-32页
     ·基于统计的分词法第32-33页
   ·Lucene 自带的分词算法第33-35页
     ·Lucene 切分原理第33-34页
     ·Token Stream 剖析第34页
     ·Lucene 中文分词的研究第34-35页
   ·中文分词的难点与解决方法第35-37页
     ·中文分词的难点第35-36页
     ·解决方法第36-37页
   ·改进的正向匹配算法第37-41页
     ·具体的算法描述如下第38页
     ·实验分析第38-41页
   ·拼写检查技术第41-45页
     ·技术实现第41-43页
     ·编辑距离技术第43-45页
   ·本章总结第45-46页
第四章 产品比价搜索系统的实现第46-62页
   ·网页的抓取与解析第47-52页
     ·使用 Heritrix 进行网页抓取第47-50页
     ·使用 HTMLParser 提取网页中的内容第50-52页
   ·系统的实现第52-61页
     ·系统设计目标第52-53页
     ·各模块的实现第53-58页
     ·系统运行第58-61页
   ·本章小结第61-62页
第五章 总结与展望第62-64页
   ·本文总结第62页
   ·工作展望第62-64页
致谢第64-65页
参考文献第65-68页
作者在攻读硕士学位期间公开发表的论文第68页

论文共68页,点击 下载论文
上一篇:基于像素级的图像融合技术研究
下一篇:基于气质类型的情感计算在e-Learning中的应用