首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-11页
 §1-1 问题的提出第9页
 §1-2 国内外现状第9-10页
 §1-3 本文主要研究工作和内容安排第10页
 §1-4 论文章节安排第10-11页
第二章 垂直搜索引擎技术第11-24页
 §2-1 通用搜索引擎第11-14页
  2-1-1 通用搜索引擎概述第11-12页
  2-1-2 通用搜索引擎详细分析第12-14页
 §2-2 网络爬虫技术第14-18页
  2-2-1 网络爬虫概念第14页
  2-2-2 网络爬虫基本原理第14页
  2-2-3 网络爬虫抓取策略第14-16页
  2-2-4 网络爬虫设计第16-17页
  2-2-5 网络爬虫应注意的问题第17-18页
 §2-3 信息提取技术第18页
  2-3-1 信息提取简介第18页
  2-3-2 信息提取技术第18页
 §2-4 全文索引技术第18-20页
  2-4-1 全文索引技术概述第18-19页
  2-4-2 索引方式第19-20页
 §2-5 中文分词技术第20-21页
  2-5-1 中文分词介绍第20页
  2-5-2 中文分词技术第20-21页
 §2-6 页面排序算法研究第21-22页
  2-6-1 PageRank算法研究第21-22页
  2-6-2 HITS算法第22页
 §2-7 垂直搜索引擎第22-24页
第三章 开源全文索引引擎Lucene第24-37页
 §3-1 Lucene概述第24页
 §3-2 Lucene的索引第24-31页
  3-2-1 Lucene索引逻辑结构第24-25页
  3-2-2 索引文件物理结构第25-26页
  3-2-3 Lucene索引的建立第26-29页
  3-2-4 索引的合并与优化、同步第29-31页
 §3-3 Lucene的搜索第31-34页
  3-3-1 Lucene搜索的建立第31-33页
  3-3-2 对搜索结果的评分、排序第33-34页
 §3-4 Lucene的分析器第34-35页
  3-4-1 Lucene分析器机制第34-35页
  3-4-2 本系统使用的中文分词机制第35页
 §3-5 Lucene的创新之处第35-37页
第四章 网络爬虫Heritrix框架第37-40页
 §4-1 Heritrix研究第37-38页
  4-1-1 Heritrix概述第37页
  4-1-2 Heritrix结构分析第37-38页
 §4-2 扩展和定制Heritrix第38-40页
  4-2-1 向Heritrix中添加自己的Extractor第38-39页
  4-2-2 扩展FrontierScheduler来抓取特定的内容第39页
  4-2-3 在Prefetcher中取消robots.txt的限制第39-40页
第五章 手机产品垂直搜索引擎的设计与分析第40-49页
 §5-1 垂直搜索引擎系统设计第40-41页
  5-1-1 系统总体需求分析第40页
  5-1-2 系统总体设计第40-41页
  5-1-3 开发环境搭建第41页
 §5-2 爬虫模块的设计第41-44页
  5-2-1 爬虫的实现思路第41-42页
  5-2-2 爬虫抓取清单的确定第42-44页
 §5-3 信息抽取模块第44-47页
  5-3-1 信息抽取工具的介绍第44-45页
  5-3-2 信息抽取的思路第45-47页
 §5-4 索引的建立和数据库设计第47-49页
  5-4-1 索引的建立第47页
  5-4-2 数据库设计第47-49页
第六章 手机垂直搜索引擎的实施第49-68页
 §6-1 抓取手机信息网页第49-52页
 §6-2 网页信息抽取第52-56页
 §6-3 建立索引、数据库第56-61页
  6-3-1 构建产品信息词库第56-57页
  6-3-2 数据库的数据添加第57-59页
  6-3-3 构建产品信息Lucene的索引结构第59页
  6-3-4 向Lucene的索引中添加产品信息第59-60页
  6-3-5 完成产品信息的综合处理第60-61页
 §6-4 构建搜索模块第61-68页
  6-4-1 配置文件管理第61-62页
  6-4-2 搜索相关类设计开发第62-65页
  6-4-3 前台页面的实现第65-68页
第七章 总结与展望第68-69页
参考文献第69-71页
致谢第71页

论文共71页,点击 下载论文
上一篇:基于粒子群的图像分割算法及其应用
下一篇:射频识别(RFID)系统中天线的优化设计