首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向主题的搜索引擎的设计与实现

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-13页
   ·搜索引擎技术概述第9页
     ·搜索引擎的概念第9页
     ·搜索引擎的工作原理第9页
   ·搜索引擎的分类第9-10页
     ·全文搜索引擎第9-10页
     ·目录索引型搜索引擎第10页
     ·元搜索引擎第10页
   ·面向主题的搜索引擎的提出第10-11页
   ·国内外发展第11页
   ·论文的组织结构第11-13页
第二章 面向主题的搜索引擎第13-20页
   ·通用搜索引擎的架构第13-14页
   ·网络爬虫策略第14-15页
     ·宽度优先搜索算法第14-15页
     ·深度优先搜索算法第15页
   ·主题搜索引擎的关键技术第15-17页
     ·主题描述第15页
     ·网页相关度判定第15-16页
     ·HTML解析第16页
     ·中文分词技术第16页
     ·提取关键词第16-17页
   ·系统分析与设计第17-18页
     ·系统分析第17-18页
     ·系统设计第18页
   ·本章小结第18-20页
第三章 主题相关性验证第20-27页
   ·主题描述第20-21页
   ·网页相关性判定第21-26页
     ·基于元数据的判断第22-23页
     ·基于链接标签数据的判断第23页
     ·基于链接结构的判断第23-24页
     ·基于页面语义内容的判定第24页
     ·比较分析第24页
     ·页面相关度判定算法选择及改进第24-26页
   ·本章小结第26-27页
第四章 网页解析第27-46页
   ·HTML介绍第27-29页
     ·HTML概念第27页
     ·HTML解析第27-28页
     ·HtmlParser介绍第28-29页
   ·网页信息抽取第29-35页
     ·获取网页编码第29-31页
     ·获取网页链接第31-34页
     ·元数据解析第34-35页
     ·获取网页正文第35页
   ·中文分词技术第35-43页
     ·中文分词方法介绍第35-36页
     ·机械匹配方法第36-43页
   ·提取关键字第43-44页
     ·分析网页内容结构加权第43-44页
   ·本章小结第44-46页
第五章 系统实现第46-56页
   ·主题搜索引擎的爬虫策略第46-48页
     ·初始URL第47页
     ·URL队列第47页
     ·网页信息抽取第47-48页
     ·保存网页信息第48页
   ·建立索引第48-50页
     ·索引工具Lucence介绍第48-49页
     ·Lucene的数据结构分析第49页
     ·设计索引库第49页
     ·创建索引库第49-50页
   ·Web服务第50-52页
     ·基于Tomcat的Web服务器第50页
     ·服务端设计第50-51页
     ·客户端设计第51-52页
   ·结果分析第52-55页
     ·单次抓取结果分析第52-54页
     ·多次抓取结果分析第54-55页
   ·本章小结第55-56页
第六章 结束语第56-58页
   ·主要工作回顾第56-57页
   ·本课题今后需进一步研究的地方第57-58页
参考文献第58-61页
个人简历 在读期间发表的学术论文第61-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于LSSVM肿瘤图像分类方法的应用研究
下一篇:蚁群算法研究及其应用