首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

一种可扩展的面向中文主题搜索引擎的研究与设计

摘要第1-3页
ABSTRACT第3-8页
第一章 绪论第8-13页
   ·通用搜索引擎第8-10页
     ·通用搜索引擎的发展第8-10页
     ·通用搜索引擎的不足第10页
   ·主题搜索引擎第10-11页
     ·主题搜索引擎的产生第10-11页
     ·主题搜索引擎的发展前景第11页
   ·主题搜索引擎的实现难点第11-12页
   ·本文的主要工作和组织第12-13页
第二章 搜索引擎相关理论第13-20页
   ·搜索引擎工作流程第13-16页
     ·网页的搜集第13-14页
     ·预处理第14-15页
     ·查询服务第15-16页
   ·实现搜索引擎的关键技术第16-17页
   ·搜索引擎评价原则第17-19页
     ·评价指标体系第17-19页
     ·其他评测因素第19页
   ·本章小结第19-20页
第三章 中文WEB 网页的搜集方式第20-28页
   ·搜集WEB 信息第20-21页
   ·多线程第21-22页
   ·搜集策略第22-23页
   ·避免搜集镜像网页及更新策略第23-25页
     ·避免搜集镜像网页第23-24页
     ·更新策略第24-25页
   ·网络蜘蛛模型第25-27页
     ·网络蜘蛛原理第25-26页
     ·网络蜘蛛的体系结构第26-27页
     ·效率优化第27页
     ·蜘蛛访问规范第27页
   ·本章小结第27-28页
第四章 面向主题的网络蜘蛛的设计第28-38页
   ·网络蜘蛛功能需求分析第28页
   ·主题网页链接发现第28-30页
   ·初始种子URL 的更新第30页
   ·搜索策略的选择第30-31页
   ·抓取主题页面第31-33页
     ·正则表达式第31-32页
     ·列表网页爬行和抓取第32页
     ·全网爬行和抓取第32-33页
     ·精确爬行和抓取第33页
   ·相应的实验设计第33-37页
     ·主题网页链接发现第33-35页
     ·主题网页抓取第35-37页
     ·抓取能力结果分析第37页
     ·指定类型页面解析第37页
   ·本章小结第37-38页
第五章 中文WEB 网页预处理第38-50页
   ·信息抽取技术概述第38-39页
     ·信息抽取的定义第38页
     ·信息抽取的研究对象第38-39页
     ·信息抽取的评价指标第39页
   ·中文WEB 网页解析第39-42页
     ·Web 信息抽取第39-40页
     ·中文Web 网页解析第40-42页
   ·中文分词第42-45页
     ·中文分词的应用第44-45页
   ·建立倒排索引第45-46页
   ·实现结果与分析第46-49页
   ·本章小结第49-50页
第六章 查询服务实现第50-61页
   ·全文检索工具包LUCENE第50-53页
     ·Lucene 简介第50页
     ·Lucene 的系统结构第50-51页
     ·Lucene 详细结构分析第51-53页
   ·索引更新第53-54页
     ·重构索引第53页
     ·合并索引第53页
     ·增量式更新第53页
     ·选择合适的索引更新策略第53-54页
   ·索引压缩第54-55页
   ·LUCENE 与中文分词技术第55-57页
     ·正向最大匹配算法中长词屏蔽短词的问题第55页
     ·未登录词的识别和处理第55-56页
     ·基于词库的Lucene 分词算法第56-57页
     ·由字构词的分词方法第57页
   ·查询接口实现的关键点第57-58页
     ·相关关键字的索引问题第58页
   ·增强用户体验的AJAX 技术第58-60页
     ·实时搜索建议第59-60页
   ·本章小结第60-61页
第七章 结论与展望第61-62页
   ·本文的主要工作和贡献第61页
   ·下一步的工作和展望第61-62页
参考文献第62-64页
致谢第64-65页
个人简历、在学期间发表的学术论文与研究成果第65-66页

论文共66页,点击 下载论文
上一篇:江西交通岩土工程信息系统研究与开发
下一篇:基于SDO的服务数据模型研究及实现