首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

定题Web搜索与挖掘的研究及系统实现

摘要第1-5页
Abstract第5-9页
第一章 绪论第9-13页
   ·课题背景第9页
   ·研究现状第9-10页
   ·课题的研究内容第10-11页
   ·论文的组织结构第11-13页
第二章 基于Web的数据挖掘第13-25页
   ·数据挖掘综述第13-16页
     ·概念第13页
     ·特点第13-14页
     ·分类第14-15页
     ·一般处理过程第15-16页
   ·Web数据挖掘第16-21页
     ·概念第16-17页
     ·特点第17-18页
     ·分类第18-20页
     ·处理过程第20-21页
     ·各类Web数据挖掘的比较第21页
   ·Web文本挖掘第21-23页
   ·小结第23-25页
第三章 定题搜索引擎技术第25-33页
   ·搜索引擎技术综述第25-27页
     ·概况第25-26页
     ·分类第26页
     ·体系结构第26-27页
   ·网络爬虫技术第27-30页
     ·介绍第27-28页
     ·设计目标第28页
     ·工作流程第28-29页
     ·实现方式第29-30页
   ·HTTP协议介绍第30-32页
     ·特点第30-31页
     ·主要方法第31页
     ·HTML结构树第31-32页
   ·小结第32-33页
第四章 相关理论和算法第33-51页
   ·文本相似度第33-34页
     ·TF-IDF权值方案第33-34页
     ·文本相似度计算第34页
   ·链接上下文的获取第34-41页
     ·介绍第34-35页
     ·HTML结构树的生成第35页
     ·上下文推导方法第35-37页
     ·样本数据的采集第37页
     ·性能评价第37-41页
   ·基于非贪婪遗传算法的定题爬行策略第41-44页
     ·用于网络搜索的遗传算法第41-42页
     ·用于链接选择的非贪婪策略第42页
     ·基于非贪婪遗传算法的定题网络爬虫搜索算法第42-43页
     ·性能评价第43-44页
   ·文本聚类算法第44-48页
     ·简介第44页
     ·文本聚类及判断标准第44-45页
     ·算法的分析与比较第45-48页
     ·研究进展第48页
   ·中文分词技术第48-50页
     ·基于字符串匹配的分词方法第48-49页
     ·基于理解的分词方法第49页
     ·基于统计的分词方法第49-50页
   ·小结第50-51页
第五章 系统的设计与实现第51-71页
   ·多线程网络爬虫系统第51-56页
     ·介绍第51页
     ·爬虫系统的框架第51-52页
     ·线程第52-53页
     ·解析器第53-55页
     ·同步机制第55页
     ·系统实现第55-56页
   ·分词和过滤第56-58页
     ·介绍第56-57页
     ·拉丁语系分词第57页
     ·中文分词第57-58页
     ·系统设计与实现第58页
   ·存储数据和建立索引第58-64页
     ·Berkeley DB介绍第58-60页
     ·Berkeley DB系统结构第60-61页
     ·Berkeley DB存储功能概述第61-62页
     ·系统设计第62-64页
     ·系统实现第64页
   ·检索和查询接口第64-69页
     ·体系结构第64-65页
     ·P2P网络技术简介第65-66页
     ·系统设计第66-68页
     ·系统实现第68-69页
   ·小结第69-71页
第六章 总结与展望第71-73页
   ·研究工作的总结第71页
   ·趋势与展望第71-73页
致谢第73-75页
参考文献第75-79页
在读期间发表的学术论文第79页

论文共79页,点击 下载论文
上一篇:军机飞行员空中脑力负荷的心理生理评定
下一篇:高速公路计重收费模式研究