定题Web搜索与挖掘的研究及系统实现

摘要	第1-5页
Abstract	第5-9页
第一章绪论	第9-13页
·课题背景	第9页
·研究现状	第9-10页
·课题的研究内容	第10-11页
·论文的组织结构	第11-13页
第二章基于Web的数据挖掘	第13-25页
·数据挖掘综述	第13-16页
·概念	第13页
·特点	第13-14页
·分类	第14-15页
·一般处理过程	第15-16页
·Web数据挖掘	第16-21页
·概念	第16-17页
·特点	第17-18页
·分类	第18-20页
·处理过程	第20-21页
·各类Web数据挖掘的比较	第21页
·Web文本挖掘	第21-23页
·小结	第23-25页
第三章定题搜索引擎技术	第25-33页
·搜索引擎技术综述	第25-27页
·概况	第25-26页
·分类	第26页
·体系结构	第26-27页
·网络爬虫技术	第27-30页
·介绍	第27-28页
·设计目标	第28页
·工作流程	第28-29页
·实现方式	第29-30页
·HTTP协议介绍	第30-32页
·特点	第30-31页
·主要方法	第31页
·HTML结构树	第31-32页
·小结	第32-33页
第四章相关理论和算法	第33-51页
·文本相似度	第33-34页
·TF-IDF权值方案	第33-34页
·文本相似度计算	第34页
·链接上下文的获取	第34-41页
·介绍	第34-35页
·HTML结构树的生成	第35页
·上下文推导方法	第35-37页
·样本数据的采集	第37页
·性能评价	第37-41页
·基于非贪婪遗传算法的定题爬行策略	第41-44页
·用于网络搜索的遗传算法	第41-42页
·用于链接选择的非贪婪策略	第42页
·基于非贪婪遗传算法的定题网络爬虫搜索算法	第42-43页
·性能评价	第43-44页
·文本聚类算法	第44-48页
·简介	第44页
·文本聚类及判断标准	第44-45页
·算法的分析与比较	第45-48页
·研究进展	第48页
·中文分词技术	第48-50页
·基于字符串匹配的分词方法	第48-49页
·基于理解的分词方法	第49页
·基于统计的分词方法	第49-50页
·小结	第50-51页
第五章系统的设计与实现	第51-71页
·多线程网络爬虫系统	第51-56页
·介绍	第51页
·爬虫系统的框架	第51-52页
·线程	第52-53页
·解析器	第53-55页
·同步机制	第55页
·系统实现	第55-56页
·分词和过滤	第56-58页
·介绍	第56-57页
·拉丁语系分词	第57页
·中文分词	第57-58页
·系统设计与实现	第58页
·存储数据和建立索引	第58-64页
·Berkeley DB介绍	第58-60页
·Berkeley DB系统结构	第60-61页
·Berkeley DB存储功能概述	第61-62页
·系统设计	第62-64页
·系统实现	第64页
·检索和查询接口	第64-69页
·体系结构	第64-65页
·P2P网络技术简介	第65-66页
·系统设计	第66-68页
·系统实现	第68-69页
·小结	第69-71页
第六章总结与展望	第71-73页
·研究工作的总结	第71页
·趋势与展望	第71-73页
致谢	第73-75页
参考文献	第75-79页
在读期间发表的学术论文	第79页