面向Web挖掘的主题网络爬虫的研究与实现

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-12页
·课题背景	第8页
·研究现状	第8-9页
·本文的研究内容与组织结构	第9-12页
·本文的研究内容	第9页
·本文的组织结构	第9-12页
第二章 Web 挖掘技术	第12-16页
·Web挖掘的概念	第12页
·Web挖掘的特点与分类	第12-14页
·Web挖掘的基本步骤	第14页
·几种Web数据挖掘方式的对比	第14-15页
·本章小结	第15-16页
第三章搜索引擎技术与主题网络爬虫概述	第16-24页
·搜索引擎技术	第16-19页
·搜索引擎的背景	第16页
·搜索引擎的基本体系结构	第16-18页
·基于主题的搜索引擎	第18-19页
·主题网络爬虫	第19-23页
·通过网络爬虫简介	第19-20页
·主题网络爬虫的工作原理	第20-21页
·主题网络爬虫的设计目标	第21-23页
·主题网络爬虫的关键技术	第23页
·本章小结	第23-24页
第四章主题网络爬虫的算法分析与实现	第24-42页
·基于非贪婪遗传算法的主题网络爬虫策略	第24-28页
·用于网络搜索的遗传算法	第24-25页
·用于超链接选择的非贪婪策略	第25-26页
·非贪婪遗传搜索算法	第26-27页
·性能分析	第27-28页
·HTML网页文档解析	第28-31页
·HTML网页文档的格式与特点	第28-29页
·HTML网页文档的树型结构表示	第29-30页
·HTML网页文档的结构解析	第30-31页
·Web文本分析	第31-35页
·网页预处理以及网页内超链接的提取	第31-32页
·网页文本内容抽取	第32页
·中文分词技术	第32-34页
·特征向量项的权重计算	第34-35页
·页面主题相关性	第35-38页
·网页内容与主题的相关性判定	第35-37页
·网页链接与主题的相关性判定	第37-38页
·Web文本分类算法	第38-41页
·Web文本分类简述	第38-39页
·朴素贝叶斯分类算法	第39-40页
·基于K-means的朴素贝叶斯分类算法	第40-41页
·本章小结	第41-42页
第五章面向 Web 挖掘的主题网络爬虫的设计与实现	第42-70页
·企业竞争情报系统介绍	第42-43页
·主题网络爬虫系统简介	第43-45页
·系统设计原则	第43-44页
·系统的总体架构	第44-45页
·线程管理模块	第45-48页
·多线程的工作流程	第46页
·多线程的工作流程	第46-47页
·多线程的类图设计	第47-48页
·网页下载模块	第48-49页
·网页解析模块	第49-53页
·网页结构解析	第49-51页
·网页内容解析	第51-53页
·主题相关度评价模块	第53-55页
·URL调度模块	第55-59页
·选择种子URL	第55-56页
·管理URL集合	第56-59页
·数据存储模块	第59-63页
·数据类型与数据存储设计	第59-62页
·类图的设计	第62页
·数据检索	第62-63页
·系统运行界面	第63-68页
·本章小结	第68-70页
第六章总结与展望	第70-72页
·研究工作的总结	第70页
·趋势与展望	第70-72页
致谢	第72-74页
参考文献	第74-77页