首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向Web挖掘的主题网络爬虫的研究与实现

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-12页
   ·课题背景第8页
   ·研究现状第8-9页
   ·本文的研究内容与组织结构第9-12页
     ·本文的研究内容第9页
     ·本文的组织结构第9-12页
第二章 Web 挖掘技术第12-16页
   ·Web挖掘的概念第12页
   ·Web挖掘的特点与分类第12-14页
   ·Web挖掘的基本步骤第14页
   ·几种Web数据挖掘方式的对比第14-15页
   ·本章小结第15-16页
第三章 搜索引擎技术与主题网络爬虫概述第16-24页
   ·搜索引擎技术第16-19页
     ·搜索引擎的背景第16页
     ·搜索引擎的基本体系结构第16-18页
     ·基于主题的搜索引擎第18-19页
   ·主题网络爬虫第19-23页
     ·通过网络爬虫简介第19-20页
     ·主题网络爬虫的工作原理第20-21页
     ·主题网络爬虫的设计目标第21-23页
     ·主题网络爬虫的关键技术第23页
   ·本章小结第23-24页
第四章 主题网络爬虫的算法分析与实现第24-42页
   ·基于非贪婪遗传算法的主题网络爬虫策略第24-28页
     ·用于网络搜索的遗传算法第24-25页
     ·用于超链接选择的非贪婪策略第25-26页
     ·非贪婪遗传搜索算法第26-27页
     ·性能分析第27-28页
   ·HTML网页文档解析第28-31页
     ·HTML网页文档的格式与特点第28-29页
     ·HTML网页文档的树型结构表示第29-30页
     ·HTML网页文档的结构解析第30-31页
   ·Web文本分析第31-35页
     ·网页预处理以及网页内超链接的提取第31-32页
     ·网页文本内容抽取第32页
     ·中文分词技术第32-34页
     ·特征向量项的权重计算第34-35页
   ·页面主题相关性第35-38页
     ·网页内容与主题的相关性判定第35-37页
     ·网页链接与主题的相关性判定第37-38页
   ·Web文本分类算法第38-41页
     ·Web文本分类简述第38-39页
     ·朴素贝叶斯分类算法第39-40页
     ·基于K-means的朴素贝叶斯分类算法第40-41页
   ·本章小结第41-42页
第五章 面向 Web 挖掘的主题网络爬虫的设计与实现第42-70页
   ·企业竞争情报系统介绍第42-43页
   ·主题网络爬虫系统简介第43-45页
     ·系统设计原则第43-44页
     ·系统的总体架构第44-45页
   ·线程管理模块第45-48页
     ·多线程的工作流程第46页
     ·多线程的工作流程第46-47页
     ·多线程的类图设计第47-48页
   ·网页下载模块第48-49页
   ·网页解析模块第49-53页
     ·网页结构解析第49-51页
     ·网页内容解析第51-53页
   ·主题相关度评价模块第53-55页
   ·URL调度模块第55-59页
     ·选择种子URL第55-56页
     ·管理URL集合第56-59页
   ·数据存储模块第59-63页
     ·数据类型与数据存储设计第59-62页
     ·类图的设计第62页
     ·数据检索第62-63页
   ·系统运行界面第63-68页
   ·本章小结第68-70页
第六章 总结与展望第70-72页
   ·研究工作的总结第70页
   ·趋势与展望第70-72页
致谢第72-74页
参考文献第74-77页

论文共77页,点击 下载论文
上一篇:基于图像处理的高速公路车牌识别关键技术研究
下一篇:基于UHF RFID自主标准的协议验证及芯片前端设计