基于BP网络的高校主题爬虫的设计与实现
摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 引言 | 第8-12页 |
·课题研究背景 | 第8-9页 |
·国内外研究现状 | 第9-10页 |
·通用搜索引擎与主题搜索引擎的区别 | 第10-11页 |
·本文的研究内容和组织结构 | 第11-12页 |
·本文的研究内容 | 第11页 |
·本文的组织结构 | 第11-12页 |
第二章 相关理论与技术 | 第12-17页 |
·搜索引擎概述 | 第12页 |
·搜索引擎的发展 | 第12-13页 |
·搜索引擎工作原理 | 第13-14页 |
·主题搜索引擎 | 第14页 |
·网络爬虫简介 | 第14-17页 |
·网络爬虫定义及分类 | 第14-15页 |
·主题爬虫 | 第15页 |
·通用爬虫与主题爬虫的区别 | 第15-17页 |
第三章 BP 人工神经网络概述 | 第17-23页 |
·人工神经网络 | 第17-20页 |
·人工神经网络的产生 | 第17-18页 |
·生物神经元模型 | 第18-19页 |
·人工神经元的数学模型 | 第19-20页 |
·人工神经网络的工作过程 | 第20页 |
·BP 人工神经网络 | 第20-23页 |
·BP 网络特点 | 第21-22页 |
·BP 算法描述 | 第22-23页 |
第四章 主题爬虫的设计与实现 | 第23-33页 |
·网页的预处理 | 第23页 |
·主题相关性的判断 | 第23-24页 |
·BP 分类器的构造 | 第24-29页 |
·训练样本的采集 | 第24-26页 |
·主题词的提取及主题词库的建立 | 第26-27页 |
·输入输出神经元的设计 | 第27-28页 |
·初始权值的确定 | 第28页 |
·隐层层数的确定 | 第28页 |
·隐层结点数的确定 | 第28-29页 |
·激活函数的确定 | 第29页 |
·主题爬虫实现的关键技术 | 第29-33页 |
·多线程技术 | 第29-30页 |
·起始种子的选择 | 第30-31页 |
·URL 队列的维护 | 第31-33页 |
第五章 实验结果及性能评价 | 第33-38页 |
·实验环境 | 第33页 |
·实验结果 | 第33-38页 |
·训练样本采集及主题词取结果 | 第33-34页 |
·训练BP 网络的结果 | 第34-35页 |
·主题爬虫运行效果 | 第35-36页 |
·爬虫爬取能力实验 | 第36页 |
·实验结果对比 | 第36-38页 |
第六章 总结与展望 | 第38-39页 |
参考文献 | 第39-43页 |
致谢 | 第43-44页 |
在学期间公开发表论文及著作情况 | 第44页 |