基于网站内容框架的聚焦爬虫算法的优化和实现

致谢	第1-6页
中文摘要	第6-7页
Abstract	第7-11页
1 引言	第11-15页
·背景	第11-12页
·国内外发展现状	第12-13页
·研究意义	第13页
·论文的研究方法	第13页
·论文的组织结构	第13-15页
2 搜索引擎架构模型概述	第15-17页
·搜索引擎的基本架构	第15-16页
·网络爬虫模块作用	第16页
·文本分析网页信息抽取模块	第16页
·索引模块	第16-17页
3 基于主题爬虫相关技术研究与分析	第17-30页
·基于网页特征模型分析	第17-19页
·标签语义化	第17页
·主题首页特性	第17-18页
·内容结构特性	第18-19页
·基于网页结构模型分析	第19-21页
·网页结构分类分析	第20页
·网页分类阶段分析	第20-21页
·常用基于文本的分类算法	第21-25页
·支持向量机(SVM)方法	第21-23页
·朴素贝叶斯分类器	第23-24页
·KNN(K阶邻居算法)	第24-25页
·TF-IDF词频算法	第25页
·常用基于模型的分类算法	第25-29页
·树编辑距离匹配算法	第26页
·简单树匹配模型	第26-27页
·VIPS视觉分块算法	第27-29页
·网页信息提取算法优劣性分析	第29-30页
4 基于内容主题框架的算法分析与设计	第30-35页
·节点风格树匹配算法设计	第30-31页
·模块度分析算法设计	第31-33页
·链接分类算法设计	第33-34页
·主题PageRank算法设计	第34-35页
5 基于内容框架的主题爬虫的设计与实现	第35-56页
·主题爬虫结构的总体设计	第35页
·规划层	第35-41页
·网页主题收集	第35-36页
·主题内容分类提取	第36-37页
·页面模型提取	第37-40页
·页面风格树的初步建立	第40-41页
·样本模型的初步建立	第41页
·应用层	第41-45页
·预取链Preselector模块	第41-43页
·工作线程管理器Works	第43页
·过程管理器Processor	第43-45页
·网页内容抓取Fetcher	第45页
·模型匹配层	第45-52页
·风格树匹配模块	第45-47页
·链接提取模块	第47-49页
·模型度计算模块	第49-52页
·关联层	第52-56页
·PageRank概述	第52-53页
·主题PageRank模块	第53-56页
6 测试结果与分析	第56-61页
·测试标准	第56页
·数据定义	第56-57页
·人员评估机制	第57页
·重复评估及监测	第57页
·抽样样本可信度监测	第57页
·基线标准	第57-58页
·测试结果及分析	第58-61页
·相关数据的结果展示	第58-59页
·实验数据结果分析	第59-61页
7 未来的展望	第61-63页
·总结	第61页
·未来展望	第61-63页
参考文献	第63-64页
作者简历	第64-66页
学位论文数据集	第66页