首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于网站内容框架的聚焦爬虫算法的优化和实现

致谢第1-6页
中文摘要第6-7页
Abstract第7-11页
1 引言第11-15页
   ·背景第11-12页
   ·国内外发展现状第12-13页
   ·研究意义第13页
   ·论文的研究方法第13页
   ·论文的组织结构第13-15页
2 搜索引擎架构模型概述第15-17页
   ·搜索引擎的基本架构第15-16页
   ·网络爬虫模块作用第16页
   ·文本分析网页信息抽取模块第16页
   ·索引模块第16-17页
3 基于主题爬虫相关技术研究与分析第17-30页
   ·基于网页特征模型分析第17-19页
     ·标签语义化第17页
     ·主题首页特性第17-18页
     ·内容结构特性第18-19页
   ·基于网页结构模型分析第19-21页
     ·网页结构分类分析第20页
     ·网页分类阶段分析第20-21页
   ·常用基于文本的分类算法第21-25页
     ·支持向量机(SVM)方法第21-23页
     ·朴素贝叶斯分类器第23-24页
     ·KNN(K阶邻居算法)第24-25页
     ·TF-IDF词频算法第25页
   ·常用基于模型的分类算法第25-29页
     ·树编辑距离匹配算法第26页
     ·简单树匹配模型第26-27页
     ·VIPS视觉分块算法第27-29页
   ·网页信息提取算法优劣性分析第29-30页
4 基于内容主题框架的算法分析与设计第30-35页
   ·节点风格树匹配算法设计第30-31页
   ·模块度分析算法设计第31-33页
   ·链接分类算法设计第33-34页
   ·主题PageRank算法设计第34-35页
5 基于内容框架的主题爬虫的设计与实现第35-56页
   ·主题爬虫结构的总体设计第35页
   ·规划层第35-41页
     ·网页主题收集第35-36页
     ·主题内容分类提取第36-37页
     ·页面模型提取第37-40页
     ·页面风格树的初步建立第40-41页
     ·样本模型的初步建立第41页
   ·应用层第41-45页
     ·预取链Preselector模块第41-43页
     ·工作线程管理器Works第43页
     ·过程管理器Processor第43-45页
     ·网页内容抓取Fetcher第45页
   ·模型匹配层第45-52页
     ·风格树匹配模块第45-47页
     ·链接提取模块第47-49页
     ·模型度计算模块第49-52页
   ·关联层第52-56页
     ·PageRank概述第52-53页
     ·主题PageRank模块第53-56页
6 测试结果与分析第56-61页
   ·测试标准第56页
   ·数据定义第56-57页
   ·人员评估机制第57页
     ·重复评估及监测第57页
     ·抽样样本可信度监测第57页
   ·基线标准第57-58页
   ·测试结果及分析第58-61页
     ·相关数据的结果展示第58-59页
     ·实验数据结果分析第59-61页
7 未来的展望第61-63页
   ·总结第61页
   ·未来展望第61-63页
参考文献第63-64页
作者简历第64-66页
学位论文数据集第66页

论文共66页,点击 下载论文
上一篇:APACHE服务器性能参数在线调节与QOS的性能优化
下一篇:基于自然地形下月球车轮壤接触动力学仿真研究