首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

主题网络爬虫的研究与设计

摘要第1-4页
Abstract第4-7页
1 绪论第7-13页
   ·概述第7-9页
     ·Internet发展第7页
     ·搜索引擎的发展第7-9页
   ·国内外研究现状第9-11页
   ·研究内容及本文组织第11-13页
2 主题爬虫体系结构第13-27页
   ·基本流程和组成部分第13-16页
     ·基本组成第13-15页
     ·基本流程第15-16页
   ·主题页面的分布特性第16-17页
     ·Hub/Authority特性第16页
     ·Linkage/Sibling Locality特性第16页
     ·站点的主题特性第16-17页
     ·隧道特性第17页
   ·搜索策略以及链接提取第17-25页
     ·robots协议和相对链接的转换第17-18页
     ·搜索策略概述第18-22页
     ·结合链接和内容因素的URL分值预测第22-25页
   ·本章小结第25-27页
3 网页预处理第27-45页
   ·文本分词第27-29页
   ·HTML简介第29-30页
   ·网页文件解析第30-34页
   ·网页消噪第34-43页
     ·相关工作和概念第34-36页
     ·标签节点的过滤第36页
     ·基于样式的消噪第36-43页
   ·本章小结第43-45页
4 网页分类第45-55页
   ·网页分类概述第45-46页
   ·训练集和类目体系第46页
   ·特征选择第46-49页
     ·概述以及部分改进第46-48页
     ·改进的特征选择第48-49页
   ·权值计算第49-52页
     ·TFIDF权值第49页
     ·改进的权值公式第49-52页
   ·分类算法概述第52-53页
   ·本章小结第53-55页
5 爬虫系统设计第55-66页
   ·实现条件和流程详述第55-56页
   ·数据表格和存储过程定义第56-60页
     ·数据表格定义第56-60页
     ·存储过程和触发器的定义第60页
   ·程序界面第60-62页
   ·程序运行结果以及分析第62-65页
   ·本章小结第65-66页
6 总结与展望第66-68页
   ·总结第66页
   ·展望第66-68页
致谢第68-70页
参考文献第70-73页

论文共73页,点击 下载论文
上一篇:无线传输层安全协议的改进与仿真
下一篇:分布式协同攻击系统的研究与实现