首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题蜘蛛的研究及实现

摘要第1-6页
Abstract第6-7页
第一章 前言第7-10页
   ·研究背景第7-8页
   ·国内外相关研究现状第8页
   ·主要研究内容第8-9页
   ·研究成果与创新之处第9页
   ·本文的组织结构第9-10页
第二章 主题蜘蛛概述第10-16页
   ·通用蜘蛛第10-12页
     ·页面采集模块第10-11页
     ·网页预处理模块第11-12页
     ·链接提取模块第12页
     ·数据库存储模块第12页
   ·主题蜘蛛第12-14页
     ·中文分词第13页
     ·主题过滤第13-14页
   ·性能瓶颈分析第14-16页
     ·网络通信延迟第14页
     ·礼貌爬行问题第14-15页
     ·域名解析第15-16页
第三章 主题搜索策略第16-21页
   ·种子页面的选取第16页
   ·搜索策略概述第16-21页
     ·传统搜索策略第17页
     ·主题搜索策略第17-21页
第四章 网页预处理第21-27页
   ·页面解析第21-22页
     ·HTML语法分析第21页
     ·页面中正文提取第21-22页
     ·页面中链接提取第22页
   ·URL和关键词过滤第22-23页
   ·拒绝协议第23-27页
     ·网络机器人排斥标准第23-24页
     ·网络机器人元标记第24-25页
     ·实现细节第25-27页
第五章 中文分词及主题相关度计算第27-40页
   ·中文分词第27-33页
     ·基于字典、词库匹配的分词方法第27页
     ·基于词频统计的分词方法第27-28页
     ·基于知识理解的分词方法第28页
     ·本系统分词算法实现第28-33页
   ·主题相关度计算第33-40页
     ·向量空间模型第34-36页
     ·网页特征提取第36-37页
     ·权重计算第37-40页
第六章 主题蜘蛛的系统实现第40-47页
   ·具体实现第40-44页
     ·设计原则第40页
     ·基本流程第40-41页
     ·主要类介绍第41-43页
     ·系统界面第43-44页
   ·主要数据表设计第44-46页
   ·实验效果第46-47页
第七章 总结及展望第47-48页
   ·本文的工作总结第47页
   ·下一步的工作第47-48页
参考文献第48-50页
致谢第50-51页
附录第51-52页

论文共52页,点击 下载论文
上一篇:喷雾机器人无线远程监控系统的研究
下一篇:通信系统中中频发射模块的软件无线电仿真及实现