摘要 | 第1-9页 |
ABSTRACT | 第9-11页 |
第一章 绪论 | 第11-17页 |
·教育技术学科背景 | 第11-12页 |
·网络爬行器的研究现状 | 第12-13页 |
·网络爬行器概念叙述 | 第12页 |
·搜索引擎分类 | 第12-13页 |
·多媒体主题搜索相关技术介绍 | 第13-15页 |
·概述 | 第13-14页 |
·搜索引擎的组成 | 第14-15页 |
·论文的研究方法和组织结构 | 第15-17页 |
·论文的研究方法 | 第15-16页 |
·论文的组织结构 | 第16-17页 |
第二章 网络爬行器的工作原理和搜索算法的改进 | 第17-28页 |
·网络爬行器介绍 | 第17页 |
·网络爬行器的基本组成结构 | 第17-18页 |
·网络爬行器的体系结构 | 第18-20页 |
·控制模块 | 第18-19页 |
·爬行模块 | 第19-20页 |
·存储模块 | 第20页 |
·网络爬行器搜索策略 | 第20-22页 |
·网络搜索算法的改进 | 第22-27页 |
·基于Topic-PageRank 主题搜索算法 | 第22-24页 |
·基于改进Shark-Search 的多媒体主题搜索算法 | 第24-27页 |
·本章小结 | 第27-28页 |
第三章 多媒体网页信息分析处理 | 第28-35页 |
·超文本传输协议(HTTP) | 第28-30页 |
·协议概述 | 第28-29页 |
·协议功能 | 第29-30页 |
·多媒体信息的相关标签 | 第30-32页 |
·Web 中主题页面的分布特征 | 第32-34页 |
·中心页面(Hub)特征 | 第33页 |
·主题关联特征 | 第33页 |
·主题聚集特征 | 第33页 |
·隧道特征 | 第33-34页 |
·本章小结 | 第34-35页 |
第四章 多媒体Flash 网页资源的消重与净化 | 第35-41页 |
·网页重复的特征 | 第35-36页 |
·网页消重的经典算法 | 第36-37页 |
·Shingling 算法 | 第36-37页 |
·Simhash 算法 | 第37页 |
·网页正文重复性判断算法描述 | 第37-38页 |
·网页消重系统结构 | 第38-39页 |
·实验结果分析 | 第39-40页 |
·本章小结 | 第40-41页 |
第五章 网络Flash 资源爬行器的系统实现 | 第41-50页 |
·数据库设计 | 第41-43页 |
·合并数据库 | 第42-43页 |
·URLcode 代码转换成网页 | 第43页 |
·网络Flash 爬行器的运行流程 | 第43-45页 |
·网络Flash 爬行器爬行种子的搜索 | 第43-44页 |
·网络Flash 爬行器搜索种子关键词总结 | 第44-45页 |
·网络Flash 爬行器的运行过程 | 第45-47页 |
·实验结果及分析 | 第47-49页 |
·硬件环境 | 第47页 |
·参数选择和评价指标 | 第47页 |
·实验结果分析 | 第47-49页 |
·本章小结 | 第49-50页 |
第六章 总结与展望 | 第50-52页 |
·本文的工作总结 | 第50页 |
·下一步的展望 | 第50-52页 |
参考文献 | 第52-55页 |
附录网络爬行器各模块的核心类 | 第55-58页 |
致谢 | 第58-59页 |
攻读硕士学位期间发表的学术论文 | 第59页 |