| 摘要 | 第1-5页 |
| ABSTRACT | 第5-7页 |
| 目录 | 第7-10页 |
| 表格索引 | 第10-11页 |
| 插图索引 | 第11-12页 |
| 第一章 绪论 | 第12-22页 |
| ·网页分类的重要性 | 第12-14页 |
| ·创建和维护站点目录 | 第12-13页 |
| ·提高搜索质量 | 第13页 |
| ·类目指向的网页爬虫 | 第13-14页 |
| ·用户行为分析系统 | 第14页 |
| ·网页分类研究 | 第14-16页 |
| ·网页分类问题 | 第14-15页 |
| ·基于文本的网页分类 | 第15-16页 |
| ·大数据环境下的分类系统 | 第16-21页 |
| ·互联网日志和大数据 | 第16-17页 |
| ·分类系统问题描述 | 第17-21页 |
| ·文章结构 | 第21页 |
| ·本章小结 | 第21-22页 |
| 第二章 分类模型和算法描述 | 第22-39页 |
| ·维基主题分类模型 | 第22-29页 |
| ·维基知识体系 | 第22-23页 |
| ·维基类目网络的构建 | 第23-28页 |
| ·WikiClassifer | 第28-29页 |
| ·URL 模式树分类模型 | 第29-38页 |
| ·核函数 | 第29-30页 |
| ·自然语言语法树的核函数 | 第30-33页 |
| ·URL 的“语法”规则 | 第33-38页 |
| ·本章小结 | 第38-39页 |
| 第三章 分类系统实现细节 | 第39-61页 |
| ·Hive 系统 | 第40-45页 |
| ·MapReduce 模型 | 第40-41页 |
| ·Hive 上数据存储和操作 | 第41-42页 |
| ·HiveQL 和 MapReduce 的转化逻辑 | 第42-45页 |
| ·URL 模式树生成模块 | 第45-55页 |
| ·URL 的分割和规范化 | 第45-47页 |
| ·令牌的生成 | 第47-48页 |
| ·URL 模式生成 | 第48页 |
| ·URL 模式树的构建 | 第48-54页 |
| ·URL 模式树的分类实现 | 第54-55页 |
| ·基于维基树网络的分类算法实现 | 第55-60页 |
| ·维基类目关联算法的实现 | 第55-59页 |
| ·分类模型的实现 | 第59-60页 |
| ·本章小结 | 第60-61页 |
| 第四章 分类系统测试和评估 | 第61-70页 |
| ·测试环境 | 第61-62页 |
| ·维基主题分类的参数测试 | 第62-67页 |
| ·数据准备 | 第62页 |
| ·继承函数评测 | 第62-64页 |
| ·提权函数评测 | 第64-67页 |
| ·总体测试 | 第67页 |
| ·URL 模式树分类的测试 | 第67-68页 |
| ·数据准备 | 第67-68页 |
| ·URL 模式树分类评测 | 第68页 |
| ·本章小结 | 第68-70页 |
| 全文总结 | 第70-72页 |
| 参考文献 | 第72-76页 |
| 致谢 | 第76-77页 |
| 攻读学位期间发表的学术论文目录 | 第77-78页 |
| 攻读学位期间参与的项目 | 第78-79页 |
| 附件 | 第79-81页 |