摘要 | 第5-7页 |
abstract | 第7-8页 |
第1章 绪论 | 第12-26页 |
1.1 研究背景及意义 | 第12-14页 |
1.2 研究现状 | 第14-23页 |
1.2.1 主题爬虫研究现状 | 第14-16页 |
1.2.2 主题模型研究现状 | 第16-19页 |
1.2.3 文本分类研究现状 | 第19-22页 |
1.2.4 上网时长估算研究现状 | 第22-23页 |
1.3 本文研究重点和工作内容 | 第23-26页 |
第2章 基于领域本体的SHARK SEARCH主题爬虫 | 第26-44页 |
2.1 概述 | 第26页 |
2.2 Shark Search算法分析 | 第26-30页 |
2.2.1 算法概述 | 第26-28页 |
2.2.2 缺陷分析 | 第28-30页 |
2.3 模型推理与设计 | 第30-37页 |
2.3.1 基于网页结构的链接聚类 | 第30-32页 |
2.3.2 Ontology-VSM模型推理 | 第32-34页 |
2.3.3 改进后的算法设计 | 第34-37页 |
2.4 实验 | 第37-42页 |
2.4.1 领域本体建模 | 第37-39页 |
2.4.2 结果分析 | 第39-42页 |
2.5 本章小结 | 第42-44页 |
第3章 区域分布特征的主题模型 | 第44-62页 |
3.1 概述 | 第44页 |
3.2 LDA主题模型 | 第44-47页 |
3.2.1 LSI和pLSI | 第44-46页 |
3.2.2 潜在狄利克雷分配(LDA) | 第46-47页 |
3.3 模型推理与设计 | 第47-54页 |
3.3.1 模型结构 | 第47-49页 |
3.3.2 联合概率分布计算 | 第49-50页 |
3.3.3 Gibbs Sampling更新规则推导 | 第50-52页 |
3.3.4 模型参数估计(Estimator)过程 | 第52-53页 |
3.3.5 Gibbs Sampling规则修正 | 第53-54页 |
3.4 实验 | 第54-61页 |
3.4.1 数据准备 | 第54-56页 |
3.4.2 模型参数优化 | 第56-57页 |
3.4.3 结果分析 | 第57-61页 |
3.5 本章小结 | 第61-62页 |
第4章 特征提取优化的文本分类模型 | 第62-85页 |
4.1 概述 | 第62页 |
4.2 基于属性加权的朴素贝叶斯分类模型 | 第62-71页 |
4.2.1 特征选取TF-D(t)-GHI算法推导 | 第62-65页 |
4.2.2 模型推理 | 第65-66页 |
4.2.3 实验 | 第66-71页 |
4.3 LDA-AdaBoost分类模型 | 第71-83页 |
4.3.1 模型推理 | 第71-74页 |
4.3.2 分类器设计 | 第74-77页 |
4.3.3 实验 | 第77-83页 |
4.4 本章小结 | 第83-85页 |
第5章 离散行为聚类的上网时长估算 | 第85-104页 |
5.1 概述 | 第85页 |
5.2 相关工作 | 第85-90页 |
5.2.1 DBSCAN密度聚类算法 | 第85-87页 |
5.2.2 Spark分布式计算框架 | 第87-90页 |
5.3 分布式聚类时长计算模型 | 第90-95页 |
5.3.1 模型结构 | 第90-91页 |
5.3.2 并行聚类 | 第91-94页 |
5.3.3 时长计算 | 第94-95页 |
5.4 实验 | 第95-102页 |
5.4.1 实验环境 | 第95页 |
5.4.2 数据准备 | 第95-97页 |
5.4.3 参数优化及噪声处理 | 第97-99页 |
5.4.4 结果分析 | 第99-102页 |
5.5 本章小结 | 第102-104页 |
结论 | 第104-108页 |
本文工作总结 | 第104-106页 |
未来工作展望 | 第106-108页 |
参考文献 | 第108-117页 |
攻读学位期间发表论文与研究成果清单 | 第117-118页 |
致谢 | 第118-119页 |
作者简介 | 第119页 |