基于内存计算的文本聚类算法的研究与实现

摘要	第4-5页
Abstract	第5-6页
缩略语	第11-12页
第一章绪论	第12-16页
1.1 引言	第12页
1.2 课题背景	第12-13页
1.2.1 新闻推荐系统框架	第13页
1.3 论文的研究目的和意义	第13-14页
1.4 论文的研究内容及章节安排	第14-16页
第二章个性化推荐系统技术综述	第16-24页
2.1 个性化推荐系统概述	第16页
2.2 个性化推荐系统分类	第16-21页
2.2.1 基于协同过滤的推荐	第16-17页
2.2.2 基于内容的推荐	第17-18页
2.2.3 基于关联规则的推荐	第18-19页
2.2.4 基于效用的推荐	第19页
2.2.5 基于知识的推荐	第19页
2.2.6 混合推荐系统	第19-21页
2.3 本章小节	第21-24页
第三章网络爬虫的研究与实现	第24-44页
3.1 搜索引擎概述	第24-27页
3.2 网络爬虫分类与工作原理	第27-29页
3.2.1 网络爬虫的分类	第27-28页
3.2.2 网络爬虫的工作原理	第28-29页
3.3 网络爬虫搜索策略	第29-30页
3.3.1 广度优先搜索策略	第29页
3.3.2 深度优先搜索策略	第29页
3.3.3 搜索策略比较	第29-30页
3.4 爬虫架构	第30-31页
3.5 网页去重概述	第31-33页
3.5.1 网页重复的原因	第32页
3.5.2 网页重复的类型	第32页
3.5.3 网页去重的意义	第32-33页
3.6 现有网页去重算法	第33-37页
3.6.1 基于I-Match的网页去重算法	第34页
3.6.2 基于Shingling的网页去重算法	第34-35页
3.6.3 基于LSH的网页去重算法	第35-36页
3.6.4 基于布隆过滤器的网页去重算法	第36-37页
3.7 基于布隆过滤器和标题的网页去重算法	第37-41页
3.7.1 布隆过滤器算法描述	第37-38页
3.7.2 布隆过滤器时间和空间上的优势	第38页
3.7.3 误判概率的证明和计算	第38-39页
3.7.4 设计和应用布隆过滤器	第39-40页
3.7.5 基于标题的网页去重	第40-41页
3.8 实验与分析	第41-42页
3.9 本章小节	第42-44页
第四章基于统计与标题和正文位置关系的正文提取算法的研究与实现	第44-58页
4.1 网页正文提取概述	第44-45页
4.2 现有网页正文提取算法	第45-49页
4.2.1 基于模板的正文提取算法	第45页
4.2.2 基于视觉的正文提取算法	第45-46页
4.2.3 基于机器学习的正文提取算法	第46-48页
4.2.4 基于统计的正文提取算法	第48-49页
4.3 基于统计与标题和正文位置关系的正文提取算法	第49-53页
4.3.1 混合提取模型	第49-50页
4.3.2 算法详细描述	第50-53页
4.4 实验与分析	第53-56页
4.5 本章小节	第56-58页
第五章个性化新闻推荐引擎中新闻聚类系统的实现	第58-68页
5.1 聚类算法概述	第58-60页
5.1.1 K-Means算法介绍	第58-59页
5.1.2 文本聚类介绍	第59-60页
5.2 新闻聚类系统的设计	第60-64页
5.2.1 新闻源的获取	第60页
5.2.2 正文的提取	第60-61页
5.2.3 中文分词	第61页
5.2.4 文本特征表示	第61-62页
5.2.5 分布式处理架构	第62-63页
5.2.6 新闻聚类系统	第63-64页
5.3 实验与分析	第64-67页
5.4 本章小节	第67-68页
第六章总结与展望	第68-70页
6.1 全文总结	第68-69页
6.2 进一步研究工作	第69-70页
致谢	第70-72页
参考文献	第72-76页
攻读硕士学位期间的研究成果	第76页