基于大数据的热点医疗新闻系统的研究与实现

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第9-14页
1.1 论文背景与意义	第9-10页
1.1.1 研究背景	第9页
1.1.2 研究意义	第9-10页
1.2 国内外研究现状	第10-11页
1.2.1 TDT技术概述	第10页
1.2.2 最新研究现状与分析	第10-11页
1.3 本文的研究内容	第11-12页
1.4 论文的组织结构	第12-14页
第二章相关技术的研究	第14-23页
2.1 Hadoop系统技术	第14-16页
2.1.1 HDFS	第14页
2.1.2 MapReduce	第14-15页
2.1.3 Hbase数据库	第15-16页
2.2 网络爬虫技术	第16-19页
2.3 ICTCLAS中文分词库	第19-20页
2.4 聚类算法技术	第20-22页
2.5 本章小结	第22-23页
第三章数据的采集与正文向量建模	第23-35页
3.1 分布式框架下的通用爬虫	第23-25页
3.1.1 搭建hadoop系统环境	第23页
3.1.2 分布式Nutch爬虫体系结构设计	第23-25页
3.2 医疗新闻数据的去噪与正文提取	第25-26页
3.2.1 新闻数据的网页内容分析	第25页
3.2.2 基于标签的网页正文提取算法	第25-26页
3.3 基于双字哈希机制的中文分词算法	第26-30页
3.3.1 双字哈希的词典机制	第26-27页
3.3.2 改进的正向最大匹配算法	第27-29页
3.3.3 中文分词实验结果	第29-30页
3.4 构建医疗新闻主题模型	第30-34页
3.4.1 主题模型的关键属性标签	第31-32页
3.4.2 TF-IDF算法提取关键词	第32-33页
3.4.3 建立正文的量化模型	第33-34页
3.4.4 DF语料库实时更新	第34页
3.5 本章小结	第34-35页
第四章热点医疗新闻的发现与追踪	第35-44页
4.1 改进的single-pass聚类算法	第35-40页
4.1.1 传统的single-pass聚类算法	第35-36页
4.1.2 改进的single-pass聚类算法	第36-39页
4.1.3 实验结果分析	第39-40页
4.2 新闻热度计算策略	第40-41页
4.2.1 热点新闻的特征向量	第40页
4.2.2 新闻热度值计算	第40-41页
4.3 基于时间模型的主题热度追踪方法	第41-43页
4.3.1 基于时间模型的信息增益追踪	第41-42页
4.3.2 实验结果分析	第42-43页
4.4 本章小结	第43-44页
第五章热点医疗新闻系统的实现	第44-62页
5.1 系统需求分析	第44-48页
5.1.1 功能需求	第44-47页
5.1.2 性能需求	第47-48页
5.2 系统概要设计	第48-49页
5.3 系统模块设计与实现	第49-56页
5.3.1 登录模块	第49-50页
5.3.2 选择主题模块	第50-51页
5.3.3 数据采集模块	第51-52页
5.3.4 页面数据预处理模块	第52-53页
5.3.5 正文预处理模块	第53-54页
5.3.6 热点新闻发现模块	第54-55页
5.3.7 热点新闻展示模块	第55-56页
5.4 系统的环境配置与框架设计	第56-58页
5.4.1 系统的环境配置	第56页
5.4.2 系统框架设计	第56-58页
5.5 系统的展示	第58-61页
5.5.1 用户首页	第58-59页
5.5.2 系统的首页	第59页
5.5.3 热点新闻展示	第59-61页
5.6 本章小结	第61-62页
总结与展望	第62-64页
本文总结	第62页
工作展望	第62-64页
参考文献	第64-68页
致谢	第68-69页