基于weka的web文本挖掘的研究和实现

摘要	第1-5页
Abstract	第5-6页
目录	第6-9页
第一章绪论	第9-12页
·研究背景及研究意义	第9页
·国内外研究现状	第9-10页
·本文主要研究内容	第10页
·本文的组织结构	第10-12页
第二章 web挖掘简介	第12-17页
·web内容挖掘	第13-14页
·web文本挖掘	第14页
·web结构挖掘	第14-15页
·web使用挖掘	第15-17页
第三章基于Nutch的文本数据的获取	第17-38页
·Nutch简介	第17-19页
·Nutch爬虫的工作策略	第19-21页
·Nutch所使用的索引算法	第21-22页
·Nutch所使用的排序算法	第22-23页
·Nutch的二次开发	第23-25页
·基于nutch的垂直搜索引擎的性能分析	第24-25页
·hadoop计算模型—MapReduce	第25-37页
·hadoop架构	第25-27页
·HDFS的使用	第27-37页
·本章小结	第37-38页
第四章基于weka文本挖掘	第38-49页
·简介	第38-39页
·weka支持的文件和实验类型	第39-41页
·weka支持的文件	第39-40页
·weka支持的实验类型	第40-41页
·基于weka的实验结果	第41-47页
·决策树分类结果	第41-43页
·K最近邻算法分类结果	第43-45页
·朴素贝叶斯分类结果	第45-46页
·三类分类方法的校验结果比较	第46页
·训练最优模型	第46-47页
·本章小结	第47-49页
第五章系统实现与部署	第49-66页
·软硬件环境	第49页
·Nutch的安装	第49-56页
·需求部分	第49页
·安装步骤	第49-56页
·Nutch中添加IKAnalyzer中文切词	第56-59页
·hadoop的配置	第59-62页
·安装sshd服务	第59-61页
·安装hadoop	第61-62页
·配置MapReduce的编写和调试环境	第62-65页
·MapReduce对文件的提取	第63-65页
·安装weka	第65页
·本章小结	第65-66页
第六章总结及展望	第66-68页
·总结	第66页
·展望	第66-68页
参考文献	第68-70页
个人简历	第70-71页
致谢	第71页