基于weka的web文本挖掘的研究和实现
| 摘要 | 第1-5页 |
| Abstract | 第5-6页 |
| 目录 | 第6-9页 |
| 第一章 绪论 | 第9-12页 |
| ·研究背景及研究意义 | 第9页 |
| ·国内外研究现状 | 第9-10页 |
| ·本文主要研究内容 | 第10页 |
| ·本文的组织结构 | 第10-12页 |
| 第二章 web挖掘简介 | 第12-17页 |
| ·web内容挖掘 | 第13-14页 |
| ·web文本挖掘 | 第14页 |
| ·web结构挖掘 | 第14-15页 |
| ·web使用挖掘 | 第15-17页 |
| 第三章 基于Nutch的文本数据的获取 | 第17-38页 |
| ·Nutch简介 | 第17-19页 |
| ·Nutch爬虫的工作策略 | 第19-21页 |
| ·Nutch所使用的索引算法 | 第21-22页 |
| ·Nutch所使用的排序算法 | 第22-23页 |
| ·Nutch的二次开发 | 第23-25页 |
| ·基于nutch的垂直搜索引擎的性能分析 | 第24-25页 |
| ·hadoop计算模型—MapReduce | 第25-37页 |
| ·hadoop架构 | 第25-27页 |
| ·HDFS的使用 | 第27-37页 |
| ·本章小结 | 第37-38页 |
| 第四章 基于weka文本挖掘 | 第38-49页 |
| ·简介 | 第38-39页 |
| ·weka支持的文件和实验类型 | 第39-41页 |
| ·weka支持的文件 | 第39-40页 |
| ·weka支持的实验类型 | 第40-41页 |
| ·基于weka的实验结果 | 第41-47页 |
| ·决策树分类结果 | 第41-43页 |
| ·K最近邻算法分类结果 | 第43-45页 |
| ·朴素贝叶斯分类结果 | 第45-46页 |
| ·三类分类方法的校验结果比较 | 第46页 |
| ·训练最优模型 | 第46-47页 |
| ·本章小结 | 第47-49页 |
| 第五章 系统实现与部署 | 第49-66页 |
| ·软硬件环境 | 第49页 |
| ·Nutch的安装 | 第49-56页 |
| ·需求部分 | 第49页 |
| ·安装步骤 | 第49-56页 |
| ·Nutch中添加IKAnalyzer中文切词 | 第56-59页 |
| ·hadoop的配置 | 第59-62页 |
| ·安装sshd服务 | 第59-61页 |
| ·安装hadoop | 第61-62页 |
| ·配置MapReduce的编写和调试环境 | 第62-65页 |
| ·MapReduce对文件的提取 | 第63-65页 |
| ·安装weka | 第65页 |
| ·本章小结 | 第65-66页 |
| 第六章 总结及展望 | 第66-68页 |
| ·总结 | 第66页 |
| ·展望 | 第66-68页 |
| 参考文献 | 第68-70页 |
| 个人简历 | 第70-71页 |
| 致谢 | 第71页 |