基于论坛关键字搜索的改进TF-IDF算法及其应用

摘要	第3-4页
Abstract	第4-5页
第1章绪论	第8-12页
1.1 研究背景和意义	第8-9页
1.2 国内外研究现状	第9-10页
1.3 主要研究内容	第10页
1.4 本文的组织结构	第10-12页
第2章相关理论知识	第12-20页
2.1 引言	第12页
2.2 关键词提取方法	第12-13页
2.2.1 基于自然语言分析的方法	第12-13页
2.2.2 基于统计的方法	第13页
2.2.3 基于词语共现图的方法	第13页
2.2.4 基于词语网络的方法	第13页
2.3 文本挖掘与文本聚类	第13-15页
2.3.1 文本挖掘	第13-14页
2.3.2 文本聚类	第14-15页
2.4 中文词汇特点	第15-16页
2.5 论坛特性	第16页
2.6 论坛帖子结构特征	第16-17页
2.7 中文分词	第17页
2.8 网络爬虫	第17-20页
第3章基于论坛的TF-IDF算法的改进	第20-26页
3.1 TF-IDF算法	第20-21页
3.1.1 TF值计算	第20页
3.1.2 IDF计算	第20-21页
3.2 TF-IDF算法在基于论坛的关键词提取中的不足	第21-22页
3.3 TF-IDF算法的改进	第22-23页
3.4 改进后的TF-IDF算法的测试	第23-26页
第4章系统分析与设计	第26-40页
4.1 系统概况	第26-27页
4.2 需求分析	第27页
4.3 系统设计目标与原则	第27-28页
4.4 系统结构	第28页
4.5 系统功能	第28-29页
4.6 系统总体流程	第29-30页
4.7 数据库设计	第30页
4.8 模块设计	第30-40页
4.8.1 网络爬虫的设计	第30-32页
4.8.2 文本分词	第32-33页
4.8.3 关键词提取	第33-37页
4.8.4 文本向量空间模型的建立与帖子文本分类	第37-39页
4.8.5 关键字匹配和网页排序	第39-40页
第五章系统实现与测试	第40-47页
5.1 系统环境	第40-41页
5.1.1 软硬件环境	第40页
5.1.2 MyEclipse配置	第40-41页
5.1.3 SQL Server的安装	第41页
5.2 系统界面	第41-44页
5.2.1 系统后台界面	第41-43页
5.2.2 系统主界面	第43-44页
5.3 系统测试	第44-45页
5.4 系统性能分析	第45-47页
5.4.1 评价标准	第45页
5.4.2 性能分析	第45-47页
第6章总结与展望	第47-49页
6.1 总结	第47页
6.2 展望	第47-49页
参考文献	第49-52页
致谢	第52-53页
在读期间公开发表论文（著）及科研情况	第53页