基于热点话题自动发现的网站搜索引擎优化
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第7-10页 |
1.1 研究背景、目的及意义 | 第7页 |
1.2 本文的主要内容和创新点 | 第7-8页 |
1.3 本文的章节安排 | 第8-10页 |
第二章 相关研究理论与关键技术 | 第10-23页 |
2.1 搜索引擎优化技术 | 第10页 |
2.2 网络爬虫技术 | 第10-11页 |
2.3 文本预处理 | 第11-12页 |
2.4 文本表示 | 第12-23页 |
2.4.1 向量空间模型 | 第12-13页 |
2.4.2 关于向量空间模型的讨论 | 第13-14页 |
2.4.3 文本特征选取 | 第14-16页 |
2.4.4 特征权重算法 | 第16-19页 |
2.4.5 TF-IDF权重算法分析 | 第19-20页 |
2.4.6 改进的权重算法 | 第20-23页 |
第三章 搜索引擎优化关键技术 | 第23-35页 |
3.1 热点话题发现 | 第23-30页 |
3.1.1 概述 | 第23页 |
3.1.2 噪音评论过滤 | 第23-27页 |
3.1.2.1 算法思想 | 第25页 |
3.1.2.2 内容相关度计算 | 第25-26页 |
3.1.2.3 评论再筛选 | 第26-27页 |
3.1.2.4 噪音过滤举例 | 第27页 |
3.1.3 热点话题识别 | 第27-30页 |
3.1.3.1 算法思想 | 第27-28页 |
3.1.3.2 算法设计 | 第28-30页 |
3.2 文本特征表示及分类 | 第30-32页 |
3.2.1 概述 | 第30-31页 |
3.2.2 训练集构建 | 第31页 |
3.2.3 分类具体实现 | 第31-32页 |
3.2.3.1 算法描述 | 第32页 |
3.3 搜索引擎优化意见 | 第32-35页 |
3.3.1 概述 | 第32-33页 |
3.3.2 具体实现 | 第33-35页 |
第四章 系统结构设计 | 第35-43页 |
4.1 系统概述 | 第35页 |
4.2 系统架构 | 第35-37页 |
4.2.1 主要功能表结构 | 第37页 |
4.3 系统功能模块具体实现 | 第37-43页 |
4.3.1 Web数据采集 | 第38-39页 |
4.3.1.1 概述 | 第38页 |
4.3.1.2 爬虫算法设计 | 第38-39页 |
4.3.2 文本预处理模块 | 第39-41页 |
4.3.2.1 概述 | 第39-40页 |
4.3.2.2 算法描述 | 第40-41页 |
4.3.3 特征提取模块 | 第41-42页 |
4.3.4 文本分类模块 | 第42-43页 |
第五章 实验与结果分析 | 第43-47页 |
5.1 测试语料 | 第43-45页 |
5.1.1 第三方公司关键词对比 | 第44页 |
5.1.2 数据对比实例 | 第44-45页 |
5.2 系统截图 | 第45-47页 |
第六章 总结与展望 | 第47-49页 |
6.1 本文的主要工作及特点 | 第47页 |
6.2 研究展望 | 第47-49页 |
参考文献 | 第49-53页 |
致谢 | 第53-54页 |