摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-14页 |
1.1 背景介绍 | 第9-10页 |
1.2 研究意义 | 第10页 |
1.3 国内外研究现状 | 第10-12页 |
1.4 论文研究工作 | 第12页 |
1.5 论文组织结构 | 第12-14页 |
第二章 相关理论与技术 | 第14-21页 |
2.1 RSS简介 | 第14-16页 |
2.1.1 RSS概念及规范 | 第14-15页 |
2.1.2 RSS信息聚合 | 第15-16页 |
2.2 网络爬虫 | 第16-17页 |
2.3 Simhash | 第17-18页 |
2.4 文档预处理 | 第18-19页 |
2.4.1 中文分词 | 第18-19页 |
2.4.2 去停用词 | 第19页 |
2.5 文本建模 | 第19-21页 |
2.5.1 布尔模型 | 第19-20页 |
2.5.2 空间向量模型 | 第20页 |
2.5.3 概率主题模型 | 第20-21页 |
第三章 Web信息自动聚合系统设计 | 第21-29页 |
3.1 系统整体框架 | 第21页 |
3.2 系统框架详细设计 | 第21-29页 |
3.2.1 信息获取 | 第21-26页 |
3.2.2 信息预处理 | 第26-28页 |
3.2.3 按主题聚合 | 第28-29页 |
第四章 基于标点符号及标签相似度的正文抽取方法设计 | 第29-39页 |
4.1 概述 | 第29-30页 |
4.2 常用网页正文抽取方法分析 | 第30-31页 |
4.3 基于标点分布的网页正文抽取算法 | 第31-34页 |
4.3.1 算法概述 | 第31页 |
4.3.2 网页预处理 | 第31页 |
4.3.3 构造标签树 | 第31-32页 |
4.3.4 获取正文区域 | 第32-34页 |
4.4 基于标签相似度的多正文网页抽取技术 | 第34-37页 |
4.4.1 多正文网页概念 | 第34-35页 |
4.4.2 多正文网页特点分析 | 第35-36页 |
4.4.3 分正文抽取技术详述 | 第36-37页 |
4.5 算法设计及实验 | 第37-39页 |
第五章 基于潜在语义的web信息聚合技术研究 | 第39-56页 |
5.1 概率主题模型简述 | 第39-44页 |
5.1.1 一元模型及一元混合模型 | 第40-41页 |
5.1.2 潜在语义分析模型 | 第41-42页 |
5.1.3 概率潜在语义分析模型 | 第42-44页 |
5.2 LDA模型 | 第44-47页 |
5.2.1 模型表示 | 第44-46页 |
5.2.2 Gibbs Sampling参数估计法 | 第46-47页 |
5.3 面向Web信息的LDA模型改进方法 | 第47-52页 |
5.3.1 概述 | 第47-49页 |
5.3.2 主题热度 | 第49页 |
5.3.3 主题数估计 | 第49-50页 |
5.3.4 模型训练 | 第50-51页 |
5.3.5 主题过滤及合并 | 第51页 |
5.3.6 文本归类及时间片分割 | 第51-52页 |
5.4 实验结果分析 | 第52-56页 |
5.4.1 实验语料与实验环境 | 第52-53页 |
5.4.2 实验设计与分析 | 第53-56页 |
第六章 总结与展望 | 第56-58页 |
6.1 总结 | 第56页 |
6.2 展望 | 第56-58页 |
参考文献 | 第58-61页 |
致谢 | 第61-62页 |
攻读学位期间发表论文 | 第62页 |