支持Splog过滤的博客搜集系统研究与设计
摘要 | 第1-4页 |
Abstract | 第4-9页 |
第1章 绪论 | 第9-19页 |
·课题背景 | 第9-10页 |
·博客现状概述 | 第10-13页 |
·博客的定义 | 第11-12页 |
·博客的存在方式 | 第12-13页 |
·垃圾博客特征概述 | 第13-14页 |
·一般特征 | 第13页 |
·链接工厂特征 | 第13页 |
·广告博客特征 | 第13-14页 |
·博客与博客搜索引擎 | 第14-17页 |
·搜索引擎的工作原理 | 第14-15页 |
·博客搜索和通用搜索的比较 | 第15-17页 |
·本文的研究内容和章节安排 | 第17-18页 |
·本章小结 | 第18-19页 |
第2章 文本检索与分类技术综述 | 第19-30页 |
·基于文本的信息检索 | 第19-22页 |
·全文检索 | 第20页 |
·特征向量 | 第20-21页 |
·向量模型 | 第21-22页 |
·文本分类技术 | 第22-29页 |
·自动分类背景与发展 | 第23-24页 |
·文本分类的定义 | 第24页 |
·文本分类的过程 | 第24-25页 |
·常用分类算法 | 第25-29页 |
·本章小结 | 第29-30页 |
第3章 垃圾博客特征提取算法研究 | 第30-47页 |
·问题建模 | 第30-32页 |
·博客搜索本质 | 第31页 |
·速度要求 | 第31-32页 |
·超链分析 | 第32页 |
·网络垃圾作弊技术 | 第32-36页 |
·搜索引擎与 Spamming | 第32-33页 |
·Web作弊分析 | 第33-36页 |
·本地特征提取模型 | 第36-37页 |
·博客文章文本分析 | 第36-37页 |
·超链接描述文本分析 | 第37页 |
·全局特征提取模型 | 第37-46页 |
·链接属性 | 第37-41页 |
·时间分布属性 | 第41-46页 |
·本章小结 | 第46-47页 |
第4章 垃圾博客检测算法的实验与评价 | 第47-61页 |
·实验数据 | 第47页 |
·评价指标 | 第47-49页 |
·实验策略 | 第49-53页 |
·文本特征选取 | 第49-50页 |
·文本特征表示 | 第50页 |
·实验内容 | 第50-53页 |
·实验实现 | 第53-57页 |
·开源工具 | 第53-54页 |
·实验流程 | 第54-57页 |
·实验结果与讨论 | 第57-60页 |
·本章小结 | 第60-61页 |
第5章 基于Nutch的博客搜集系统实现 | 第61-70页 |
·开源搜索引擎Nutch | 第61-64页 |
·Nutch的使用方式 | 第62页 |
·Nutch存储模块 | 第62-63页 |
·Nutch插件机制 | 第63-64页 |
·支持垃圾过滤的博客搜集系统设计与实现 | 第64-69页 |
·系统需求 | 第64页 |
·系统功能 | 第64-65页 |
·数据库设计 | 第65-67页 |
·系统架构 | 第67-68页 |
·工作流程 | 第68页 |
·软件环境 | 第68-69页 |
·本章小结 | 第69-70页 |
第6章 总结与展望 | 第70-72页 |
·本文工作总结 | 第70页 |
·未来工作展望 | 第70-72页 |
参考文献 | 第72-76页 |
攻读硕士学位期间主要的研究成果 | 第76-77页 |
致谢 | 第77-78页 |
作者简历 | 第78页 |