摘要 | 第1-12页 |
Abstract | 第12-15页 |
第一章 绪论 | 第15-39页 |
·研究背景 | 第15-21页 |
·垃圾信息定义 | 第15-18页 |
·垃圾信息发展态势 | 第18-21页 |
·研究现状 | 第21-32页 |
·基于协议过滤 | 第21-24页 |
·基于内容过滤 | 第24-30页 |
·性能评价 | 第30-32页 |
·研究内容 | 第32-36页 |
·科学问题与挑战 | 第32-34页 |
·本文的研究工作 | 第34-36页 |
·研究成果 | 第36-38页 |
·论文结构 | 第38-39页 |
第二章 信息文档统计特性 | 第39-57页 |
·信息文档的正文特性 | 第39-42页 |
·电子邮件和手机短信语料 | 第39-40页 |
·正文文本长度特性 | 第40-42页 |
·正文和Token 重复率特性 | 第42页 |
·信息文档的多域结构特性 | 第42-45页 |
·信息文档格式 | 第42-44页 |
·域间文本特征分析 | 第44-45页 |
·Token 频率分布的幂律特性 | 第45-56页 |
·幂律 | 第45-46页 |
·邮件文档和邮件域文档 | 第46-51页 |
·短信文档和短信域文档 | 第51-56页 |
·本章小结 | 第56-57页 |
第三章 面向垃圾信息过滤的多域学习文本分类 | 第57-81页 |
·问题描述与框架 | 第57-62页 |
·形式化描述 | 第57-60页 |
·多域学习框架 | 第60-62页 |
·分割策略 | 第62-65页 |
·自然域文档分割策略 | 第62-63页 |
·特定属性域文档分割策略 | 第63-65页 |
·组合策略 | 第65-70页 |
·均权组合策略 | 第65-66页 |
·支持向量模型权组合策略 | 第66-68页 |
·域分类器历史性能权组合策略 | 第68-69页 |
·域文档信息量权组合策略 | 第69页 |
·复合权组合策略 | 第69-70页 |
·实验结果 | 第70-78页 |
·TREC07P 上的bogo 实验 | 第70-73页 |
·TREC07P 上的tftS3F 实验 | 第73-75页 |
·CSMS-P 上的bogo 实验 | 第75-77页 |
·CSMS-P 上的tftS3F 实验 | 第77-78页 |
·本章小结 | 第78-81页 |
第四章 面向垃圾信息过滤的时空高效文本分类 | 第81-107页 |
·基于Token 频率索引的文本分类算法 | 第81-86页 |
·统计原理 | 第81-83页 |
·Token 频率索引 | 第83-84页 |
·算法描述 | 第84-86页 |
·算法复杂度分析 | 第86-90页 |
·时间复杂度 | 第86-87页 |
·空间复杂度 | 第87-90页 |
·基于多类别Token 频率索引的文本分类算法 | 第90-97页 |
·Token 频率统计特性 | 第91-93页 |
·多类别Token 频率索引 | 第93-94页 |
·算法描述 | 第94-97页 |
·实验结果 | 第97-105页 |
·TREC07P 上的tfibtc 实验 | 第97-101页 |
·CSMS-P 上的tfibtc 实验 | 第101-103页 |
·TanCorp-12 上的mtfibtc 实验 | 第103-105页 |
·本章小结 | 第105-107页 |
第五章 面向垃圾信息过滤的主动学习文本分类 | 第107-121页 |
·问题描述与框架 | 第107-110页 |
·形式化描述 | 第107-109页 |
·主动多域学习框架 | 第109-110页 |
·主动学习策略 | 第110-113页 |
·时序优先策略 | 第110-111页 |
·先验区间策略 | 第111页 |
·基于方差的非确定采样策略 | 第111-113页 |
·实验结果 | 第113-120页 |
·TREC07P 上的10,000 反馈tfibtc.cs5 实验 | 第113-115页 |
·TREC07P 上的1,000 反馈tfibtc.cs5 实验 | 第115-116页 |
·CSMS-P 上的10,000 反馈tfibtc.cs5 实验 | 第116-118页 |
·CSMS-P 上的1,000 反馈tfibtc.cs5 实验 | 第118-120页 |
·本章小结 | 第120-121页 |
第六章 结束语 | 第121-125页 |
·研究结论 | 第121-123页 |
·工作展望 | 第123-125页 |
致谢 | 第125-126页 |
参考文献 | 第126-136页 |
作者在学期间取得的学术成果 | 第136-137页 |