面向垃圾信息过滤的主动多域学习文本分类方法研究

摘要	第1-12页
Abstract	第12-15页
第一章绪论	第15-39页
·研究背景	第15-21页
·垃圾信息定义	第15-18页
·垃圾信息发展态势	第18-21页
·研究现状	第21-32页
·基于协议过滤	第21-24页
·基于内容过滤	第24-30页
·性能评价	第30-32页
·研究内容	第32-36页
·科学问题与挑战	第32-34页
·本文的研究工作	第34-36页
·研究成果	第36-38页
·论文结构	第38-39页
第二章信息文档统计特性	第39-57页
·信息文档的正文特性	第39-42页
·电子邮件和手机短信语料	第39-40页
·正文文本长度特性	第40-42页
·正文和Token 重复率特性	第42页
·信息文档的多域结构特性	第42-45页
·信息文档格式	第42-44页
·域间文本特征分析	第44-45页
·Token 频率分布的幂律特性	第45-56页
·幂律	第45-46页
·邮件文档和邮件域文档	第46-51页
·短信文档和短信域文档	第51-56页
·本章小结	第56-57页
第三章面向垃圾信息过滤的多域学习文本分类	第57-81页
·问题描述与框架	第57-62页
·形式化描述	第57-60页
·多域学习框架	第60-62页
·分割策略	第62-65页
·自然域文档分割策略	第62-63页
·特定属性域文档分割策略	第63-65页
·组合策略	第65-70页
·均权组合策略	第65-66页
·支持向量模型权组合策略	第66-68页
·域分类器历史性能权组合策略	第68-69页
·域文档信息量权组合策略	第69页
·复合权组合策略	第69-70页
·实验结果	第70-78页
·TREC07P 上的bogo 实验	第70-73页
·TREC07P 上的tftS3F 实验	第73-75页
·CSMS-P 上的bogo 实验	第75-77页
·CSMS-P 上的tftS3F 实验	第77-78页
·本章小结	第78-81页
第四章面向垃圾信息过滤的时空高效文本分类	第81-107页
·基于Token 频率索引的文本分类算法	第81-86页
·统计原理	第81-83页
·Token 频率索引	第83-84页
·算法描述	第84-86页
·算法复杂度分析	第86-90页
·时间复杂度	第86-87页
·空间复杂度	第87-90页
·基于多类别Token 频率索引的文本分类算法	第90-97页
·Token 频率统计特性	第91-93页
·多类别Token 频率索引	第93-94页
·算法描述	第94-97页
·实验结果	第97-105页
·TREC07P 上的tfibtc 实验	第97-101页
·CSMS-P 上的tfibtc 实验	第101-103页
·TanCorp-12 上的mtfibtc 实验	第103-105页
·本章小结	第105-107页
第五章面向垃圾信息过滤的主动学习文本分类	第107-121页
·问题描述与框架	第107-110页
·形式化描述	第107-109页
·主动多域学习框架	第109-110页
·主动学习策略	第110-113页
·时序优先策略	第110-111页
·先验区间策略	第111页
·基于方差的非确定采样策略	第111-113页
·实验结果	第113-120页
·TREC07P 上的10,000 反馈tfibtc.cs5 实验	第113-115页
·TREC07P 上的1,000 反馈tfibtc.cs5 实验	第115-116页
·CSMS-P 上的10,000 反馈tfibtc.cs5 实验	第116-118页
·CSMS-P 上的1,000 反馈tfibtc.cs5 实验	第118-120页
·本章小结	第120-121页
第六章结束语	第121-125页
·研究结论	第121-123页
·工作展望	第123-125页
致谢	第125-126页
参考文献	第126-136页
作者在学期间取得的学术成果	第136-137页