文本内容分类和主题追踪关键技术研究
摘要 | 第1-7页 |
ABSTRACT | 第7-13页 |
第一章 引言 | 第13-29页 |
·研究背景 | 第13-14页 |
·文本分类 | 第14-17页 |
·文本分类的定义 | 第14页 |
·文本分类研究现状 | 第14-17页 |
·垃圾邮件过滤 | 第17-20页 |
·主题追踪 | 第20-26页 |
·基本概念 | 第23-25页 |
·研究现状 | 第25-26页 |
·本文研究内容 | 第26-27页 |
·本文组织结构 | 第27-29页 |
第二章 基于判别能力的特征选取方法 | 第29-41页 |
·问题提出 | 第29-30页 |
·解决思路 | 第30-31页 |
·基于散度的特征选取 | 第31-32页 |
·实验分析 | 第32-40页 |
·分类器 | 第32-33页 |
·常用特征选取方法 | 第33-34页 |
·实验语料 | 第34页 |
·评价指标 | 第34-35页 |
·评价过程 | 第35页 |
·实验结果 | 第35-40页 |
·小结 | 第40-41页 |
第三章 面向文本分类的混淆类判别技术 | 第41-57页 |
·问题提出 | 第41-42页 |
·混淆类识别技术 | 第42-45页 |
·混淆类 | 第42-44页 |
·基于分类错误分布的混淆类识别 | 第44-45页 |
·混淆类判别技术 | 第45-46页 |
·基于判别能力的特征选取 | 第46页 |
·两个阶段的分类器设计 | 第46-48页 |
·实验分析 | 第48-55页 |
·实验语料 | 第48页 |
·评价指标 | 第48-49页 |
·实验结果 | 第49-55页 |
·小结 | 第55-57页 |
第四章 面向垃圾邮件过滤的内容分析技术 | 第57-83页 |
·问题提出 | 第57-59页 |
·初审/复审协作式垃圾邮件过滤 | 第59-60页 |
·垃圾邮件特征的自动发现 | 第60-66页 |
·邮件预处理 | 第62-63页 |
·Ngram抽取及统计 | 第63-64页 |
·N-gram过滤 | 第64-65页 |
·垃圾邮件特征选择 | 第65-66页 |
·基于两层内容分析的复审过滤 | 第66-71页 |
·朴素贝叶斯分类器 | 第67-69页 |
·最大熵分类器 | 第69-71页 |
·反馈学习自适应处理 | 第71-72页 |
·快速过滤模块的自适应 | 第71-72页 |
·二级内容过滤模块的自适应 | 第72页 |
·实验分析 | 第72-82页 |
·邮件语料 | 第72-73页 |
·评价方法 | 第73-74页 |
·实验结果 | 第74-82页 |
·小结 | 第82-83页 |
第五章 面向中文主题追踪的反馈学习技术 | 第83-109页 |
·问题提出 | 第83-85页 |
·问题1:主题表示 | 第83-84页 |
·问题2:主题漂移现象 | 第84-85页 |
·基于一元语法模型的主题追踪模型 | 第85-86页 |
·实验语料与评价机制 | 第86-89页 |
·实验语料 | 第86-89页 |
·评测机制 | 第89页 |
·基于多向量模型的主题追踪 | 第89-95页 |
·多向量模型 | 第89-91页 |
·基于多向量模型的话题追踪 | 第91-92页 |
·实验结果与分析 | 第92-95页 |
·小结 | 第95页 |
·基于TAB的主题追踪 | 第95-101页 |
·自适应提升 | 第95-97页 |
·提升方法的缺点 | 第97页 |
·时间自适应提升模型 | 第97-99页 |
·实验结果与分析 | 第99-101页 |
·基于主动学习的自适应主题追踪 | 第101-104页 |
·样本选择标准 | 第102-103页 |
·新假设h_(ncw)的建立 | 第103页 |
·打分归一化以及阂值设定 | 第103-104页 |
·实验结果与分析 | 第104-107页 |
·基于ATAL方法的主题追踪性能 | 第104-107页 |
·打分归一化对主题追踪系统的影响 | 第107页 |
·小结 | 第107-109页 |
第六章 结论 | 第109-111页 |
·本文的主要贡献与结论 | 第109-110页 |
·进一步的工作 | 第110-111页 |
参考文献 | 第111-123页 |
致谢 | 第123-125页 |
攻博期间发表的文章 | 第125-127页 |
攻读博士学位期间科研获奖 | 第127-129页 |
科研经历 | 第129-131页 |
作者简介 | 第131页 |