首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本分类技术与应用研究

目录第1-6页
图表目录:图第6-8页
图表目录:表第8-9页
摘要第9-11页
ABSTRACT第11-13页
第一章 绪论第13-28页
   ·研究背景及意义第13-15页
     ·研究背景第13页
     ·研究意义第13-15页
   ·问题描述第15-17页
     ·文本分类第15-16页
     ·话题识别与跟踪第16-17页
   ·相关研究第17-23页
     ·研究历史第17-19页
     ·研究现状第19-23页
   ·主要结果第23-26页
     ·TREC文本过滤结果第23-24页
     ·TDT评测结果第24-26页
   ·拟解决的问题第26-27页
   ·本文结构第27-28页
第二章 文本分类技术第28-43页
   ·文本分类任务的特点第28-29页
   ·文档集第29-30页
   ·文档表示模型第30-32页
     ·文档特征第30-31页
     ·文档表示第31-32页
   ·文档特征选择方法第32-34页
     ·信息增量(Information Gain)第32页
     ·互信息(Mutual Information)第32-33页
     ·x~2统计第33页
     ·交叉熵(Cross Entropy)第33页
     ·证据权值(Weight of Evidence)第33页
     ·文档特征选择中的概率值估算第33-34页
   ·分类方法第34-40页
     ·基于统计的方法第34-38页
     ·人工神经网络第38-39页
     ·基于规则的方法第39-40页
   ·分类性能评估第40-43页
     ·单类赋值第41-42页
     ·多类排序第42-43页
第三章 kNN文本分类器类偏斜问题的处理第43-55页
   ·引言第43-45页
   ·单类分类时的kNN方法第45页
   ·自适应的加权kNN文本分类第45-50页
     ·动机第45-46页
     ·符号标记及含义第46页
     ·修正传统kNN决策函数第46页
     ·临界点相关概念第46-48页
     ·临界点性质及算法第48-50页
     ·自适应的加权kNN文本分类第50页
   ·实验结果及评价第50-53页
     ·数据集及实验设置第50-51页
     ·实验1—收缩因子对分类的影响第51-52页
     ·实验2—与已有的偏斜处理方法对比第52-53页
   ·分析第53-54页
   ·小结第54-55页
第四章 特征选择及基于Condensing技术的文本取样第55-75页
   ·引言第55-56页
   ·MultiEdit及Condensing算法第56-63页
     ·Editing算法第56-57页
     ·Condensing算法第57-60页
     ·MultiEdit及Condensing实验和评价第60-63页
     ·MultiEdit及Condensing小结第63页
   ·特征选择第63-65页
   ·基于特征选择的文本取样算法第65-73页
     ·ME1算法第65页
     ·特征选择与Condensing技术相结合的算法第65-69页
     ·基于特征选择的文本取样实验及评价第69-73页
   ·小结第73-75页
第五章 半监督的文本分类—两阶段协同学习第75-85页
   ·引言第75-76页
   ·相关研究第76-77页
   ·基于kNN和SVM的二阶段协同学习第77-84页
     ·理论基础第77-78页
     ·本文动机第78-79页
     ·两阶段协同学习—2P_CoTrain第79-81页
     ·实验数据第81页
     ·实验设计第81页
     ·实验结果第81-84页
   ·小结第84-85页
第六章 文本分类技术在内容安全中的应用第85-97页
   ·引言第85页
   ·TDT研究现状第85-87页
     ·话题跟踪第86页
     ·话题识别第86-87页
   ·面向BBS的话题识别与跟踪第87-91页
     ·基本模型第87-88页
     ·改进的识别与跟踪过程第88-89页
     ·权重改进策略第89页
     ·实验设置第89-90页
     ·实验结果第90-91页
     ·讨论第91页
   ·信息内容安全管理系统第91-96页
     ·系统结构第91-92页
     ·主题分类第92-94页
     ·本文对主题分类的贡献第94-96页
   ·小结第96-97页
第七章 总结与展望第97-100页
   ·总结第97-98页
   ·进一步的工作第98-100页
参考文献第100-111页
附录一:计算CP,LA,UA的算法第111-113页
攻读博士学位期间参与的科研项目及主要成果第113-114页
致谢第114-115页

论文共115页,点击 下载论文
上一篇:基于信息论的数据挖掘算法
下一篇:大规模数据集下核方法的技术研究