首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

HTML文本自动分类技术的研究与工具的实现

摘要第1-3页
ABSTRACT第3-5页
目录第5-7页
图表目录第7-8页
第一章 前言第8-12页
   ·课题研究背景及意义第8-9页
   ·国内外研究现状第9-10页
     ·文本自动分类技术研究在国内外的发展第9页
     ·文本自动分类技术的研究现状第9-10页
   ·本文的研究内容第10-12页
     ·研究内容第10-11页
     ·本文的组织第11-12页
第二章 HTML文本自动分类技术概述第12-23页
   ·文本分类技术第12-14页
     ·文本分类概念第12-13页
     ·文本自动分类问题的一般性描述第13-14页
   ·文本自动分类工具的实现过程第14-17页
     ·向量空间模型第14-15页
     ·实现过程概述第15-17页
   ·HIML文本的预处理技术第17-19页
   ·分类器的训练及测试第19-20页
   ·性能评估方法第20-21页
   ·实验用语料库第21-23页
第三章 HTML文本自动分类中预处理、特征提取、特征选择的研究比较第23-38页
   ·HTML文本的预处理第23-27页
     ·HTML文本标记加权方案第23-24页
     ·分词前的预处理第24-25页
     ·HTML预处理算法第25-26页
     ·预处理前后分类器性能比较第26-27页
   ·HTML文本的特征提取和特征选择第27-31页
     ·文档频率(DF)第28页
     ·信息增益(IG)第28页
     ·互信息(MI)第28-29页
     ·X~2统计量(CHI)第29页
     ·期望交叉熵(ECE)第29-30页
     ·文本证据权(WET)第30页
     ·特征词的强度(TS)第30页
     ·几率比(OR)第30-31页
     ·主成分分析(PCA)第31页
   ·特征评估函数实验比较第31-34页
   ·HTML文本特征项权重计算第34-36页
     ·布尔权重第34页
     ·词频权重第34页
     ·TF-IDF权重第34-35页
     ·TFC权重第35页
     ·LTC权重第35页
     ·基于熵概念的权重第35-36页
   ·不同赋权方法实验比较第36-38页
第四章 HTML文本自动分类算法及其实验比较第38-51页
   ·朴素贝叶斯分类法(NB)第38-39页
   ·K近邻分类法(KNN)第39-41页
     ·KNN方法第39-40页
     ·K值的选取第40-41页
   ·支持向量机分类法(SVM)第41-44页
     ·线性可分情况第42-43页
     ·线性不可分情况第43-44页
   ·KNN-SVM分类法第44-47页
     ·基本原理第44-46页
     ·分类算法第46-47页
   ·KNN和KNN-SVM分类器比较分析第47-51页
第五章 HTML文本自动分类工具的设计与实现第51-58页
   ·分类工具的体系结构第51-54页
   ·主要功能模块介绍第54-58页
     ·HTML文本处理及特征提取模块第54-55页
     ·文本分类模块第55-56页
     ·分类测试与结果评估模块第56-58页
第六章 总结与展望第58-60页
   ·论文内容总结第58页
   ·本文主要工作和创新点第58-59页
   ·不足及对未来的展望第59-60页
参考文献第60-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:SIPSYS系统中IM/Presence服务器的设计和实现
下一篇:基于数据库技术的化学物质检验软件设计与实现