首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Web的中文文本挖掘技术的研究及实现

摘要第1-5页
ABSTRACT第5-8页
第一章 绪论第8-12页
   ·课题研究背景及意义第8-9页
   ·国内外研究现状第9-10页
   ·研究内容和论文结构第10-12页
     ·研究内容第10-11页
     ·论文结构第11-12页
第二章 Web文本挖掘综述第12-23页
   ·Web文本挖掘概述第12-15页
     ·Web文本挖掘的定义第12页
     ·Web文本挖掘的任务第12-14页
     ·Web文本挖掘的一般过程第14页
     ·中文Web文本挖掘的主要步骤第14-15页
   ·数据预处理技术第15-20页
     ·中文Web文档采集第15页
     ·Web文本信息提取第15页
     ·Web文本的特征表示第15-17页
     ·中文分词第17-18页
     ·特征项取值第18页
     ·特征降维第18-20页
   ·Web文本分类第20-21页
   ·Web文本聚类第21-22页
   ·本章小结第22-23页
第三章 Web文本信息提取第23-36页
   ·网页文本信息抽取技术第23-24页
   ·网页的基本结构、特点和表示第24-26页
   ·预处理第26-27页
     ·过滤文档集中与主题无关的页面第26页
     ·初步过滤网页中与主题无关的信息第26-27页
   ·网页有效文本信息提取第27-35页
     ·相关概念和定义第28-30页
     ·网页有效文本信息提取第30-34页
     ·抽取结果第34-35页
   ·小结第35-36页
第四章 特征权重计算第36-45页
   ·常用的权重计算方法第36-37页
   ·TF-IDF算法分析第37-39页
   ·熵与信息熵第39-40页
     ·信息熵的基本概念第39页
     ·信息熵的主要性质第39-40页
   ·TF-IDF算法改进第40-42页
     ·基于特征项的类分布信息改进第40-41页
     ·基于文本语义的改进第41-42页
   ·实验结果与分析第42-44页
     ·训练集与测试集第42页
     ·实验过程及数据分析第42-44页
   ·小结第44-45页
第五章 中文Web文本挖掘系统原型CWTMS的构建与实现第45-59页
   ·系统的总体设计与分析第45-48页
     ·系统功能概述和结构框架第45-47页
     ·系统具体设计第47-48页
     ·系统使用的开发环境和语言第48页
   ·插件技术及其在CWTMS中的应用第48-50页
     ·插件技术第48-49页
     ·插件技术在原型系统中的应用第49-50页
   ·系统的总体实现第50-58页
     ·数据采集模块第51页
     ·文档内容提取模块第51页
     ·词条抽取模块第51-54页
     ·特征选择模块第54-55页
     ·文本表示模块第55-57页
     ·自动分类模块第57-58页
   ·小结第58-59页
第六章 总结与展望第59-61页
   ·本文工作总结第59页
   ·工作展望第59-61页
参考文献第61-66页
致谢第66-67页
攻读学位期间主要的研究成果第67页

论文共67页,点击 下载论文
上一篇:基于Linux的网络协议学习系统设计与实现
下一篇:基于内容的视频检索技术研究