首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

WEB文本信息抽取和分类研究

摘要第1-5页
ABSTRACT第5-11页
1 绪论第11-18页
   ·课题研究的目的和意义第11-12页
   ·研究现状第12-15页
     ·文本自动分类的研究现状第12-13页
     ·网页自动分类的研究现状第13-14页
     ·课题研究的难点及突出问题第14-15页
   ·本文的工作及结构安排第15-18页
2 文本分类理论基础及关键技术第18-36页
   ·文本分类任务的特点第18-19页
   ·文档集第19-21页
   ·文档表示模型第21-23页
     ·文档特征第21-22页
     ·文档表示第22-23页
   ·文档特征选择方法第23-27页
     ·信息增量(Information Gain )第23-24页
     ·互信息(Mutual Information )第24页
     ·X2 统计第24页
     ·交叉嫡(Cross Entropy )第24-25页
     ·证据权值(Weight of Evidence )第25页
     ·Fisher 判别式第25-26页
     ·文档特征选择中的概率值估算第26-27页
   ·文本分类方法第27-32页
     ·决策树方法第27页
     ·KNN(K 最邻近)算法第27-30页
     ·朴素贝叶斯算法第30-32页
   ·分类性能评估第32-36页
     ·单类赋值第33-35页
     ·多类排序第35-36页
3 WEB 文本的采集和抽取第36-73页
   ·WEB 的基本结构和特点第36-43页
     ·Web 信息特点第36-37页
     ·页面描述方法第37-39页
     ·网站的组织结构第39-40页
     ·网页的组织结构及层次结构第40-42页
     ·网页的噪音数据第42-43页
   ·信息抽取第43-48页
     ·信息抽取概述第43-45页
     ·信息抽取技术第45-48页
     ·评价指标第48页
   ·基于视觉的WEB 信息抽取第48-66页
     ·DOM第50-53页
     ·信息块的表示和获取方法第53-55页
     ·信息块位置信息的获取第55-58页
     ·关键信息块的获取第58-60页
     ·文本信息抽取第60-66页
   ·网络蜘蛛和网页采集第66-73页
     ·爬行算法第66-71页
     ·多线程处理第71-73页
4 基于粗糙集和SVM 的WEB 文本多层分类方法第73-91页
   ·粗糙集概述第73-76页
     ·信息系统第74页
     ·不可分辨关系与决策表的定义第74-75页
     ·决策表的属性约简第75-76页
   ·文本预处理第76-81页
     ·分词第77-80页
     ·一种改进的WEB 文本特征项权重计算方法第80-81页
   ·基于CHI 和粗糙集的特征提取第81-84页
     ·CHI 原理第81-82页
     ·CHI 特征提取和权值离散化第82-83页
     ·构造决策表第83-84页
     ·属性约简算法第84页
   ·基于SVM 的多层次分类方法第84-91页
     ·支持向量机分类方法第85-87页
     ·多层次文本分类第87-91页
5 网页自动分类系统设计和实验分析第91-100页
   ·系统设计框架第91-92页
   ·SQL Server 2005 Text Mining第92-93页
   ·基于Matlab 的SVM 多层分类Web Service第93-95页
   ·大规模WEB 文本语料库创建第95-96页
   ·实验结果分析第96-100页
     ·单层和多层SVM 的比较分析第96-97页
     ·改进特征权重特征提取分析第97-100页
6 分类搜索引擎设计第100-104页
   ·概述第100-101页
   ·搜索引擎的系统设计第101-103页
   ·文本分类器的设计思想第103-104页
7 结束语第104-107页
   ·本文的主要工作和创新点第104-105页
   ·展望第105-107页
致谢第107-108页
读研期间发表的论文第108-109页
参考文献第109-113页

论文共113页,点击 下载论文
上一篇:基于能力成熟度模型的软件企业HR-CMM研究
下一篇:节约型政府构建论