基于SVM的中文网页多类分类问题研究及实现 | 第1-50页 |
摘要 | 第5-8页 |
第一章 绪论 | 第8-10页 |
·研究背景 | 第8页 |
·论文的研究思路与主要的工作 | 第8-9页 |
·论文的组织 | 第9-10页 |
第二章 中文网页预处理技术及中文分词 | 第10-17页 |
·中文网页的基本结构和特点 | 第10-11页 |
·中文网页基本结构 | 第10页 |
·中文网页特点分析 | 第10-11页 |
·中文网页主题内容提取算法 | 第11-13页 |
·算法主要思想 | 第12页 |
·网页主题文本内容提取算法 | 第12-13页 |
·中文分词 | 第13-16页 |
·中文分词方法 | 第13-15页 |
·中文分词成果 | 第15页 |
·本文系统(CWPMCS)的中文分词 | 第15-16页 |
·本章小结 | 第16-17页 |
第三章 中文网页特征选择 | 第17-23页 |
·网页表示 | 第17-19页 |
·特征选择 | 第19-22页 |
·常见特征选择方法 | 第19-21页 |
·本文的特征选择方法及算法描述 | 第21-22页 |
·本章小结 | 第22-23页 |
第四章 支持向量机理论及其在中文网页分类中的应用 | 第23-36页 |
·统计学习理论的核心内容 | 第23页 |
·SVM的二值分类 | 第23-27页 |
·线性可分情况 | 第24-25页 |
·线性不可分情况 | 第25-26页 |
·非线性可分情况 | 第26-27页 |
·支持向量机优点 | 第27-28页 |
·SVM多类分类方法 | 第28-31页 |
·一对多方法 | 第28-29页 |
·一对一方法 | 第29-30页 |
·决策有向无环图(Directed Acyclic Graph)方法 | 第30页 |
·基于SVM的二叉树方法 | 第30-31页 |
·多类分类模型构造算法 | 第31-35页 |
·算法主要思想 | 第32-33页 |
·构造算法 | 第33页 |
·算法分析 | 第33-35页 |
·本章小结 | 第35-36页 |
第五章 系统设计与实验结果分析 | 第36-41页 |
·CWPMCS(CHINESE WEBPAGE MULTICLASS CLASSIFIER SYSTEM)总体设计 | 第36页 |
·开发环境 | 第36-37页 |
·中文网页数据集 | 第37页 |
·CWPMCS功能实现 | 第37-40页 |
·中文网页实验结果与分析评价 | 第40页 |
·本章小结 | 第40-41页 |
第六章 总结与展望 | 第41-43页 |
·工作总结 | 第41页 |
·进一步的研究 | 第41-43页 |
参考文献 | 第43-50页 |
Research And Implementation Of Chinese Web Page Multi-class Classification Based On SVM | 第50-91页 |
Abstract | 第51-55页 |
Chapter One Introduction | 第55-57页 |
·Background | 第55页 |
·The thinking of research of the thesis and main work | 第55-56页 |
·Organization of the thesis | 第56-57页 |
Chapter Two Chinese webpage pretreatment technology and Chinese word segmentation | 第57-64页 |
·Basic structure and characteristic of Chinese webpages | 第57-59页 |
·Chinese basic structure of webpage | 第57-58页 |
·Chinese webpage characteristic analysis | 第58-59页 |
·Extraction algorithms OF Chinese webpage theme content | 第59-60页 |
·Main thought of the algorithm | 第59-60页 |
·Extraction algorithms in theme text content of the webpage | 第60页 |
·Chinese word segmentation | 第60-63页 |
·The method of Chinese word segmentation | 第60-62页 |
·Chinese word segmentation achievement | 第62-63页 |
·Chinese word segmentation in CWPMCS | 第63页 |
·Brief summaries of This chapter | 第63-64页 |
Chapter Three Feature Selection of Chinese webpage | 第64-70页 |
·Webpage Expression | 第64-65页 |
·Feature Selection | 第65-69页 |
·common method of feature selection | 第66-68页 |
·the method of feature selection and algorithm describing in this paper | 第68-69页 |
·Brief summaries of this chapter | 第69-70页 |
Chapter four Support Vector Machine theory and application in Chinese webpage classification | 第70-84页 |
·the Key content of statistical learning theory | 第70-71页 |
·Binary Classification of SVM Theory | 第71-75页 |
·Linear separable case | 第72-73页 |
·Linear inseparable case | 第73页 |
·Non-linear separable case | 第73-75页 |
·The Advantage of Support Vector Machine | 第75页 |
·Multi-class Classification of Support Vector Machine | 第75-79页 |
·One-Against-TheRest method | 第76-77页 |
·One-Against-One Method | 第77页 |
·Directed Acyclic Graph Method | 第77-78页 |
·Binary Tree Method Based On SVM | 第78-79页 |
·The algorithms of constructing multi-class classifier models | 第79-83页 |
·Main thought of the algorithm | 第80页 |
·Algorithm | 第80-82页 |
·Analysis of the algorithm | 第82-83页 |
·Brief summaries of this chapter | 第83-84页 |
Chapter Five The System Design and Experimental ResultAnalysis | 第84-89页 |
·CWPMCS(Chinese WebPage Multi-Class Classifier System) design | 第84-85页 |
·Development environment | 第85页 |
·The Chinese webpage data collecting | 第85页 |
·CWPMCS function realization | 第85-88页 |
·The evaluation and analysis of Chinese webpage experimental result | 第88页 |
·Brief summaries of this chapter | 第88-89页 |
Chapter Six Summarize and the prospect | 第89-91页 |
·Summary | 第89页 |
·Further Research | 第89-91页 |
中文网页分类器及其相关技术研究 | 第91-140页 |
摘要 | 第92-95页 |
第一章 引言 | 第95-99页 |
·背景和意义 | 第95-96页 |
·文本分类的目前研究状况 | 第96-97页 |
·网页分类的研究现状 | 第97-98页 |
·网页分类过程 | 第98-99页 |
第二章 中文分词 | 第99-103页 |
·分词方法 | 第99-100页 |
·基于字符串匹配的分词方法 | 第99-100页 |
·基于理解的分词方法 | 第100页 |
·基于统计的分词方法 | 第100页 |
·未登录词识别问题 | 第100-101页 |
·歧义切分问题 | 第101页 |
·中文分词成果 | 第101-102页 |
·现有分词方法的局限 | 第102-103页 |
第三章 降维技术 | 第103-109页 |
·特征选择方法 | 第103-106页 |
·文档频率(DF) | 第103-104页 |
·信息增益(Information Gain,IG) | 第104页 |
·互信息(Mutual Information,MI) | 第104-105页 |
·X~2估计(X~2-test,CHI) | 第105-106页 |
·文本证据权(Weight of Evidence Text) | 第106页 |
·特征提取方法 | 第106-109页 |
·主成分分析(PCA) | 第107页 |
·潜在语义索引(LSI) | 第107-108页 |
·非负矩阵分解(NMF) | 第108-109页 |
第四章 网页分类方法 | 第109-133页 |
·简单向量距离分类方法 | 第109页 |
·决策树分类方法 | 第109-111页 |
·K-近邻分类方法(K-NN) | 第111-112页 |
·粗糙集分类方法 | 第112页 |
·贝叶斯分类方法 | 第112-115页 |
·朴素贝叶斯分类方法 | 第113-114页 |
·贝叶斯网络分类方法 | 第114-115页 |
·神经网络分类方法 | 第115-120页 |
·神经网络的基本属性 | 第115-116页 |
·误差反向传播的前馈网络(BP网络) | 第116-119页 |
·RBF网络 | 第119-120页 |
·支持向量机(SVM)分类方法 | 第120-132页 |
·支持向量机的研究现状 | 第120-121页 |
·统计学习理论的核心内容 | 第121-124页 |
·基于SVM理论的二值分类 | 第124-127页 |
·支持向量机训练算法 | 第127-128页 |
·支持向量机多类分类 | 第128-130页 |
·网页的多归属 | 第130页 |
·分类器的性能评价 | 第130-132页 |
第五章 结束语 | 第132-133页 |
·内容总结 | 第132页 |
·中文网页分类技术的展望 | 第132-133页 |
参考文献 | 第133-140页 |
Chinese Webpage Classifier And Relevant Technology Research | 第140-189页 |
Abstract | 第141-144页 |
Chapter one Foreword | 第144-149页 |
·Background and Meaning | 第144-146页 |
·Research state of text classification at present | 第146页 |
·The current situation of the webpage classification | 第146-147页 |
·The Course of the Webpage Classificaition | 第147-149页 |
Chapter two Chinese Word Segmentation | 第149-154页 |
·Segmentation methods | 第149-151页 |
·The Segmentation Method Based On String Matching | 第149-150页 |
·The Segmentation Method Based On Understanding | 第150页 |
·The Segmentation Method Based On Statistics | 第150-151页 |
·The Discernable Question Of Not Logged Word | 第151页 |
·Ambiguous Segmentation Questions | 第151-152页 |
·Chinese Word Segmentation Achievements | 第152页 |
·Limitations of Segmentation Method | 第152-154页 |
Chapter three Reduction Dimension Technology | 第154-161页 |
·Feature Selection | 第154-159页 |
·Document Frequency | 第154-155页 |
·Information Gain(IG). | 第155-156页 |
·Mutual Information(MI) | 第156-157页 |
·X~2 Estimation(CHI) | 第157-158页 |
·Weight Of Evidence Text | 第158-159页 |
·Feature Extraction Method | 第159-161页 |
·Principle component analysis (PCA) | 第159页 |
·latent semantic indexing (LSI) | 第159-160页 |
·Noir negative Matrix Factorization (NMF) | 第160-161页 |
Chapter four webpage classification method | 第161-188页 |
·simple vector distance classification method | 第161页 |
·Decision Tree Classification method | 第161-163页 |
·K- the Nearest Neighbour Classification Method( K-NN) | 第163-164页 |
·RoughSets Classification Method | 第164-165页 |
·Beyes Classification method | 第165-168页 |
·Naive Bayes Classification method | 第165-167页 |
·Bayes Network Classification Method | 第167-168页 |
·Neural Network Classification Method | 第168-174页 |
·Basic attribute of the Neural Network | 第168-169页 |
·Feedforward Network (BP network) of error backpropagation | 第169-173页 |
·RBF network | 第173-174页 |
·Support Vector Machine Classification Method | 第174-188页 |
·The Current Research Situation of Support Vector Machine | 第174-175页 |
·the Key content of statistical learning theory | 第175-178页 |
·Binary Classification of SVM theory | 第178-181页 |
·Train Algorithms Of Support Vector Machine | 第181-183页 |
·Multi-class Classification of Support Vector Machine | 第183-185页 |
·The more belonging of the webpage | 第185-186页 |
·The Performance Appraisal of Classifier | 第186-188页 |
Chapter five Conclusion | 第188-189页 |
·Contents Summarizing | 第188页 |
·Technological Prospect of Chinese Webpage Classifier | 第188-189页 |
致谢 | 第189页 |