| 基于SVM的中文网页多类分类问题研究及实现 | 第1-50页 |
| 摘要 | 第5-8页 |
| 第一章 绪论 | 第8-10页 |
| ·研究背景 | 第8页 |
| ·论文的研究思路与主要的工作 | 第8-9页 |
| ·论文的组织 | 第9-10页 |
| 第二章 中文网页预处理技术及中文分词 | 第10-17页 |
| ·中文网页的基本结构和特点 | 第10-11页 |
| ·中文网页基本结构 | 第10页 |
| ·中文网页特点分析 | 第10-11页 |
| ·中文网页主题内容提取算法 | 第11-13页 |
| ·算法主要思想 | 第12页 |
| ·网页主题文本内容提取算法 | 第12-13页 |
| ·中文分词 | 第13-16页 |
| ·中文分词方法 | 第13-15页 |
| ·中文分词成果 | 第15页 |
| ·本文系统(CWPMCS)的中文分词 | 第15-16页 |
| ·本章小结 | 第16-17页 |
| 第三章 中文网页特征选择 | 第17-23页 |
| ·网页表示 | 第17-19页 |
| ·特征选择 | 第19-22页 |
| ·常见特征选择方法 | 第19-21页 |
| ·本文的特征选择方法及算法描述 | 第21-22页 |
| ·本章小结 | 第22-23页 |
| 第四章 支持向量机理论及其在中文网页分类中的应用 | 第23-36页 |
| ·统计学习理论的核心内容 | 第23页 |
| ·SVM的二值分类 | 第23-27页 |
| ·线性可分情况 | 第24-25页 |
| ·线性不可分情况 | 第25-26页 |
| ·非线性可分情况 | 第26-27页 |
| ·支持向量机优点 | 第27-28页 |
| ·SVM多类分类方法 | 第28-31页 |
| ·一对多方法 | 第28-29页 |
| ·一对一方法 | 第29-30页 |
| ·决策有向无环图(Directed Acyclic Graph)方法 | 第30页 |
| ·基于SVM的二叉树方法 | 第30-31页 |
| ·多类分类模型构造算法 | 第31-35页 |
| ·算法主要思想 | 第32-33页 |
| ·构造算法 | 第33页 |
| ·算法分析 | 第33-35页 |
| ·本章小结 | 第35-36页 |
| 第五章 系统设计与实验结果分析 | 第36-41页 |
| ·CWPMCS(CHINESE WEBPAGE MULTICLASS CLASSIFIER SYSTEM)总体设计 | 第36页 |
| ·开发环境 | 第36-37页 |
| ·中文网页数据集 | 第37页 |
| ·CWPMCS功能实现 | 第37-40页 |
| ·中文网页实验结果与分析评价 | 第40页 |
| ·本章小结 | 第40-41页 |
| 第六章 总结与展望 | 第41-43页 |
| ·工作总结 | 第41页 |
| ·进一步的研究 | 第41-43页 |
| 参考文献 | 第43-50页 |
| Research And Implementation Of Chinese Web Page Multi-class Classification Based On SVM | 第50-91页 |
| Abstract | 第51-55页 |
| Chapter One Introduction | 第55-57页 |
| ·Background | 第55页 |
| ·The thinking of research of the thesis and main work | 第55-56页 |
| ·Organization of the thesis | 第56-57页 |
| Chapter Two Chinese webpage pretreatment technology and Chinese word segmentation | 第57-64页 |
| ·Basic structure and characteristic of Chinese webpages | 第57-59页 |
| ·Chinese basic structure of webpage | 第57-58页 |
| ·Chinese webpage characteristic analysis | 第58-59页 |
| ·Extraction algorithms OF Chinese webpage theme content | 第59-60页 |
| ·Main thought of the algorithm | 第59-60页 |
| ·Extraction algorithms in theme text content of the webpage | 第60页 |
| ·Chinese word segmentation | 第60-63页 |
| ·The method of Chinese word segmentation | 第60-62页 |
| ·Chinese word segmentation achievement | 第62-63页 |
| ·Chinese word segmentation in CWPMCS | 第63页 |
| ·Brief summaries of This chapter | 第63-64页 |
| Chapter Three Feature Selection of Chinese webpage | 第64-70页 |
| ·Webpage Expression | 第64-65页 |
| ·Feature Selection | 第65-69页 |
| ·common method of feature selection | 第66-68页 |
| ·the method of feature selection and algorithm describing in this paper | 第68-69页 |
| ·Brief summaries of this chapter | 第69-70页 |
| Chapter four Support Vector Machine theory and application in Chinese webpage classification | 第70-84页 |
| ·the Key content of statistical learning theory | 第70-71页 |
| ·Binary Classification of SVM Theory | 第71-75页 |
| ·Linear separable case | 第72-73页 |
| ·Linear inseparable case | 第73页 |
| ·Non-linear separable case | 第73-75页 |
| ·The Advantage of Support Vector Machine | 第75页 |
| ·Multi-class Classification of Support Vector Machine | 第75-79页 |
| ·One-Against-TheRest method | 第76-77页 |
| ·One-Against-One Method | 第77页 |
| ·Directed Acyclic Graph Method | 第77-78页 |
| ·Binary Tree Method Based On SVM | 第78-79页 |
| ·The algorithms of constructing multi-class classifier models | 第79-83页 |
| ·Main thought of the algorithm | 第80页 |
| ·Algorithm | 第80-82页 |
| ·Analysis of the algorithm | 第82-83页 |
| ·Brief summaries of this chapter | 第83-84页 |
| Chapter Five The System Design and Experimental ResultAnalysis | 第84-89页 |
| ·CWPMCS(Chinese WebPage Multi-Class Classifier System) design | 第84-85页 |
| ·Development environment | 第85页 |
| ·The Chinese webpage data collecting | 第85页 |
| ·CWPMCS function realization | 第85-88页 |
| ·The evaluation and analysis of Chinese webpage experimental result | 第88页 |
| ·Brief summaries of this chapter | 第88-89页 |
| Chapter Six Summarize and the prospect | 第89-91页 |
| ·Summary | 第89页 |
| ·Further Research | 第89-91页 |
| 中文网页分类器及其相关技术研究 | 第91-140页 |
| 摘要 | 第92-95页 |
| 第一章 引言 | 第95-99页 |
| ·背景和意义 | 第95-96页 |
| ·文本分类的目前研究状况 | 第96-97页 |
| ·网页分类的研究现状 | 第97-98页 |
| ·网页分类过程 | 第98-99页 |
| 第二章 中文分词 | 第99-103页 |
| ·分词方法 | 第99-100页 |
| ·基于字符串匹配的分词方法 | 第99-100页 |
| ·基于理解的分词方法 | 第100页 |
| ·基于统计的分词方法 | 第100页 |
| ·未登录词识别问题 | 第100-101页 |
| ·歧义切分问题 | 第101页 |
| ·中文分词成果 | 第101-102页 |
| ·现有分词方法的局限 | 第102-103页 |
| 第三章 降维技术 | 第103-109页 |
| ·特征选择方法 | 第103-106页 |
| ·文档频率(DF) | 第103-104页 |
| ·信息增益(Information Gain,IG) | 第104页 |
| ·互信息(Mutual Information,MI) | 第104-105页 |
| ·X~2估计(X~2-test,CHI) | 第105-106页 |
| ·文本证据权(Weight of Evidence Text) | 第106页 |
| ·特征提取方法 | 第106-109页 |
| ·主成分分析(PCA) | 第107页 |
| ·潜在语义索引(LSI) | 第107-108页 |
| ·非负矩阵分解(NMF) | 第108-109页 |
| 第四章 网页分类方法 | 第109-133页 |
| ·简单向量距离分类方法 | 第109页 |
| ·决策树分类方法 | 第109-111页 |
| ·K-近邻分类方法(K-NN) | 第111-112页 |
| ·粗糙集分类方法 | 第112页 |
| ·贝叶斯分类方法 | 第112-115页 |
| ·朴素贝叶斯分类方法 | 第113-114页 |
| ·贝叶斯网络分类方法 | 第114-115页 |
| ·神经网络分类方法 | 第115-120页 |
| ·神经网络的基本属性 | 第115-116页 |
| ·误差反向传播的前馈网络(BP网络) | 第116-119页 |
| ·RBF网络 | 第119-120页 |
| ·支持向量机(SVM)分类方法 | 第120-132页 |
| ·支持向量机的研究现状 | 第120-121页 |
| ·统计学习理论的核心内容 | 第121-124页 |
| ·基于SVM理论的二值分类 | 第124-127页 |
| ·支持向量机训练算法 | 第127-128页 |
| ·支持向量机多类分类 | 第128-130页 |
| ·网页的多归属 | 第130页 |
| ·分类器的性能评价 | 第130-132页 |
| 第五章 结束语 | 第132-133页 |
| ·内容总结 | 第132页 |
| ·中文网页分类技术的展望 | 第132-133页 |
| 参考文献 | 第133-140页 |
| Chinese Webpage Classifier And Relevant Technology Research | 第140-189页 |
| Abstract | 第141-144页 |
| Chapter one Foreword | 第144-149页 |
| ·Background and Meaning | 第144-146页 |
| ·Research state of text classification at present | 第146页 |
| ·The current situation of the webpage classification | 第146-147页 |
| ·The Course of the Webpage Classificaition | 第147-149页 |
| Chapter two Chinese Word Segmentation | 第149-154页 |
| ·Segmentation methods | 第149-151页 |
| ·The Segmentation Method Based On String Matching | 第149-150页 |
| ·The Segmentation Method Based On Understanding | 第150页 |
| ·The Segmentation Method Based On Statistics | 第150-151页 |
| ·The Discernable Question Of Not Logged Word | 第151页 |
| ·Ambiguous Segmentation Questions | 第151-152页 |
| ·Chinese Word Segmentation Achievements | 第152页 |
| ·Limitations of Segmentation Method | 第152-154页 |
| Chapter three Reduction Dimension Technology | 第154-161页 |
| ·Feature Selection | 第154-159页 |
| ·Document Frequency | 第154-155页 |
| ·Information Gain(IG). | 第155-156页 |
| ·Mutual Information(MI) | 第156-157页 |
| ·X~2 Estimation(CHI) | 第157-158页 |
| ·Weight Of Evidence Text | 第158-159页 |
| ·Feature Extraction Method | 第159-161页 |
| ·Principle component analysis (PCA) | 第159页 |
| ·latent semantic indexing (LSI) | 第159-160页 |
| ·Noir negative Matrix Factorization (NMF) | 第160-161页 |
| Chapter four webpage classification method | 第161-188页 |
| ·simple vector distance classification method | 第161页 |
| ·Decision Tree Classification method | 第161-163页 |
| ·K- the Nearest Neighbour Classification Method( K-NN) | 第163-164页 |
| ·RoughSets Classification Method | 第164-165页 |
| ·Beyes Classification method | 第165-168页 |
| ·Naive Bayes Classification method | 第165-167页 |
| ·Bayes Network Classification Method | 第167-168页 |
| ·Neural Network Classification Method | 第168-174页 |
| ·Basic attribute of the Neural Network | 第168-169页 |
| ·Feedforward Network (BP network) of error backpropagation | 第169-173页 |
| ·RBF network | 第173-174页 |
| ·Support Vector Machine Classification Method | 第174-188页 |
| ·The Current Research Situation of Support Vector Machine | 第174-175页 |
| ·the Key content of statistical learning theory | 第175-178页 |
| ·Binary Classification of SVM theory | 第178-181页 |
| ·Train Algorithms Of Support Vector Machine | 第181-183页 |
| ·Multi-class Classification of Support Vector Machine | 第183-185页 |
| ·The more belonging of the webpage | 第185-186页 |
| ·The Performance Appraisal of Classifier | 第186-188页 |
| Chapter five Conclusion | 第188-189页 |
| ·Contents Summarizing | 第188页 |
| ·Technological Prospect of Chinese Webpage Classifier | 第188-189页 |
| 致谢 | 第189页 |