| 基于朴素贝叶斯和BP神经网络的中文文本分类问题研究 | 第1-60页 |
| 摘要 | 第4-6页 |
| ABSTRACT | 第6-11页 |
| 第1章 绪论 | 第11-19页 |
| ·选题的研究背景和意义 | 第11-13页 |
| ·文本分类问题 | 第13-15页 |
| ·现有文本分类系统的不足 | 第15-16页 |
| ·论文的研究内容与思路 | 第16-17页 |
| ·论文的组织和各章概要 | 第17-19页 |
| 第2章 中文文本预处理及中文分词 | 第19-31页 |
| ·中文文本的基本结构和特点 | 第19-20页 |
| ·中文语料库的建立和维护 | 第20-22页 |
| ·现有语料库的问题 | 第20-21页 |
| ·网页语料的获取 | 第21-22页 |
| ·中文文本分词 | 第22-26页 |
| ·机械分词方法 | 第23页 |
| ·基于统计的分词方法 | 第23-24页 |
| ·本文中文分词 | 第24-26页 |
| ·中文文本特征表示 | 第26-30页 |
| ·文本特征表示方法及其改进 | 第26-30页 |
| ·本章小结 | 第30-31页 |
| 第3章 特征向量维数削减 | 第31-37页 |
| ·特征选择 | 第31-34页 |
| ·特征选择主要方法 | 第31-33页 |
| ·本文特征选择方法 | 第33-34页 |
| ·基于潜语义的特征提取 | 第34-36页 |
| ·特征提取方法 | 第34页 |
| ·潜在语义索引 | 第34-36页 |
| ·本章小结 | 第36-37页 |
| 第4章 基于贝叶斯方法和BP神经网络中文文本分类研究 | 第37-47页 |
| ·中本文分分类常用方法 | 第37-39页 |
| ·朴素贝叶斯分类 | 第37-39页 |
| ·朴素贝叶斯分类算法 | 第39页 |
| ·神经网络的定义和特点 | 第39-41页 |
| ·神经网络的概念 | 第39页 |
| ·神经网络的性质和功能 | 第39-41页 |
| ·误差反向传播的前馈网络(BP网络) | 第41页 |
| ·基于改进的BP网络的文本分类 | 第41-46页 |
| ·算法主要思想 | 第41页 |
| ·用VC维计算BP网络隐层神经元个数 | 第41-42页 |
| ·激活函数的构造及BP网络的实现 | 第42-45页 |
| ·算法分析 | 第45-46页 |
| ·本章小结 | 第46-47页 |
| 第5章 系统总体设计及实验分析 | 第47-54页 |
| ·CTCS总体设计和中文文本数据集 | 第47-48页 |
| ·CTCS系统实现 | 第48-53页 |
| ·文本预处理 | 第48-51页 |
| ·训练和测试模块 | 第51-53页 |
| ·中文文本实验结果与分析评价 | 第53-54页 |
| 第6章 总结与展望 | 第54-56页 |
| ·工作总结 | 第54页 |
| ·进一步的研究 | 第54-56页 |
| 参考文献 | 第56-60页 |
| 中文文本分类问题和相关技术探讨 | 第60-121页 |
| 摘要 | 第61-65页 |
| 第1章 引言 | 第65-71页 |
| ·数据挖掘概述 | 第65-66页 |
| ·文本挖掘概述 | 第66页 |
| ·文本分类的背景和意义 | 第66-68页 |
| ·文本分类的目前研究状况 | 第68-71页 |
| 第2章 中文分词的主要方法和问题 | 第71-82页 |
| ·中文分词的主要目标 | 第71-72页 |
| ·分词的常用方法 | 第72-77页 |
| ·基本的机械分词方法 | 第72-74页 |
| ·基于统计的分词方法 | 第74-75页 |
| ·神经网络的分词方法 | 第75页 |
| ·基于期望的分词方法 | 第75-76页 |
| ·基于理解的分词方法 | 第76页 |
| ·全切分法 | 第76页 |
| ·基于条件随机场的分词方法 | 第76-77页 |
| ·专家系统分词方法 | 第77页 |
| ·未登录词识别 | 第77-78页 |
| ·歧义切分问题 | 第78-79页 |
| ·交叉型歧义 | 第78页 |
| ·组合型歧义 | 第78-79页 |
| ·中文分词成果 | 第79-80页 |
| ·现有分词方法的局限 | 第80-82页 |
| 第3章 文本的特征表示和提取的基本方法 | 第82-92页 |
| ·特征选择和常用的方法 | 第82-88页 |
| ·文档频率(Document Frequency,DF) | 第83页 |
| ·互信息(Mutual Information,MI) | 第83-84页 |
| ·信息增益(Information Gain,IG) | 第84-85页 |
| ·卡方估计(Chi-square Statistic,CHI) | 第85-86页 |
| ·文本证据权(Weight Of Evidence Text) | 第86-87页 |
| ·交叉熵(Cross Entropy,CE) | 第87页 |
| ·优势率(Odds Ratio,OR) | 第87-88页 |
| ·特征抽取和降维 | 第88-92页 |
| ·主成分分析(Principal Component Analysis,PCA) | 第88-89页 |
| ·潜在语义索引(Latent Semantic Indexing,LSI) | 第89-90页 |
| ·非负矩阵分解(Non-negative Matrix Factorization,NMF) | 第90页 |
| ·词汇聚类方法(Term Clustering Method,TCM) | 第90-92页 |
| 第4章 中文文本分类的常用方法 | 第92-113页 |
| ·简单向量距离分类方法 | 第92页 |
| ·贝叶斯分类方法 | 第92-95页 |
| ·朴素贝叶斯分类方法(Naive Bayes Method,NBM) | 第93-94页 |
| ·贝叶斯网络分类方法(Bayes Net Method,BNM) | 第94-95页 |
| ·基于EM算法的朴素贝叶斯分类器(NBM Base on Expectation Maximization,EMNBM) | 第95页 |
| ·K-NN分类方法 | 第95-96页 |
| ·决策树分类方法 | 第96-97页 |
| ·粗糙集分类方法 | 第97-98页 |
| ·SVM分类方法 | 第98-101页 |
| ·VC维和结构风险最小化原理 | 第99-100页 |
| ·支持向量机的二值分类 | 第100-101页 |
| ·遗传算法分类方法 | 第101-104页 |
| ·遗传算法的基本过程 | 第102-103页 |
| ·遗传算法的优缺点分析 | 第103-104页 |
| ·神经网络分类方法 | 第104-108页 |
| ·神经网络的组成和分类模型 | 第105-106页 |
| ·Hopfield模型 | 第106页 |
| ·BP网络模型 | 第106-107页 |
| ·径向基函数网络 | 第107-108页 |
| ·基于模糊逻辑的分类方法 | 第108-111页 |
| ·模糊集合定义及关系 | 第109页 |
| ·模糊(Fuzzy)关系的表示 | 第109-110页 |
| ·隶属度函数 | 第110-111页 |
| ·各种分类性能的评定 | 第111-113页 |
| 第5章 结束语 | 第113-114页 |
| 参考文献 | 第114-121页 |
| Researching on Chinese Text ClaSSification Based on Naive Bayes[ind BP NeuraI Network | 第121-184页 |
| Abstract | 第122-126页 |
| Chapter 1 Forward | 第126-138页 |
| ·Selected Topic Research Backgrounds and Significance | 第126-130页 |
| ·Text Classification | 第130-132页 |
| ·The shortage of Text Classification-System | 第132-136页 |
| ·Research and Thought | 第136-137页 |
| ·The Organizations and Chapters Outline | 第137-138页 |
| Chapter 2 Chinesle text Pretretment Technology And Chinese Word Segmentation | 第138-154页 |
| ·The Basic Structure and Characteristics of Chinese Text | 第138-139页 |
| ·Establishment and Maintenance of Corpus | 第139-142页 |
| ·The Shortage of Corpus | 第139-141页 |
| ·Web Page pretreatment | 第141-142页 |
| ·Chinese Word Segmentation | 第142-148页 |
| ·The Segmentation Method Based On mechanical | 第143-144页 |
| ·The Segmentation Method Based On Statistics | 第144-146页 |
| ·Word Segmentation of This Paper | 第146-148页 |
| ·Chinese Text Feature Selection | 第148-152页 |
| ·The Feature Selection Method of This Paper | 第148-152页 |
| ·Summary of This Chapter | 第152-154页 |
| Chapter 3 Feature Dimension Reduction | 第154-162页 |
| ·Feature Selection | 第154-158页 |
| ·The Method of Feature Selection | 第154-157页 |
| ·The Feature Selection in This Paper | 第157-158页 |
| ·Feature Extraction Based on Latent Semantic Index | 第158-161页 |
| ·Feature Extraction Method | 第158页 |
| ·Feature Extraction Method of This Paper | 第158-161页 |
| ·Summary of This Chapter | 第161-162页 |
| Chapter 4 the Application of Neural Network in Chinese Text Classification | 第162-173页 |
| ·The Common Method of Chinese Text Classification | 第162-165页 |
| ·Naive Bayes Method, NBM | 第162-164页 |
| ·Naive Bayes Algorithm | 第164-165页 |
| ·The Definition and Characteristic of Neural Network | 第165-167页 |
| ·The Concept of Neural Network | 第165页 |
| ·Property and Function of Neural Network | 第165-167页 |
| ·BP Neural Network Model | 第167页 |
| ·Text Classification Based on Improved BP Neural Network | 第167-172页 |
| ·The Main idea of Algorithm | 第167-168页 |
| ·Used VC Dimension to Certain the Number of Neurons in Hidden Layer | 第168页 |
| ·Construction of Activation Function and Realization of BP Network | 第168-171页 |
| ·Analysis of Algorithms | 第171-172页 |
| ·Summary of This Chapter | 第172-173页 |
| Chapter 5 System Design and Experimental Analysis | 第173-182页 |
| ·The Overall Design of CTCS and Chinese Text Set | 第173-174页 |
| ·The Implementation of CTCS | 第174-180页 |
| ·Text Pretreatment | 第174-178页 |
| ·Train and Test Module | 第178-180页 |
| ·Experiment Results and Analysis | 第180-181页 |
| ·Summary of This Chapter | 第181-182页 |
| Chapter 6 Summary and Prospects | 第182-184页 |
| ·Summary | 第182页 |
| ·Further Research | 第182-184页 |
| Discussing of Chinese Text Classification And Relevant Technology | 第184-253页 |
| Abstract | 第185-189页 |
| Chapter 1 Forward | 第189-196页 |
| ·the Overview of Data Mining | 第189-190页 |
| ·the Overview of Text Mining | 第190-191页 |
| ·Background and Meaning of Text Classification | 第191-193页 |
| ·Research state of Text Classification at Present | 第193-196页 |
| Chapter 2 the Main Technology and Question of Chinese Word Segmentation | 第196-211页 |
| ·The Aim of Chinese Text Segmentation | 第196-198页 |
| ·The Common Method of Chinese Text Segmentation | 第198-204页 |
| ·The Segmentation Method Based On mechanical | 第198-200页 |
| ·The Segmentation Method Based On Statistics | 第200-201页 |
| ·The Segmentation Method Based On Neural Network | 第201-202页 |
| ·The Segmentation Method Based On expectat i on | 第202页 |
| ·The Segmentation Method Based On Understanding | 第202-203页 |
| ·The Total Segmentation | 第203页 |
| ·The Segmentation Method Based On Conditional Random Fields | 第203-204页 |
| ·The Segmentation Method Based On Expert System | 第204页 |
| ·The Discernable of Not Logged Word | 第204-205页 |
| ·Ambiguous Segmentation Questions | 第205-207页 |
| ·Intersection Ambiguous | 第205-206页 |
| ·Combination Ambiguous | 第206-207页 |
| ·Chinese Word Segmentation Achievements | 第207-209页 |
| ·Limitations of Segmentation Method | 第209-211页 |
| Chapter 3 the Based Method of Text Feature Representation and Extraction | 第211-224页 |
| ·Feature Selection and the Common Method | 第211-219页 |
| ·Document Frequency.DF | 第212-213页 |
| ·Mutual Information,MI | 第213-215页 |
| ·Information Gain,IG | 第215页 |
| ·Chi-square Statistic,CHI | 第215-217页 |
| ·Weight Of Evidence Text,WET | 第217-218页 |
| ·Cross Entropy,CE | 第218页 |
| ·Odds Ratio,OR | 第218-219页 |
| ·Feature Extraction and Dimension Reduction | 第219-224页 |
| ·Principal Component Analysis,PCA | 第220-221页 |
| ·Latent Semantic Indexing,LSI | 第221-222页 |
| ·Non-negative Matrix Factorization,NMF | 第222-223页 |
| ·Term Clustering Method,TCM | 第223-224页 |
| Chapter 4 the Common Method of Text Classification | 第224-251页 |
| ·Simple Vector Distance Classification Method | 第224-225页 |
| ·Beyes Classification Method | 第225-229页 |
| ·Naive Bayes Method, NBM | 第225-227页 |
| ·Bayes Net Method, BNM | 第227-228页 |
| ·NBM Base on Expectation Maximization, EMNBM | 第228-229页 |
| ·K-NN Classification Method | 第229-230页 |
| ·Decision Tree Classification method | 第230-231页 |
| ·Rough Sets Classification Method | 第231-233页 |
| ·SVM Method | 第233-237页 |
| ·VC structural risk minimization principle | 第234-235页 |
| ·Binary Classification of SVM | 第235-237页 |
| ·Genetic Algorithm Classification Method | 第237-240页 |
| ·The Basic Process of Genetic Algorithm | 第238-239页 |
| ·Analysis on the Advantages and Disadvantages in GA | 第239-240页 |
| ·Neural Network Classification Method | 第240-246页 |
| ·The composition of neural network | 第242页 |
| ·Hopfield Model | 第242-243页 |
| ·BP Net Model | 第243-244页 |
| ·Raidal Basis Function Net | 第244-246页 |
| ·Classification Based on the of Fuzzy Logic | 第246-248页 |
| ·The Definition and Relation of Fuzzy Set | 第246-247页 |
| ·The Expression of Fuzzy Relation | 第247-248页 |
| ·The Membership Function | 第248页 |
| ·The Performance Appraisal of Classifier | 第248-251页 |
| Chapter 5 Conclusion | 第251-253页 |
| 2005-2008硕士研究生期间发表的论文(第一作者) | 第253-254页 |
| 致谢 | 第254页 |