基于朴素贝叶斯和BP神经网络的中文文本分类问题研究 | 第1-60页 |
摘要 | 第4-6页 |
ABSTRACT | 第6-11页 |
第1章 绪论 | 第11-19页 |
·选题的研究背景和意义 | 第11-13页 |
·文本分类问题 | 第13-15页 |
·现有文本分类系统的不足 | 第15-16页 |
·论文的研究内容与思路 | 第16-17页 |
·论文的组织和各章概要 | 第17-19页 |
第2章 中文文本预处理及中文分词 | 第19-31页 |
·中文文本的基本结构和特点 | 第19-20页 |
·中文语料库的建立和维护 | 第20-22页 |
·现有语料库的问题 | 第20-21页 |
·网页语料的获取 | 第21-22页 |
·中文文本分词 | 第22-26页 |
·机械分词方法 | 第23页 |
·基于统计的分词方法 | 第23-24页 |
·本文中文分词 | 第24-26页 |
·中文文本特征表示 | 第26-30页 |
·文本特征表示方法及其改进 | 第26-30页 |
·本章小结 | 第30-31页 |
第3章 特征向量维数削减 | 第31-37页 |
·特征选择 | 第31-34页 |
·特征选择主要方法 | 第31-33页 |
·本文特征选择方法 | 第33-34页 |
·基于潜语义的特征提取 | 第34-36页 |
·特征提取方法 | 第34页 |
·潜在语义索引 | 第34-36页 |
·本章小结 | 第36-37页 |
第4章 基于贝叶斯方法和BP神经网络中文文本分类研究 | 第37-47页 |
·中本文分分类常用方法 | 第37-39页 |
·朴素贝叶斯分类 | 第37-39页 |
·朴素贝叶斯分类算法 | 第39页 |
·神经网络的定义和特点 | 第39-41页 |
·神经网络的概念 | 第39页 |
·神经网络的性质和功能 | 第39-41页 |
·误差反向传播的前馈网络(BP网络) | 第41页 |
·基于改进的BP网络的文本分类 | 第41-46页 |
·算法主要思想 | 第41页 |
·用VC维计算BP网络隐层神经元个数 | 第41-42页 |
·激活函数的构造及BP网络的实现 | 第42-45页 |
·算法分析 | 第45-46页 |
·本章小结 | 第46-47页 |
第5章 系统总体设计及实验分析 | 第47-54页 |
·CTCS总体设计和中文文本数据集 | 第47-48页 |
·CTCS系统实现 | 第48-53页 |
·文本预处理 | 第48-51页 |
·训练和测试模块 | 第51-53页 |
·中文文本实验结果与分析评价 | 第53-54页 |
第6章 总结与展望 | 第54-56页 |
·工作总结 | 第54页 |
·进一步的研究 | 第54-56页 |
参考文献 | 第56-60页 |
中文文本分类问题和相关技术探讨 | 第60-121页 |
摘要 | 第61-65页 |
第1章 引言 | 第65-71页 |
·数据挖掘概述 | 第65-66页 |
·文本挖掘概述 | 第66页 |
·文本分类的背景和意义 | 第66-68页 |
·文本分类的目前研究状况 | 第68-71页 |
第2章 中文分词的主要方法和问题 | 第71-82页 |
·中文分词的主要目标 | 第71-72页 |
·分词的常用方法 | 第72-77页 |
·基本的机械分词方法 | 第72-74页 |
·基于统计的分词方法 | 第74-75页 |
·神经网络的分词方法 | 第75页 |
·基于期望的分词方法 | 第75-76页 |
·基于理解的分词方法 | 第76页 |
·全切分法 | 第76页 |
·基于条件随机场的分词方法 | 第76-77页 |
·专家系统分词方法 | 第77页 |
·未登录词识别 | 第77-78页 |
·歧义切分问题 | 第78-79页 |
·交叉型歧义 | 第78页 |
·组合型歧义 | 第78-79页 |
·中文分词成果 | 第79-80页 |
·现有分词方法的局限 | 第80-82页 |
第3章 文本的特征表示和提取的基本方法 | 第82-92页 |
·特征选择和常用的方法 | 第82-88页 |
·文档频率(Document Frequency,DF) | 第83页 |
·互信息(Mutual Information,MI) | 第83-84页 |
·信息增益(Information Gain,IG) | 第84-85页 |
·卡方估计(Chi-square Statistic,CHI) | 第85-86页 |
·文本证据权(Weight Of Evidence Text) | 第86-87页 |
·交叉熵(Cross Entropy,CE) | 第87页 |
·优势率(Odds Ratio,OR) | 第87-88页 |
·特征抽取和降维 | 第88-92页 |
·主成分分析(Principal Component Analysis,PCA) | 第88-89页 |
·潜在语义索引(Latent Semantic Indexing,LSI) | 第89-90页 |
·非负矩阵分解(Non-negative Matrix Factorization,NMF) | 第90页 |
·词汇聚类方法(Term Clustering Method,TCM) | 第90-92页 |
第4章 中文文本分类的常用方法 | 第92-113页 |
·简单向量距离分类方法 | 第92页 |
·贝叶斯分类方法 | 第92-95页 |
·朴素贝叶斯分类方法(Naive Bayes Method,NBM) | 第93-94页 |
·贝叶斯网络分类方法(Bayes Net Method,BNM) | 第94-95页 |
·基于EM算法的朴素贝叶斯分类器(NBM Base on Expectation Maximization,EMNBM) | 第95页 |
·K-NN分类方法 | 第95-96页 |
·决策树分类方法 | 第96-97页 |
·粗糙集分类方法 | 第97-98页 |
·SVM分类方法 | 第98-101页 |
·VC维和结构风险最小化原理 | 第99-100页 |
·支持向量机的二值分类 | 第100-101页 |
·遗传算法分类方法 | 第101-104页 |
·遗传算法的基本过程 | 第102-103页 |
·遗传算法的优缺点分析 | 第103-104页 |
·神经网络分类方法 | 第104-108页 |
·神经网络的组成和分类模型 | 第105-106页 |
·Hopfield模型 | 第106页 |
·BP网络模型 | 第106-107页 |
·径向基函数网络 | 第107-108页 |
·基于模糊逻辑的分类方法 | 第108-111页 |
·模糊集合定义及关系 | 第109页 |
·模糊(Fuzzy)关系的表示 | 第109-110页 |
·隶属度函数 | 第110-111页 |
·各种分类性能的评定 | 第111-113页 |
第5章 结束语 | 第113-114页 |
参考文献 | 第114-121页 |
Researching on Chinese Text ClaSSification Based on Naive Bayes[ind BP NeuraI Network | 第121-184页 |
Abstract | 第122-126页 |
Chapter 1 Forward | 第126-138页 |
·Selected Topic Research Backgrounds and Significance | 第126-130页 |
·Text Classification | 第130-132页 |
·The shortage of Text Classification-System | 第132-136页 |
·Research and Thought | 第136-137页 |
·The Organizations and Chapters Outline | 第137-138页 |
Chapter 2 Chinesle text Pretretment Technology And Chinese Word Segmentation | 第138-154页 |
·The Basic Structure and Characteristics of Chinese Text | 第138-139页 |
·Establishment and Maintenance of Corpus | 第139-142页 |
·The Shortage of Corpus | 第139-141页 |
·Web Page pretreatment | 第141-142页 |
·Chinese Word Segmentation | 第142-148页 |
·The Segmentation Method Based On mechanical | 第143-144页 |
·The Segmentation Method Based On Statistics | 第144-146页 |
·Word Segmentation of This Paper | 第146-148页 |
·Chinese Text Feature Selection | 第148-152页 |
·The Feature Selection Method of This Paper | 第148-152页 |
·Summary of This Chapter | 第152-154页 |
Chapter 3 Feature Dimension Reduction | 第154-162页 |
·Feature Selection | 第154-158页 |
·The Method of Feature Selection | 第154-157页 |
·The Feature Selection in This Paper | 第157-158页 |
·Feature Extraction Based on Latent Semantic Index | 第158-161页 |
·Feature Extraction Method | 第158页 |
·Feature Extraction Method of This Paper | 第158-161页 |
·Summary of This Chapter | 第161-162页 |
Chapter 4 the Application of Neural Network in Chinese Text Classification | 第162-173页 |
·The Common Method of Chinese Text Classification | 第162-165页 |
·Naive Bayes Method, NBM | 第162-164页 |
·Naive Bayes Algorithm | 第164-165页 |
·The Definition and Characteristic of Neural Network | 第165-167页 |
·The Concept of Neural Network | 第165页 |
·Property and Function of Neural Network | 第165-167页 |
·BP Neural Network Model | 第167页 |
·Text Classification Based on Improved BP Neural Network | 第167-172页 |
·The Main idea of Algorithm | 第167-168页 |
·Used VC Dimension to Certain the Number of Neurons in Hidden Layer | 第168页 |
·Construction of Activation Function and Realization of BP Network | 第168-171页 |
·Analysis of Algorithms | 第171-172页 |
·Summary of This Chapter | 第172-173页 |
Chapter 5 System Design and Experimental Analysis | 第173-182页 |
·The Overall Design of CTCS and Chinese Text Set | 第173-174页 |
·The Implementation of CTCS | 第174-180页 |
·Text Pretreatment | 第174-178页 |
·Train and Test Module | 第178-180页 |
·Experiment Results and Analysis | 第180-181页 |
·Summary of This Chapter | 第181-182页 |
Chapter 6 Summary and Prospects | 第182-184页 |
·Summary | 第182页 |
·Further Research | 第182-184页 |
Discussing of Chinese Text Classification And Relevant Technology | 第184-253页 |
Abstract | 第185-189页 |
Chapter 1 Forward | 第189-196页 |
·the Overview of Data Mining | 第189-190页 |
·the Overview of Text Mining | 第190-191页 |
·Background and Meaning of Text Classification | 第191-193页 |
·Research state of Text Classification at Present | 第193-196页 |
Chapter 2 the Main Technology and Question of Chinese Word Segmentation | 第196-211页 |
·The Aim of Chinese Text Segmentation | 第196-198页 |
·The Common Method of Chinese Text Segmentation | 第198-204页 |
·The Segmentation Method Based On mechanical | 第198-200页 |
·The Segmentation Method Based On Statistics | 第200-201页 |
·The Segmentation Method Based On Neural Network | 第201-202页 |
·The Segmentation Method Based On expectat i on | 第202页 |
·The Segmentation Method Based On Understanding | 第202-203页 |
·The Total Segmentation | 第203页 |
·The Segmentation Method Based On Conditional Random Fields | 第203-204页 |
·The Segmentation Method Based On Expert System | 第204页 |
·The Discernable of Not Logged Word | 第204-205页 |
·Ambiguous Segmentation Questions | 第205-207页 |
·Intersection Ambiguous | 第205-206页 |
·Combination Ambiguous | 第206-207页 |
·Chinese Word Segmentation Achievements | 第207-209页 |
·Limitations of Segmentation Method | 第209-211页 |
Chapter 3 the Based Method of Text Feature Representation and Extraction | 第211-224页 |
·Feature Selection and the Common Method | 第211-219页 |
·Document Frequency.DF | 第212-213页 |
·Mutual Information,MI | 第213-215页 |
·Information Gain,IG | 第215页 |
·Chi-square Statistic,CHI | 第215-217页 |
·Weight Of Evidence Text,WET | 第217-218页 |
·Cross Entropy,CE | 第218页 |
·Odds Ratio,OR | 第218-219页 |
·Feature Extraction and Dimension Reduction | 第219-224页 |
·Principal Component Analysis,PCA | 第220-221页 |
·Latent Semantic Indexing,LSI | 第221-222页 |
·Non-negative Matrix Factorization,NMF | 第222-223页 |
·Term Clustering Method,TCM | 第223-224页 |
Chapter 4 the Common Method of Text Classification | 第224-251页 |
·Simple Vector Distance Classification Method | 第224-225页 |
·Beyes Classification Method | 第225-229页 |
·Naive Bayes Method, NBM | 第225-227页 |
·Bayes Net Method, BNM | 第227-228页 |
·NBM Base on Expectation Maximization, EMNBM | 第228-229页 |
·K-NN Classification Method | 第229-230页 |
·Decision Tree Classification method | 第230-231页 |
·Rough Sets Classification Method | 第231-233页 |
·SVM Method | 第233-237页 |
·VC structural risk minimization principle | 第234-235页 |
·Binary Classification of SVM | 第235-237页 |
·Genetic Algorithm Classification Method | 第237-240页 |
·The Basic Process of Genetic Algorithm | 第238-239页 |
·Analysis on the Advantages and Disadvantages in GA | 第239-240页 |
·Neural Network Classification Method | 第240-246页 |
·The composition of neural network | 第242页 |
·Hopfield Model | 第242-243页 |
·BP Net Model | 第243-244页 |
·Raidal Basis Function Net | 第244-246页 |
·Classification Based on the of Fuzzy Logic | 第246-248页 |
·The Definition and Relation of Fuzzy Set | 第246-247页 |
·The Expression of Fuzzy Relation | 第247-248页 |
·The Membership Function | 第248页 |
·The Performance Appraisal of Classifier | 第248-251页 |
Chapter 5 Conclusion | 第251-253页 |
2005-2008硕士研究生期间发表的论文(第一作者) | 第253-254页 |
致谢 | 第254页 |