基于潜语义与遗传算法的中文文本特征 获取方法研究 | 第1-44页 |
摘要 | 第5-7页 |
第一章 引言 | 第7-9页 |
·研究背景 | 第7页 |
·研究内容 | 第7-8页 |
·论文组织结构 | 第8-9页 |
第二章 中文文本的预处理 | 第9-13页 |
·中文分词 | 第9-11页 |
·中文分词概述 | 第9-10页 |
·改进分词算法过程的描述 | 第10页 |
·歧义词的消解 | 第10-11页 |
·未登录词处理 | 第11页 |
·文本禁用词的处理 | 第11-13页 |
第三章 基于潜语义分析的文本特征获取方法 | 第13-19页 |
·文本特征获取的基本概念 | 第13页 |
·潜在语义分析的实现 | 第13-17页 |
·潜在语义分析的基本思想 | 第13-15页 |
·词-文本矩阵 | 第15页 |
·权重的计算及改进 | 第15-16页 |
·奇异值分解 | 第16页 |
·降维因子K值的选取 | 第16-17页 |
·查询项的生成 | 第17页 |
·基于潜语义的文本特征获取及检索的算法描述 | 第17-19页 |
第四章 基于遗传算法的文本特征获取方法 | 第19-31页 |
·遗传算法概述 | 第19页 |
·遗传算法分析及改进 | 第19-28页 |
·遗传算法的基本操作 | 第19-20页 |
·编码分析 | 第20-21页 |
·适应度函数 | 第21-23页 |
·选择算子 | 第23-24页 |
·交叉算子 | 第24-26页 |
·变异算子 | 第26-27页 |
·性能评价 | 第27-28页 |
·基于遗传算法的文本特征获取 | 第28-31页 |
第五章 实验与结果 | 第31-37页 |
·基于潜语义分析特征获取实验与分析 | 第31-34页 |
·基于潜在语义分析的文本检索系统结构图 | 第31页 |
·实验使用的样本 | 第31页 |
·实验结果 | 第31-34页 |
·基于遗传算法获取文本特征的实验 | 第34-37页 |
·改进遗传算法的实验分析 | 第34-36页 |
·基于遗传算法获取文本特征的流程图 | 第36-37页 |
第六章 结束语及未来工作展望 | 第37-38页 |
致谢 | 第38-39页 |
参考文献 | 第39-44页 |
Research of Chinese Text Feature Gain Method Based On Latent Semantic Analysis and Genetic Algorithm | 第44-84页 |
Abstract | 第45-49页 |
Chapter 1 Introduction | 第49-51页 |
·Background | 第49页 |
·The Content of Study | 第49-51页 |
Chapter 2 the Pretreatment of Chinese Text | 第51-56页 |
·The Chinese Word Segmentation | 第51-54页 |
·Outlined Chinese Words | 第51-52页 |
·Improved Segmentation Algorithm Described | 第52-53页 |
·Ambiguity Resolution | 第53-54页 |
·Unknown Word Processing | 第54页 |
·Processing to Banned Words of the Text | 第54-56页 |
Chapter 3 Text Feature Gain Based on Latent Semantic Analysis | 第56-62页 |
·Features Gain of the Basic Concepts | 第56-57页 |
·Latent Semantic Analysis for the Realization | 第57-61页 |
·the Basic Idea of Latent Semantic Analysis | 第57-58页 |
·Word-text Matrix of the Generation | 第58页 |
·Calculating Weights | 第58-59页 |
·Singular Value Decomposition, SVD | 第59-60页 |
·Reduction Dimensionality Factor of the K-selected | 第60页 |
·Generation Inquiries Items | 第60-61页 |
·Based on the Latent Semantic Text Feature Gain and Retrieval Algorithm | 第61-62页 |
Chapter 4 Feature Gain Based on Genetic Algorithm | 第62-76页 |
·Genetic Algorithm Outlined | 第62-63页 |
·Analysis of the Main Elements of GA and Improved | 第63-73页 |
·GA Basic Operation | 第63页 |
·Analysis of Genetic Coding | 第63-65页 |
·Fitness Function | 第65-67页 |
·Selection Operator | 第67-68页 |
·Crossover Operator | 第68-70页 |
·Mutation Operator | 第70-72页 |
·Performance Evaluation | 第72-73页 |
·Based on Genetic Algorithm of the Text Gained | 第73-76页 |
Chapter 5 Experimental Results | 第76-82页 |
·Based on Latent Semantic Analysis of Feature Gain and Analysis of Experimental | 第76-79页 |
·Based on Latent Semantic Analysis Text Retrieval System | 第76页 |
·the Samples Used of Experimental | 第76-77页 |
·Experimental Results | 第77-79页 |
·the Experiment Based on Genetic Algorithm to the Text Feature Gain | 第79-82页 |
·Improved Genetic Algorithms Experimental Analysis | 第79-81页 |
·the Flowchart of Text Feature Based on Genetic Algorithm | 第81-82页 |
Chapter 6 Conclusions and Future Prospects | 第82-83页 |
Thanks | 第83-84页 |
中文文本挖掘及其相关技术综述 | 第84-130页 |
第一章 文本挖掘概述 | 第87-89页 |
·引言 | 第87页 |
·文本挖掘的发展简史与现状 | 第87页 |
·文本挖掘的定义 | 第87-88页 |
·文本挖掘的过程 | 第88-89页 |
第二章 中文分词 | 第89-96页 |
·中文分词技术概述 | 第89页 |
·常用的中文分词算法 | 第89-90页 |
·基于机械式的分词方法 | 第89-90页 |
·基于理解的分词方法 | 第90页 |
·基于统计的分词方法 | 第90页 |
·自动分词系统的评价准则 | 第90-91页 |
·典型的中文自动分词系统 | 第91-93页 |
·中文分词面临的问题 | 第93-96页 |
第三章 文本的特征表示 | 第96-103页 |
·经典的文本特征表示 | 第96-99页 |
·布尔模型 | 第96页 |
·向量空间模型 | 第96-97页 |
·概率模型 | 第97-98页 |
·模糊模型 | 第98页 |
·传统模型的优缺点 | 第98-99页 |
·潜在语义分析(Latent Semantic Analysis,LSA) | 第99-103页 |
·潜在语义分析概述(Latent SemanticAnalysis,LSA) | 第99-100页 |
·潜在语义的理论基础 | 第100-103页 |
第四章 特征获取 | 第103-117页 |
·文本特征获取的基本概念 | 第103页 |
·典型的特征获取方法及改进 | 第103-108页 |
·基于评估函数的特征获取方法 | 第103-107页 |
·基于特征相关性的特征获取方法 | 第107页 |
·基于语义理解的特征获取方法 | 第107-108页 |
·其它的特征获取方法 | 第108-117页 |
·模拟退火算法 | 第108-109页 |
·Tabu搜索算法 | 第109-110页 |
·遗传算法 | 第110-117页 |
第五章 文本挖掘的分析技术 | 第117-121页 |
·文本检索 | 第117页 |
·文本分类 | 第117-118页 |
·文本聚类 | 第118-119页 |
·文本关联分析 | 第119-121页 |
第六章 中文文本挖掘的性能评价 | 第121-122页 |
·评价的基本概念 | 第121页 |
·文本挖掘系统的评估方法 | 第121-122页 |
·查全率和查准率 | 第121页 |
·冗余度和放射性 | 第121页 |
·双目失明测试 | 第121-122页 |
第七章 结束语 | 第122-123页 |
参考文献 | 第123-130页 |
A Survey of Chinese Text Mining and Related Technology | 第130-187页 |
Chapter 1 Outline Text Mining | 第133-136页 |
·Introduction | 第133页 |
·Text Mining History and the Present Situation | 第133-134页 |
·Text Mining | 第134-135页 |
·The Process of Text Mining | 第135-136页 |
Chapter 2 Chinese Segmentation | 第136-147页 |
·Chinese Word Segmentation Techniques Outlined | 第136页 |
·Commonly Used Chinese Word Segmentation Algorithm | 第136-139页 |
·Based on a Mechanical Method of Segmentation Method | 第137-138页 |
·Based on the Understanding of Segmentation | 第138页 |
·Based on the Statistical Method | 第138-139页 |
·the Evaluation Criteria for Automatic Segmentation System | 第139-140页 |
·Typical Chinese Automatic Segmentation System | 第140-144页 |
·the problems to Chinese Word Segmentation | 第144-147页 |
Chapter 3 Text Characteristic Expresses | 第147-157页 |
·Classic Text Characteristic Expresses | 第147-152页 |
·Boolean Model | 第147-148页 |
·Vector Space Model(VSM) | 第148-149页 |
·Probability Model | 第149-150页 |
·Fuzzy Retrieval Model(Fuzzy Model) | 第150页 |
·the Advantages and Disadvantages of the Traditional Model | 第150-152页 |
·Latent Semantic Analysis(LSA) | 第152-157页 |
·Latent Semantic Analysis Outlined | 第152-153页 |
·Latent Semantic Theoretical Foundation | 第153-157页 |
Chapter 4 Features Gain | 第157-179页 |
·Features Gain to the Basic Concepts | 第157-158页 |
·Typical Methods and Improve Gain to Feature | 第158-164页 |
·Based on an Assessment of the Function of Feature Gain | 第158-163页 |
·Based on the Relevance of the Characteristics of Acquisition | 第163页 |
·Based on Semantic Understanding of the Gain Method | 第163-164页 |
·Other Methods of Obtaining Feature | 第164-179页 |
·Simulated Annealing Alogrithm | 第165-166页 |
·Tabu Search Algorithm | 第166-168页 |
·Genetic Algorithm(GA) | 第168-179页 |
Chapter 5 Text Mining Technology | 第179-185页 |
·Text Retrieval | 第179-180页 |
·Text Categorization | 第180-181页 |
·Text Clustering | 第181-183页 |
·the Text Associated Data Analysis | 第183-185页 |
Chapter 6 Text Mining Performance Evaluation | 第185-187页 |
·Evaluate the Basic Concept | 第185页 |
·Text Mining System of Assessment Methods | 第185-187页 |
·Recall and Precision | 第185-186页 |
·Redundant and Radioactive | 第186页 |
·Blind Test | 第186-187页 |
Chapter 7 Conclusion | 第187页 |