首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文WEB文本倾向性分类研究

致谢第1-6页
中文摘要第6-7页
ABSTRACT第7-8页
第8-12页
1 绪论第12-18页
   ·网络安全概述第12-13页
   ·文本分类概述第13页
   ·文本分类研究热点第13-15页
   ·研究背景及意义第15-16页
   ·本文的研究内容及组织结构第16-18页
2 Web文本分类概要第18-22页
   ·文本分类任务的特点第18页
   ·文档表示模型第18-20页
     ·文档特征第19页
     ·文档表示第19-20页
   ·Web文本分类的一般过程第20-21页
   ·网页褒贬倾向分类标准第21-22页
3 中文分词技术第22-34页
   ·分词辞典第22-27页
     ·基于整词二分的分词词典第22-23页
     ·基于TRIE索引树的分词词典第23-25页
     ·基于逐字二分的分词词典第25-27页
     ·三种分词词典机制的比较第27页
   ·基于四字Hash机制的分词词典第27-30页
     ·词典项的结构第29-30页
     ·Hash表的结构第30页
   ·分词算法第30-32页
     ·基于字典的分词方法第30-31页
     ·基于理解的分词方法第31页
     ·基于统计的分词方法第31-32页
     ·三种分词方法比较第32页
   ·分词的后续工作第32-34页
     ·去除停用词第32页
     ·人名识别机制第32-34页
4 文本相似度分析第34-40页
   ·基于向量空间模型的文本相似度计算第34-38页
     ·文本向量化第34-35页
     ·欧式距离第35页
     ·向量内积第35-36页
     ·余弦相似度第36-37页
     ·Jaccard相似度第37页
     ·余弦相似度和Jaccard相似度的比较第37-38页
   ·基于集合的文本相似度计算第38-40页
     ·简单匹配第38页
     ·分块系数第38页
     ·Jaccard系数第38页
     ·余弦系数第38-39页
     ·交迭系数第39页
     ·基于向量的计算方法和基于集合的计算方法的比较第39-40页
5 特征提取技术第40-42页
6 文本分类技术第42-46页
   ·KNN最近距离法第42-43页
   ·简单距离向量分类法第43页
   ·naive bayes方法第43-44页
   ·分类性能评估第44-46页
7 实验流程及结果分析第46-56页
   ·实验前期准备第46页
   ·中文分词模块的实现第46-52页
   ·特征提取模块的实现第52-53页
   ·文本倾向性分类模块的实现第53-54页
   ·实验结果分析第54-56页
8 结束语第56-57页
参考文献第57-58页
作者简历第58-60页
学位论文数据集第60页

论文共60页,点击 下载论文
上一篇:论外商在我国设立创业投资企业的法律障碍
下一篇:NFC移动支付运营模式研究