中文WEB文本倾向性分类研究

致谢	第1-6页
中文摘要	第6-7页
ABSTRACT	第7-8页
序	第8-12页
1 绪论	第12-18页
·网络安全概述	第12-13页
·文本分类概述	第13页
·文本分类研究热点	第13-15页
·研究背景及意义	第15-16页
·本文的研究内容及组织结构	第16-18页
2 Web文本分类概要	第18-22页
·文本分类任务的特点	第18页
·文档表示模型	第18-20页
·文档特征	第19页
·文档表示	第19-20页
·Web文本分类的一般过程	第20-21页
·网页褒贬倾向分类标准	第21-22页
3 中文分词技术	第22-34页
·分词辞典	第22-27页
·基于整词二分的分词词典	第22-23页
·基于TRIE索引树的分词词典	第23-25页
·基于逐字二分的分词词典	第25-27页
·三种分词词典机制的比较	第27页
·基于四字Hash机制的分词词典	第27-30页
·词典项的结构	第29-30页
·Hash表的结构	第30页
·分词算法	第30-32页
·基于字典的分词方法	第30-31页
·基于理解的分词方法	第31页
·基于统计的分词方法	第31-32页
·三种分词方法比较	第32页
·分词的后续工作	第32-34页
·去除停用词	第32页
·人名识别机制	第32-34页
4 文本相似度分析	第34-40页
·基于向量空间模型的文本相似度计算	第34-38页
·文本向量化	第34-35页
·欧式距离	第35页
·向量内积	第35-36页
·余弦相似度	第36-37页
·Jaccard相似度	第37页
·余弦相似度和Jaccard相似度的比较	第37-38页
·基于集合的文本相似度计算	第38-40页
·简单匹配	第38页
·分块系数	第38页
·Jaccard系数	第38页
·余弦系数	第38-39页
·交迭系数	第39页
·基于向量的计算方法和基于集合的计算方法的比较	第39-40页
5 特征提取技术	第40-42页
6 文本分类技术	第42-46页
·KNN最近距离法	第42-43页
·简单距离向量分类法	第43页
·naive bayes方法	第43-44页
·分类性能评估	第44-46页
7 实验流程及结果分析	第46-56页
·实验前期准备	第46页
·中文分词模块的实现	第46-52页
·特征提取模块的实现	第52-53页
·文本倾向性分类模块的实现	第53-54页
·实验结果分析	第54-56页
8 结束语	第56-57页
参考文献	第57-58页
作者简历	第58-60页
学位论文数据集	第60页