面向论坛的文本特征提取及分类技术研究

摘要	第1-6页
Abstract	第6-9页
第1章绪论	第9-13页
·研究背景及意义	第9页
·国内外研究现状	第9-11页
·本文主要工作	第11-12页
·论文组织	第12-13页
第2章相关理论及关键技术	第13-23页
·网络爬虫技术	第13-15页
·网络爬虫的原理	第13-14页
·网络爬虫的搜索策略	第14-15页
·中文分词技术	第15-17页
·概率主题模型	第17-19页
·基本思想	第17页
·LDA模型	第17-19页
·基于词林的词义相似度计算	第19-21页
·词林编码规律	第19-20页
·词语相似度计算	第20-21页
·K近邻分类算法	第21-22页
·算法简介	第21-22页
·算法改进	第22页
·本章小结	第22-23页
第3章基于网络爬虫的论坛信息采集	第23-31页
·论坛结构分析	第23-24页
·网络爬虫设计	第24-30页
·源代码下载	第25-27页
·源代码中提取感兴趣信息	第27-28页
·感兴趣信息的分类存储	第28-30页
·本章小结	第30-31页
第4章文本预处理	第31-35页
·文本净化	第31-32页
·中文分词	第32-33页
·初步降维	第33-34页
·本章小结	第34-35页
第5章文本特征选择	第35-39页
·基于LDA主题建模的文本特征表示	第35-36页
·主题表示维度对主题特征的影响	第36-37页
·基于词林的词义聚类	第37-38页
·本章小结	第38-39页
第6章实验设计及结果分析	第39-51页
·实验设计	第39页
·测试实验	第39-43页
·测试实验结果分析	第43-47页
·应用实验	第47-51页
·K近邻分类器设计	第47-48页
·实验结果	第48-51页
第7章工作总结与展望	第51-53页
·课题总结	第51页
·研究与展望	第51-53页
参考文献	第53-56页
致谢	第56-57页
攻读学位期间取得的科研成果	第57页