首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Web文本挖掘技术研究及应用

致谢第5-6页
摘要第6-7页
ABSTRACT第7-8页
目录第9-11页
1 引言第11-16页
    1.1 论文背景及意义第11-12页
    1.2 国内外研究现状第12-14页
        1.2.1 中文文本挖掘技术第12-13页
        1.2.2 大数据处理技术第13-14页
    1.3 论文所做的工作第14-16页
2 Web文本挖掘技术及流程第16-35页
    2.1 Web挖掘的分类第16-17页
    2.2 文本预处理第17-21页
        2.2.1 Web网页的获取第18页
        2.2.2 中文分词第18-21页
    2.3 文本表示第21-23页
        2.3.1 向量空间模型第21-22页
        2.3.2 权值计算公式第22-23页
        2.3.3 相似度计算公式第23页
    2.4 特征提取第23-26页
        2.4.1 特征词的文档频率(DF)第23-24页
        2.4.2 信息增益方法(IG)第24页
        2.4.3 互信息方法(MI)第24-25页
        2.4.4 x2统计量(CHI)第25-26页
    2.5 经典的分类算法第26-33页
        2.5.1 KNN分类器第27-28页
        2.5.2 支持向量机第28-31页
        2.5.3 决策树算法第31-33页
    2.6 Web文本挖掘的一般流程第33-35页
3 朴素贝叶斯分类器及其改进算法第35-44页
    3.1 贝叶斯分类器的种类及其特点第35页
    3.2 几种贝叶斯分类器的原理第35-39页
        3.2.1 朴素贝叶斯文本分类器第35-37页
        3.2.2 贝叶斯网络分类器第37-38页
        3.2.3 TAN分类器第38-39页
    3.3 基于特征加权的朴素贝叶斯分类器的改进第39-42页
    3.4 分类器的评价标准第42-43页
    3.5 总结第43-44页
4 Web文本挖掘关键技术在大数据下的研究第44-55页
    4.1 Hadoop框架第44-46页
        4.1.1 Hadoop平台概述第44页
        4.1.2 HDFS第44-46页
    4.2. MapReduce工作原理分析第46-49页
    4.3 分布式爬虫Nutch第49-52页
        4.3.1 Nutch爬虫第49-51页
        4.3.2 Nutch中的MapReuce算法第51-52页
    4.4 特征提取的分布式实现第52-53页
    4.5 总结第53-55页
5 Hadoop环境下改进朴素贝叶斯分类器的实现第55-69页
    5.1 Hadoop平台的搭建第55-58页
    5.2 数据的获取第58-59页
    5.3 中文的分词第59-60页
    5.4 改进朴素贝叶斯分类的实现第60-66页
    5.5 实验结果分析第66-69页
6 总结和展望第69-71页
    6.1 论文总结第69页
    6.2 展望第69-71页
参考文献第71-74页
作者简历及攻读硕士学位期间取得的研究成果第74-76页
学位论文数据集第76页

论文共76页,点击 下载论文
上一篇:无线传感器网络动态覆盖优化问题的研究
下一篇:卡特福德翻译转换理论在航空航天英语汉译中的应用