首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

大规模Web文本快速分类关键技术研究

摘要第5-6页
abstract第6页
第1章 绪论第10-14页
    1.1 课题研究背景第10-11页
    1.2 课题国内外研究现状第11-12页
    1.3 研究内容与组织结构第12-14页
第2章 理论知识与关键技术概述第14-28页
    2.1 引言第14页
    2.2 网页正文文本提取算法第14-17页
        2.2.1 Html页面组成结构的特点第14-15页
        2.2.2 基于去除html标签的正文选取算法第15页
        2.2.3 基于DOM树的正文提取算法第15-16页
        2.2.4 基于视觉区域的正文提取算法第16-17页
    2.3 网页正文相似度计算算法第17-19页
        2.3.1 I-Match算法第17-18页
        2.3.2 Shingling算法第18-19页
        2.3.3 SpotSig算法第19页
    2.4 网页正文文本分类算法第19-25页
        2.4.1 文本分类相关概念第19-20页
        2.4.2 文本分类基本处理流程第20-21页
        2.4.3 文本预处理项目第21页
        2.4.4 经典文本特征选择方法第21-22页
        2.4.5 文本向量化模型第22-23页
        2.4.6 经典文本分类算法第23-25页
    2.5 基于HADOOP的MAPREDUCE并行原理第25-27页
        2.5.1 作业角色第25-26页
        2.5.2 编程模型第26-27页
    2.6 本章小结第27-28页
第3章 基于最长连续串的正文提取算法第28-38页
    3.1 相关定义和概念第28-29页
    3.2 内容提取基本原理第29-31页
    3.3 多正文网页的处理第31-33页
    3.4 实验结果与分析第33-37页
        3.4.1 实验环境第33页
        3.4.2 最大连续子串正文选取算法实验第33-37页
    3.5 本章小结第37-38页
第4章 基于局部有序的SIMHASH去重算法第38-49页
    4.1 引言第38页
    4.2 SIMHASH算法分析第38-40页
    4.3 SIMHASH算法的局部有序改进第40-42页
    4.4 改进SIMHASH算法的并行化第42-44页
    4.5 实验结果与分析第44-48页
        4.5.1 实验环境第44-45页
        4.5.2 局部有序的Simhash算法性能对比实验第45-46页
        4.5.3 局部有序的Simhash算法的并行化实验第46-48页
    4.6 本章小结第48-49页
第5章 基于倒排加速的NB分类并行化算法第49-77页
    5.1 引言第49-50页
    5.2 适用于NB算法的倒排加速结构第50-56页
        5.2.1 倒排索引的结构设计第50-52页
        5.2.2 倒排结构的并行化构建算法第52-56页
    5.3 文本预处理并行化第56-58页
    5.4 文本特征选择并行化第58-60页
    5.5 文本向量表示并行化第60-63页
    5.6 应用倒排加速的NB文本分类算法第63-66页
        5.6.1 NB算法的剪枝优化第63-64页
        5.6.2 应用倒排结构的NB算法及其并行化第64-66页
    5.7 实验结果与分析第66-76页
        5.7.1 实验环境第66页
        5.7.2 倒排索引构建效率实验第66-68页
        5.7.3 倒排索引查询效率实验第68-69页
        5.7.4 倒排索引增量更新实验第69-70页
        5.7.5 文本分类算法对比实验第70-71页
        5.7.6 基于倒排索引的文本分类实验第71-72页
        5.7.7 文本分类剪枝优化实验第72-75页
        5.7.8 文本分类并行化效率实验第75-76页
    5.8 本章小结第76-77页
结论第77-79页
参考文献第79-82页
攻读硕士学位期间发表的论文和取得的科研成果第82-83页
致谢第83页

论文共83页,点击 下载论文
上一篇:基于SVM的抄袭检测研究
下一篇:面向服务可用性的组合加速压力评测机制研究