首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于关键词的垃圾网页判别研究

摘要第4-5页
ABSTRACT第5页
第1章 绪论第8-18页
    1.1 课题来源及研究的目的和意义第8-10页
        1.1.1 课题来源第8-9页
        1.1.2 课题研究的目的和意义第9-10页
    1.2 国内外在该方向的研究现状及分析第10-15页
        1.2.1 垃圾网页概述第10-12页
        1.2.2 网页解析研究现状第12-13页
        1.2.3 垃圾网页过滤研究现状第13-15页
        1.2.4 研究现状分析第15页
    1.3 本文主要研究内容及论文结构第15-18页
        1.3.1 主要内容第15-16页
        1.3.2 论文结构第16-18页
第2章 网页内容解析方法研究第18-32页
    2.1 网页结构分析第18-20页
        2.1.1 页面的结构特点及其表示第18-20页
        2.1.2 基于HTML标签的页面结构分析第20页
    2.2 网页内容提取方法设计第20-26页
        2.2.1 网页内容提取原理第20-22页
        2.2.2 页面结构标准化算法设计第22-23页
        2.2.3 标签树构建算法设计第23-25页
        2.2.4 网页内容提取方法实现第25-26页
    2.3 网页内容文本的切分方法设计第26-30页
        2.3.1 正向定长词语切分方法第26-27页
        2.3.2 词语获取规则第27-29页
        2.3.3 复合词组合算法第29-30页
    2.4 本章小结第30-32页
第3章 垃圾网页判别方法研究第32-41页
    3.1 垃圾网页特征分析第32-35页
        3.1.1 滥发关键词第32-33页
        3.1.2 滥发链接第33-34页
        3.1.3 内容杂乱第34-35页
    3.2 构建判别指标第35-39页
        3.2.1 网页维度指标第35-37页
        3.2.2 文本维度指标第37-38页
        3.2.3 链接维度指标第38-39页
    3.3 统计判别方法第39-40页
        3.3.1 FISHER判别法第39页
        3.3.2 LOGISTIC回归第39-40页
        3.3.3 贝叶斯判别第40页
    3.4 本章小结第40-41页
第4章 数据验证及结果分析第41-52页
    4.1 数据收集第41-45页
        4.1.1 数据源和数据量第41-42页
        4.1.2 数据结构第42-43页
        4.1.3 数据处理第43-45页
    4.2 指标体系判别方法可行性分析第45-49页
        4.2.1 FISHER判别法第45-47页
        4.2.2 LOGISTIC回归第47-48页
        4.2.3 贝叶斯判别第48-49页
    4.3 指标体系判别方法实用性分析第49-51页
        4.3.1 定义判别指标第49-50页
        4.3.2 统计判别结果第50-51页
    4.4 本章小结第51-52页
结论第52-54页
参考文献第54-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:龙江银行报表数据处理及报送系统的设计与实现
下一篇:基于灰度的视觉有效性研究与参数优化