首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

网页主题信息抽取系统设计与实现

摘要第4-5页
Abstract第5页
第1章 绪论第9-16页
    1.1 课题来源及背景第9页
    1.2 项目开发的目的与意义第9-10页
    1.3 与课题相关的国内外现状第10-14页
    1.4 本文的主要研究内容及创新点第14-15页
    1.6 本论文组织结构第15-16页
第2章 相关概念及关键技术第16-23页
    2.1 主题抽取相关概念第16-18页
        2.1.1 HTML第16页
        2.1.2 DOM第16-17页
        2.1.3 XPath第17-18页
    2.2 网页分割技术第18-21页
    2.3 块聚类技术第21-22页
    2.4 本章小结第22-23页
第3章 系统需求和设计第23-37页
    3.1 需求分析第23-26页
        3.1.1 业务需求第23-24页
        3.1.2 功能需求第24-26页
        3.1.3 性能需求第26页
    3.2 系统体系结构设计第26-29页
        3.2.1 搜索引擎体系结构第26-27页
        3.2.2 网页信息抽取系统体系结构设计第27-29页
    3.3 系统功能设计第29-36页
        3.3.1 网页预处理模块设计第30-31页
        3.3.2 网页解析模块设计第31-34页
        3.3.3 网页分析模块设计第34-35页
        3.3.4 网页信息抽取模块设计第35-36页
    3.4 本章小结第36-37页
第4章 系统实现第37-71页
    4.1 引言第37页
    4.2 网页预处理模块实现第37-43页
        4.2.1 文件类型检查第37-39页
        4.2.2 编码识别及转换第39-40页
        4.2.3 语言识别第40-41页
        4.2.4 繁简体识别及转换第41-42页
        4.2.5 脚本抽取及网页清洗第42-43页
    4.3 网页解析模块实现第43-55页
        4.3.1 HTML 解析器第44-50页
        4.3.2 CSS 解析器第50-52页
        4.3.3 Render Engine第52-55页
    4.4 网页分析模块实现第55-64页
        4.4.1 视觉块提取第57-58页
        4.4.2 分隔符探索第58-60页
        4.4.3 内容块构建第60页
        4.4.4 块特征向量计算第60-62页
        4.4.5 块聚类第62-64页
    4.5 主题块抽取模块实现第64-70页
        4.5.1 特殊特征块抽取第64-66页
        4.5.2 聚类质量因子计算第66-67页
        4.5.3 主题块抽取第67页
        4.5.4 主题类输出第67-70页
    4.6 本章小结第70-71页
第5章 系统测试与评估第71-79页
    5.1 测试环境及结果第71-73页
        5.1.1 系统测试环境第71页
        5.1.2 测试及结果分析第71-73页
    5.2 系统评测第73-78页
        5.2.1 评测流程及方法第73-77页
        5.2.2 测试结果及分析第77-78页
    5.3 本章小结第78-79页
结论第79-80页
参考文献第80-85页
致谢第85-86页
个人简历第86页

论文共86页,点击 下载论文
上一篇:沈阳用友软件公司薪酬体系设计与实施
下一篇:大学社会评价多元主体构成的研究