首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于内容单元的网页解析与内容提取

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-19页
   ·课题背景第9页
   ·课题的目的及意义第9-11页
   ·国内外相关技术发展现状第11-17页
     ·搜索引擎技术研究现状第11-14页
     ·网页处理技术研究现状第14-17页
   ·本文主要研究内容第17-19页
第2章 网页处理相关技术介绍第19-32页
   ·引言第19页
   ·网页的表示第19-25页
     ·超文本标记语言HTML第19-22页
     ·文档对象模型 DOM第22-23页
     ·网页字符编码第23-25页
   ·网页分块方法第25-28页
     ·利用标记分布规律进行分块第25-26页
     ·利用标记布局特性进行分块第26-27页
     ·利用页面视觉特征进行分块第27-28页
   ·SEWM评测任务第28-30页
   ·本章小结第30-32页
第3章 基于内容单元的网页解析第32-43页
   ·引言第32页
   ·内容单元的定义第32-33页
   ·内容单元的类别第33-36页
   ·内容单元解析的实现第36-42页
     ·DOM解析工具及改进第36-38页
     ·URL的语法解析第38-39页
     ·内容单元的识别第39-42页
   ·本章小结第42-43页
第4章 网页内容提取第43-51页
   ·引言第43页
   ·网页类型判断第43-46页
     ·网页特征分析第43-45页
     ·判定规则第45-46页
   ·基于规则的正文提取第46-47页
   ·网页信息抽取第47-50页
   ·本章小结第50-51页
第5章 Inar搜索引擎预处理模块的设计与实现第51-59页
   ·引言第51页
   ·数据规模及组织形式第51-52页
   ·网页字符编码预处理第52-56页
     ·编码识别第52-54页
     ·编码转换第54-56页
   ·并行净化程序第56-58页
   ·本章小结第58-59页
第6章 系统性能评测第59-68页
   ·引言第59页
   ·实验环境第59-60页
   ·功能测试第60-65页
     ·主题型网页识别实验第60-62页
     ·网页正文提取实验第62-65页
   ·应用测试第65-66页
   ·效率测试第66-67页
   ·本章小结第67-68页
结论第68-69页
参考文献第69-72页
攻读学位期间发表的学术论文第72-75页
致谢第75页

论文共75页,点击 下载论文
上一篇:基于状态迁移的入侵场景检测系统
下一篇:基于P2P即时通讯系统的研究