首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

舆情系统中web信息抽取子系统的设计与实现

摘要第1-6页
ABSTRACT第6-11页
第一章 绪论第11-18页
   ·选题背景与研究意义第11-12页
   ·国内外研究现状第12-16页
   ·本文研究内容与组织结构第16-18页
第二章 相关技术基础第18-29页
   ·网络爬虫第18-19页
   ·HTML 标签树第19-21页
   ·XML 简介第21-22页
   ·通用网页正文提取技术第22-23页
   ·网页聚类第23-26页
     ·相似性计算第23-25页
       ·加权余弦相似性第23-24页
       ·树编辑距离第24-25页
     ·网页聚类技术第25-26页
   ·信息熵第26-27页
   ·正则表达式第27-28页
   ·本章小结第28-29页
第三章 系统中关键技术的实现第29-54页
   ·网页聚类方法第29-36页
   ·自动生成模板第36-53页
     ·模板表示第37-38页
     ·模板生成流程第38-53页
       ·自动下载网页第39页
       ·生成 HTML 标签树第39-40页
       ·数据区域确定第40-43页
       ·数据项路径确定第43-51页
       ·存储匹配模板第51-53页
   ·本章小结第53-54页
第四章 舆情系统中 Web 信息抽取子系统总体设计第54-62页
   ·舆情系统简介第54-56页
     ·总体处理流程第54页
     ·总体结构第54-56页
     ·开发环境第56页
   ·Web 信息抽取子系统总体设计第56-61页
     ·Web 信息抽取总体结构设计第56-58页
     ·Web 信息抽取流程第58-60页
     ·数据库设计第60-61页
   ·本章小结第61-62页
第五章 Web 信息抽取子系统功能模块设计与实现第62-84页
   ·URL 分类第62-63页
     ·URL 获取第62页
     ·URL 分类第62-63页
   ·新闻博客类抽取第63-67页
     ·通用行块分布函数实现第64-65页
     ·其他数据项抽取第65-67页
       ·发布时间第65-66页
       ·标题第66-67页
   ·论坛类抽取第67-73页
     ·论坛抽取整体流程第67-71页
     ·模板优化第71-73页
   ·微博类抽取第73-80页
     ·微博抽取整体流程第73-74页
     ·微博模拟自动登录第74-78页
     ·微博数据项抽取第78-80页
   ·数据库实现第80-83页
   ·本章小结第83-84页
第六章 测试与分析第84-94页
   ·网页聚类测试第84-85页
   ·Web 信息抽取实验结果第85-88页
   ·Web 信息抽取评价标准第88-93页
   ·本章小结第93-94页
第七章 总结与展望第94-96页
   ·总结第94页
   ·展望第94-96页
致谢第96-98页
参考文献第98-102页
攻硕期间取得的研究成果第102-103页

论文共103页,点击 下载论文
上一篇:基于二维条码图像的光照均衡VLSI设计
下一篇:监理公司人力资源管理系统的设计与实现