摘要 | 第1-6页 |
ABSTRACT | 第6-11页 |
第一章 绪论 | 第11-18页 |
·选题背景与研究意义 | 第11-12页 |
·国内外研究现状 | 第12-16页 |
·本文研究内容与组织结构 | 第16-18页 |
第二章 相关技术基础 | 第18-29页 |
·网络爬虫 | 第18-19页 |
·HTML 标签树 | 第19-21页 |
·XML 简介 | 第21-22页 |
·通用网页正文提取技术 | 第22-23页 |
·网页聚类 | 第23-26页 |
·相似性计算 | 第23-25页 |
·加权余弦相似性 | 第23-24页 |
·树编辑距离 | 第24-25页 |
·网页聚类技术 | 第25-26页 |
·信息熵 | 第26-27页 |
·正则表达式 | 第27-28页 |
·本章小结 | 第28-29页 |
第三章 系统中关键技术的实现 | 第29-54页 |
·网页聚类方法 | 第29-36页 |
·自动生成模板 | 第36-53页 |
·模板表示 | 第37-38页 |
·模板生成流程 | 第38-53页 |
·自动下载网页 | 第39页 |
·生成 HTML 标签树 | 第39-40页 |
·数据区域确定 | 第40-43页 |
·数据项路径确定 | 第43-51页 |
·存储匹配模板 | 第51-53页 |
·本章小结 | 第53-54页 |
第四章 舆情系统中 Web 信息抽取子系统总体设计 | 第54-62页 |
·舆情系统简介 | 第54-56页 |
·总体处理流程 | 第54页 |
·总体结构 | 第54-56页 |
·开发环境 | 第56页 |
·Web 信息抽取子系统总体设计 | 第56-61页 |
·Web 信息抽取总体结构设计 | 第56-58页 |
·Web 信息抽取流程 | 第58-60页 |
·数据库设计 | 第60-61页 |
·本章小结 | 第61-62页 |
第五章 Web 信息抽取子系统功能模块设计与实现 | 第62-84页 |
·URL 分类 | 第62-63页 |
·URL 获取 | 第62页 |
·URL 分类 | 第62-63页 |
·新闻博客类抽取 | 第63-67页 |
·通用行块分布函数实现 | 第64-65页 |
·其他数据项抽取 | 第65-67页 |
·发布时间 | 第65-66页 |
·标题 | 第66-67页 |
·论坛类抽取 | 第67-73页 |
·论坛抽取整体流程 | 第67-71页 |
·模板优化 | 第71-73页 |
·微博类抽取 | 第73-80页 |
·微博抽取整体流程 | 第73-74页 |
·微博模拟自动登录 | 第74-78页 |
·微博数据项抽取 | 第78-80页 |
·数据库实现 | 第80-83页 |
·本章小结 | 第83-84页 |
第六章 测试与分析 | 第84-94页 |
·网页聚类测试 | 第84-85页 |
·Web 信息抽取实验结果 | 第85-88页 |
·Web 信息抽取评价标准 | 第88-93页 |
·本章小结 | 第93-94页 |
第七章 总结与展望 | 第94-96页 |
·总结 | 第94页 |
·展望 | 第94-96页 |
致谢 | 第96-98页 |
参考文献 | 第98-102页 |
攻硕期间取得的研究成果 | 第102-103页 |