舆情系统中web信息抽取子系统的设计与实现

摘要	第1-6页
ABSTRACT	第6-11页
第一章绪论	第11-18页
·选题背景与研究意义	第11-12页
·国内外研究现状	第12-16页
·本文研究内容与组织结构	第16-18页
第二章相关技术基础	第18-29页
·网络爬虫	第18-19页
·HTML 标签树	第19-21页
·XML 简介	第21-22页
·通用网页正文提取技术	第22-23页
·网页聚类	第23-26页
·相似性计算	第23-25页
·加权余弦相似性	第23-24页
·树编辑距离	第24-25页
·网页聚类技术	第25-26页
·信息熵	第26-27页
·正则表达式	第27-28页
·本章小结	第28-29页
第三章系统中关键技术的实现	第29-54页
·网页聚类方法	第29-36页
·自动生成模板	第36-53页
·模板表示	第37-38页
·模板生成流程	第38-53页
·自动下载网页	第39页
·生成 HTML 标签树	第39-40页
·数据区域确定	第40-43页
·数据项路径确定	第43-51页
·存储匹配模板	第51-53页
·本章小结	第53-54页
第四章舆情系统中 Web 信息抽取子系统总体设计	第54-62页
·舆情系统简介	第54-56页
·总体处理流程	第54页
·总体结构	第54-56页
·开发环境	第56页
·Web 信息抽取子系统总体设计	第56-61页
·Web 信息抽取总体结构设计	第56-58页
·Web 信息抽取流程	第58-60页
·数据库设计	第60-61页
·本章小结	第61-62页
第五章 Web 信息抽取子系统功能模块设计与实现	第62-84页
·URL 分类	第62-63页
·URL 获取	第62页
·URL 分类	第62-63页
·新闻博客类抽取	第63-67页
·通用行块分布函数实现	第64-65页
·其他数据项抽取	第65-67页
·发布时间	第65-66页
·标题	第66-67页
·论坛类抽取	第67-73页
·论坛抽取整体流程	第67-71页
·模板优化	第71-73页
·微博类抽取	第73-80页
·微博抽取整体流程	第73-74页
·微博模拟自动登录	第74-78页
·微博数据项抽取	第78-80页
·数据库实现	第80-83页
·本章小结	第83-84页
第六章测试与分析	第84-94页
·网页聚类测试	第84-85页
·Web 信息抽取实验结果	第85-88页
·Web 信息抽取评价标准	第88-93页
·本章小结	第93-94页
第七章总结与展望	第94-96页
·总结	第94页
·展望	第94-96页
致谢	第96-98页
参考文献	第98-102页
攻硕期间取得的研究成果	第102-103页