基于Web内容挖掘的医药类广告监控系统的实现

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-15页
·课题研究背景	第10页
·选题意义	第10-11页
·研究现状	第11-14页
·Web 内容挖掘研究现状	第11-13页
·广告监测系统研究现状	第13-14页
·本文研究内容	第14-15页
第2章网页的自动获取及内容抽取	第15-30页
·网络数据获取	第15-18页
·单机版爬虫组成模块	第15-17页
·分布式爬虫的URL 管理	第17页
·爬取策略	第17-18页
·网页信息提取	第18-27页
·HTML 结构	第18-20页
·基于HtmlCleaner 的网页提取	第20-22页
·网上药房的信息提取	第22-24页
·医药类推广广告的信息提取	第24-27页
·网页信息提取实验	第27-28页
·本章小结	第28-30页
第3章网页分类	第30-52页
·引言	第30页
·网页分类	第30-43页
·分词及停用词过滤	第31-32页
·特征选择	第32-35页
·文本表示模型	第35-37页
·分类算法	第37-43页
·分类系统设计	第43-51页
·网页提取模块	第43-44页
·特征向量生成模块	第44-47页
·分类算法实现模块	第47-50页
·分类实验	第50-51页
·本章小结	第51-52页
第4章系统实现	第52-65页
·系统框架	第52-53页
·分布式系统	第53-57页
·分布式系统的概念和特点	第53-54页
·基于QuickServer 架构服务器	第54-56页
·通信协议	第56-57页
·业务管理模块	第57-60页
·待监测网站管理	第57-58页
·敏感信息库管理	第58-59页
·商标库管理	第59-60页
·广告采集平台	第60-61页
·广告内容分析平台	第61-64页
·本章小结	第64-65页
总结	第65-66页
参考文献	第66-69页
攻读硕士学位期间发表的学术论文	第69-70页
致谢	第70页