网络论坛采集及热点话题发现研究

摘要	第1-6页
abstract	第6-7页
目录	第7-10页
图目录	第10-11页
表目录	第11-12页
第一章引言	第12-16页
·选题背景	第12-13页
·开展本课题的研究意义	第13-14页
·研究问题及内容	第14页
·论坛采集	第14页
·热点话题发现	第14页
·本文的组织结构	第14-16页
第二章相关研究	第16-22页
·网络论坛采集	第16-18页
·通用网页采集策略	第16-17页
·主题采集	第17页
·Deep Web数据采集	第17页
·论坛数据采集	第17-18页
·网络论坛热点话题发现	第18-21页
·本章小结	第21-22页
第三章 Web信息采集基础	第22-28页
·万维网(Web)简介	第22-25页
·Web的基本术语	第22-23页
·万维网标准	第23页
·万维网的组成	第23-24页
·万维网的工作原理	第24-25页
·Web采集	第25-27页
·采集的功能	第25页
·采集	第25-26页
·采集器架构	第26-27页
·本章小结	第27-28页
第四章基于结构驱动的网络论坛采集路径研究	第28-38页
·研究背景	第28-29页
·论坛采集面临的困难	第28-29页
·相关工作	第29页
·系统框架	第29-31页
·问题定义	第29-30页
·系统框架设计	第30-31页
·基于结构驱动的论坛采集路径	第31-35页
·网页结构聚类	第31-32页
·根据URL及锚文本聚类	第32-33页
·内容重复检测	第33页
·有效信息检测	第33页
·翻页识别	第33-34页
·最优采集路径选择	第34-35页
·实验结果及分析	第35-36页
·本章小结	第36-38页
第五章网络论坛采集框架设计与实现	第38-50页
·大规模论坛采集关键问题研究	第38-39页
·DNS解析	第38页
·页面的并发采集	第38-39页
·页面分析及并发处理	第39页
·防止重复URL采集	第39页
·应对站点防采集	第39页
·论坛采集系统设计与实现	第39-44页
·采集库libCURL介绍	第40-41页
·非阻塞muiti模式采集	第41页
·多线程页面分析处理模式	第41-43页
·防止重复URL采集模块	第43-44页
·防采集模块	第44页
·应用分布式框架进行采集	第44-48页
·分布式框架简介	第44-47页
·分布式采集应用	第47-48页
·本章小结	第48-50页
第六章基于网络论坛采集的热点话题发现系统	第50-60页
·研究背景及相关工作	第51-52页
·热点主题词提取	第52-54页
·基于词典的主题词提取	第52页
·基于局部性有意串识别的新词发现	第52-53页
·候选主题词的多级过滤	第53-54页
·多特征融合的主题词权重计算	第54页
·基于主题词的热点话题发现算法	第54-56页
·多特征选择及预处理	第54-55页
·算法设计	第55-56页
·实验结果及分析	第56-58页
·实验设计	第56-58页
·本章小结	第58-60页
第七章结束语	第60-62页
·本文工作总结	第60页
·下一步研究方向	第60-62页
参考文献	第62-65页
致谢	第65-67页
作者简历	第67页