首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网络论坛采集及热点话题发现研究

摘要第1-6页
abstract第6-7页
目录第7-10页
图目录第10-11页
表目录第11-12页
第一章 引言第12-16页
   ·选题背景第12-13页
   ·开展本课题的研究意义第13-14页
   ·研究问题及内容第14页
     ·论坛采集第14页
     ·热点话题发现第14页
   ·本文的组织结构第14-16页
第二章 相关研究第16-22页
   ·网络论坛采集第16-18页
     ·通用网页采集策略第16-17页
     ·主题采集第17页
     ·Deep Web数据采集第17页
     ·论坛数据采集第17-18页
   ·网络论坛热点话题发现第18-21页
   ·本章小结第21-22页
第三章 Web信息采集基础第22-28页
   ·万维网(Web)简介第22-25页
     ·Web的基本术语第22-23页
     ·万维网标准第23页
     ·万维网的组成第23-24页
     ·万维网的工作原理第24-25页
   ·Web采集第25-27页
     ·采集的功能第25页
     ·采集第25-26页
     ·采集器架构第26-27页
   ·本章小结第27-28页
第四章 基于结构驱动的网络论坛采集路径研究第28-38页
   ·研究背景第28-29页
     ·论坛采集面临的困难第28-29页
     ·相关工作第29页
   ·系统框架第29-31页
     ·问题定义第29-30页
     ·系统框架设计第30-31页
   ·基于结构驱动的论坛采集路径第31-35页
     ·网页结构聚类第31-32页
     ·根据URL及锚文本聚类第32-33页
     ·内容重复检测第33页
     ·有效信息检测第33页
     ·翻页识别第33-34页
     ·最优采集路径选择第34-35页
   ·实验结果及分析第35-36页
   ·本章小结第36-38页
第五章 网络论坛采集框架设计与实现第38-50页
   ·大规模论坛采集关键问题研究第38-39页
     ·DNS解析第38页
     ·页面的并发采集第38-39页
     ·页面分析及并发处理第39页
     ·防止重复URL采集第39页
     ·应对站点防采集第39页
   ·论坛采集系统设计与实现第39-44页
     ·采集库libCURL介绍第40-41页
     ·非阻塞muiti模式采集第41页
     ·多线程页面分析处理模式第41-43页
     ·防止重复URL采集模块第43-44页
     ·防采集模块第44页
   ·应用分布式框架进行采集第44-48页
     ·分布式框架简介第44-47页
     ·分布式采集应用第47-48页
   ·本章小结第48-50页
第六章 基于网络论坛采集的热点话题发现系统第50-60页
   ·研究背景及相关工作第51-52页
   ·热点主题词提取第52-54页
     ·基于词典的主题词提取第52页
     ·基于局部性有意串识别的新词发现第52-53页
     ·候选主题词的多级过滤第53-54页
     ·多特征融合的主题词权重计算第54页
   ·基于主题词的热点话题发现算法第54-56页
     ·多特征选择及预处理第54-55页
     ·算法设计第55-56页
   ·实验结果及分析第56-58页
     ·实验设计第56-58页
   ·本章小结第58-60页
第七章 结束语第60-62页
   ·本文工作总结第60页
   ·下一步研究方向第60-62页
参考文献第62-65页
致谢第65-67页
作者简历第67页

论文共67页,点击 下载论文
上一篇:面向多传感器航空遥感监测系统数据处理方法研究
下一篇:面向网络流识别的正则表达式匹配技术研究