首页--文化、科学、教育、体育论文--信息与知识传播论文--信息与传播理论论文--传播理论论文

互联网主题信息定向采集研究

摘要第1-7页
ABSTRACT第7-10页
第一章 绪论第10-20页
   ·概述第10-15页
     ·互联网信息资源第10-12页
     ·信息采集技术的发展第12-15页
   ·研究背景与意义第15-17页
   ·研究目标、研究内容和拟解决的关键问题第17页
   ·拟采用的研究方法、技术路线及可行性分析第17-18页
   ·论文组织结构第18-19页
   ·本章小结第19-20页
第二章 相关理论、系统与技术第20-33页
   ·搜索引擎策略分析第20-23页
     ·通用引擎与垂直引擎研究现状第20-22页
     ·通用搜索引擎与垂直搜索引擎策略比较第22-23页
   ·主题信息采集技术第23-26页
     ·采集爬虫技术第23-24页
     ·面向主题的信息采集现状第24-25页
     ·基于内容与基于链接的主题信息采集第25页
     ·其他主题信息采集技术和策略第25-26页
   ·中文自动切分词技术第26-30页
     ·形式分词方法第27-28页
     ·语法分词方法与语义分词方法第28-29页
     ·词性标注第29页
     ·现有中文分词系统第29-30页
   ·大规模文本计算第30-32页
   ·本章小结第32-33页
第三章 互联网主题信息定向采集方案设计第33-40页
   ·互联网主题信息定向采集系统策略选择第33-37页
     ·通用引擎策略与垂直引擎爬虫相结合第33-34页
     ·基于领域的主题词表生成与优化第34页
     ·文本相似度计算算法选择第34-37页
   ·互联网主题信息定向采集系统框架设计第37-39页
     ·系统框架模型及工作流程第37-39页
   ·本章小结第39-40页
第四章 互联网主题信息定向采集若干关键技术第40-56页
   ·采集防屏蔽技术第40-42页
     ·采集防屏蔽策略第40-41页
     ·模拟浏览器登录实现示例第41-42页
   ·网页正文抽取第42-50页
     ·网页正文抽取相关方法研究概述第43-44页
     ·一种基于文本密度的网页正文抽取方法第44-46页
     ·基于文本密度的网页正文抽取的实现算法第46-47页
     ·对基于文本密度的网页正文抽取方法的改进第47-50页
   ·网页去重技术第50-54页
     ·网页URL比对去重第50页
     ·基于内容的去重策略第50-51页
     ·基于内容的去重实现第51-54页
   ·本章小结第54-56页
第五章 互联网主题信息定向采集实例第56-71页
   ·互联网舆情研究第56-62页
     ·互联网舆情研究概述第56-59页
     ·互联网舆情信息处理第59-60页
     ·互联网舆情信息分析第60-62页
   ·互联网侨情信息采集实现第62-69页
     ·侨情领域词表与种子网站确定第63-64页
     ·网络侨情采集系统实现第64-69页
   ·进一步网络信息处理与分析构想第69-70页
   ·本章小结第70-71页
第六章 结束语第71-72页
附录第72-78页
攻读硕士学位期间科研情况第78-79页
参考文献第79-82页
致谢第82页

论文共82页,点击 下载论文
上一篇:中文问答社区信息传播机制研究
下一篇:以大学生为受众的思政信息网络传播对策研究