互联网主题信息定向采集研究

摘要	第1-7页
ABSTRACT	第7-10页
第一章绪论	第10-20页
·概述	第10-15页
·互联网信息资源	第10-12页
·信息采集技术的发展	第12-15页
·研究背景与意义	第15-17页
·研究目标、研究内容和拟解决的关键问题	第17页
·拟采用的研究方法、技术路线及可行性分析	第17-18页
·论文组织结构	第18-19页
·本章小结	第19-20页
第二章相关理论、系统与技术	第20-33页
·搜索引擎策略分析	第20-23页
·通用引擎与垂直引擎研究现状	第20-22页
·通用搜索引擎与垂直搜索引擎策略比较	第22-23页
·主题信息采集技术	第23-26页
·采集爬虫技术	第23-24页
·面向主题的信息采集现状	第24-25页
·基于内容与基于链接的主题信息采集	第25页
·其他主题信息采集技术和策略	第25-26页
·中文自动切分词技术	第26-30页
·形式分词方法	第27-28页
·语法分词方法与语义分词方法	第28-29页
·词性标注	第29页
·现有中文分词系统	第29-30页
·大规模文本计算	第30-32页
·本章小结	第32-33页
第三章互联网主题信息定向采集方案设计	第33-40页
·互联网主题信息定向采集系统策略选择	第33-37页
·通用引擎策略与垂直引擎爬虫相结合	第33-34页
·基于领域的主题词表生成与优化	第34页
·文本相似度计算算法选择	第34-37页
·互联网主题信息定向采集系统框架设计	第37-39页
·系统框架模型及工作流程	第37-39页
·本章小结	第39-40页
第四章互联网主题信息定向采集若干关键技术	第40-56页
·采集防屏蔽技术	第40-42页
·采集防屏蔽策略	第40-41页
·模拟浏览器登录实现示例	第41-42页
·网页正文抽取	第42-50页
·网页正文抽取相关方法研究概述	第43-44页
·一种基于文本密度的网页正文抽取方法	第44-46页
·基于文本密度的网页正文抽取的实现算法	第46-47页
·对基于文本密度的网页正文抽取方法的改进	第47-50页
·网页去重技术	第50-54页
·网页URL比对去重	第50页
·基于内容的去重策略	第50-51页
·基于内容的去重实现	第51-54页
·本章小结	第54-56页
第五章互联网主题信息定向采集实例	第56-71页
·互联网舆情研究	第56-62页
·互联网舆情研究概述	第56-59页
·互联网舆情信息处理	第59-60页
·互联网舆情信息分析	第60-62页
·互联网侨情信息采集实现	第62-69页
·侨情领域词表与种子网站确定	第63-64页
·网络侨情采集系统实现	第64-69页
·进一步网络信息处理与分析构想	第69-70页
·本章小结	第70-71页
第六章结束语	第71-72页
附录	第72-78页
攻读硕士学位期间科研情况	第78-79页
参考文献	第79-82页
致谢	第82页