首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网络信息采集技术及中文未登录词算法研究

摘要第1-5页
ABSTRACT第5-7页
目录第7-9页
第一章 绪论第9-13页
   ·课题背景及意义第9-10页
   ·研究主要工作第10-11页
   ·课题主要研究成果第11-12页
   ·论文组织结构第12-13页
第二章 研究现状综述第13-17页
   ·Web采集研究现状综述第13-15页
     ·网络爬虫研究现状综述第13-14页
     ·信息抽取研究现状综述第14-15页
   ·未登录词识别研究现状综述第15-17页
第三章 网络爬虫技术设计及实现第17-41页
   ·设计目标第17页
   ·专有名词介绍第17-18页
   ·网络论坛爬虫第18-30页
     ·设计要求第18-19页
     ·爬虫结构设计第19-20页
     ·爬虫核心流程详细设计第20-21页
     ·爬虫任务队列详细设计第21-23页
     ·爬虫抓取模块详细设计第23-25页
     ·爬虫解析模块详细设计第25-30页
   ·门户及博客爬虫第30-34页
     ·设计要求第30-31页
     ·爬虫核心流程详细设计第31-32页
     ·爬虫解析模块详细设计第32-34页
   ·微博爬虫第34-35页
   ·局域网全网爬虫第35-41页
     ·爬虫流程设计第35-36页
     ·爬虫详细设计第36-37页
     ·网页判断器第37-39页
     ·网页包装器及URL查找器第39页
     ·URL判断器第39-40页
     ·爬虫去重器第40-41页
第四章 基于极大团的未登录词识别研究第41-53页
   ·未登录词定义第41页
   ·N-grams模型第41-42页
   ·生成噪音词典第42页
   ·词激活力相关概念第42-43页
   ·基于词激活力的倾向性算法实现第43页
   ·生成基于距的词共现矩阵第43-44页
   ·基于距离字词相关性矩阵第44-46页
   ·基于关联规则生成连通图第46-48页
   ·基于极大团发现准未登录词第48-50页
   ·准未登录词跟踪第50-53页
第五章:实验分析第53-57页
   ·Web采集实验分析第53-55页
     ·微博爬虫第54页
     ·局域网全网爬虫第54-55页
   ·未登录词识别实验分析第55-57页
第六章:总结展望第57-59页
   ·论文工作总结第57页
   ·未来工作展望第57-59页
参考文献第59-61页
致谢第61-62页
攻读学位期间发表或已录用的学术论文第62页

论文共62页,点击 下载论文
上一篇:论坛用户行为分析及文本表示模型研究
下一篇:思想文化视域下的知识分子叙事研究(1978-1993)