首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

木棉教育新闻平台关键技术的研究与实现

摘要第1-6页
Abstract第6-7页
目录第7-10页
第一章 绪论第10-16页
   ·互联网海量数据的挑战和机遇第10-11页
   ·国内外研究现状第11-13页
     ·从信息中获取知识第11页
     ·海量文本挖掘案例第11-13页
   ·论文的主要内容第13-14页
     ·论文主要工作第13-14页
     ·论文的术语定义第14页
   ·论文的组织结构第14-16页
第二章 相关理论和技术第16-34页
   ·信息的采集与提炼第16-18页
     ·网页的采集和更新策略第16-17页
     ·网页正文信息抽取技术第17-18页
   ·文本特征的提取和选择第18-27页
     ·中文分词概述第19页
     ·中文分词的几种模型第19-25页
       ·基于词典和规则的分词模型第19-21页
       ·基于词典和 HMM 的分词模型第21-23页
       ·基于字标注的分词模型第23-25页
     ·中文分词的未登录词问题第25-26页
     ·文本特征选择第26-27页
   ·文本分类和聚类第27-32页
     ·有监督学习、无监督学习、半监督学习第27-28页
     ·产生式模型,判别式模型,非参数模型第28-29页
     ·NB、KNN 和 SVM 的比较第29-32页
     ·文本聚类技术介绍第32页
   ·查询扩展技术第32-33页
   ·本章小结第33-34页
第三章 系统总体设计第34-39页
   ·设计目标第34页
   ·新闻聚合平台的框架设计第34-35页
   ·新闻聚合平台模块详细设计第35-38页
     ·信息采集模块第35-36页
     ·文本分类模块第36-37页
     ·话题聚类模块第37-38页
     ·展现和排序模块第38页
   ·本章小结第38-39页
第四章 未登录词典生成算法第39-55页
   ·研究目标第39页
   ·识别未登录词的可行性第39-40页
   ·大规模语料的选择和分析第40-44页
     ·语料的选择第40-41页
     ·大规模语料的观察结果第41-44页
   ·生成未登录词典算法第44-49页
     ·获取切分不稳定文本第44-45页
     ·从不稳定区域中获取候选词第45-47页
     ·未登录词的最终确认第47-48页
     ·改进的 Stanford 分词器第48-49页
   ·实验设计与分析第49-53页
     ·实验目标与环境第49页
     ·实验数据第49-50页
     ·实验设计与结果分析第50-53页
       ·未登录词识别效果第50-51页
       ·未登录词词典对于分类效果的影响第51-53页
   ·算法分析和比较第53-54页
   ·本章小结第54-55页
第五章 训练集自动标注算法第55-68页
   ·设计目标第55页
   ·自动标注方法的可行性分析第55-57页
     ·标注数据的质量指标第55页
     ·搜索方法的优点第55-56页
     ·适用性与局限性第56-57页
   ·自动标注算法的设计第57-58页
     ·算法基本假设第57页
     ·算法总体框架第57-58页
   ·自动标注算法的实现第58-64页
     ·基于类名限制的第一算法 LA-1第58-59页
     ·基于查询扩展的第二算法 LA-2第59-64页
       ·衡量查询和词语的相关度第60页
       ·概念的泛指和特指第60-62页
       ·构造查询第62页
       ·算法的具体描述第62-64页
   ·实验设计与分析第64-66页
     ·实验目标与环境第64页
     ·实验数据第64页
     ·实验设计与结果分析第64-66页
   ·算法分析第66-67页
   ·本章小结第67-68页
第六章 新闻平台系统实现第68-75页
   ·总体架构实现第68页
   ·模块详细设计与实现第68-73页
   ·展示效果第73-74页
   ·本章总结第74-75页
结论第75-77页
参考文献第77-81页
攻读硕士学位期间取得的研究成果第81-82页
致谢第82页

论文共82页,点击 下载论文
上一篇:放电等离子烧结—热变形技术制备NdFeB永磁材料
下一篇:购物网站互动性对消费者冲动性购买的影响研究