木棉教育新闻平台关键技术的研究与实现

摘要	第1-6页
Abstract	第6-7页
目录	第7-10页
第一章绪论	第10-16页
·互联网海量数据的挑战和机遇	第10-11页
·国内外研究现状	第11-13页
·从信息中获取知识	第11页
·海量文本挖掘案例	第11-13页
·论文的主要内容	第13-14页
·论文主要工作	第13-14页
·论文的术语定义	第14页
·论文的组织结构	第14-16页
第二章相关理论和技术	第16-34页
·信息的采集与提炼	第16-18页
·网页的采集和更新策略	第16-17页
·网页正文信息抽取技术	第17-18页
·文本特征的提取和选择	第18-27页
·中文分词概述	第19页
·中文分词的几种模型	第19-25页
·基于词典和规则的分词模型	第19-21页
·基于词典和 HMM 的分词模型	第21-23页
·基于字标注的分词模型	第23-25页
·中文分词的未登录词问题	第25-26页
·文本特征选择	第26-27页
·文本分类和聚类	第27-32页
·有监督学习、无监督学习、半监督学习	第27-28页
·产生式模型，判别式模型，非参数模型	第28-29页
·NB、KNN 和 SVM 的比较	第29-32页
·文本聚类技术介绍	第32页
·查询扩展技术	第32-33页
·本章小结	第33-34页
第三章系统总体设计	第34-39页
·设计目标	第34页
·新闻聚合平台的框架设计	第34-35页
·新闻聚合平台模块详细设计	第35-38页
·信息采集模块	第35-36页
·文本分类模块	第36-37页
·话题聚类模块	第37-38页
·展现和排序模块	第38页
·本章小结	第38-39页
第四章未登录词典生成算法	第39-55页
·研究目标	第39页
·识别未登录词的可行性	第39-40页
·大规模语料的选择和分析	第40-44页
·语料的选择	第40-41页
·大规模语料的观察结果	第41-44页
·生成未登录词典算法	第44-49页
·获取切分不稳定文本	第44-45页
·从不稳定区域中获取候选词	第45-47页
·未登录词的最终确认	第47-48页
·改进的 Stanford 分词器	第48-49页
·实验设计与分析	第49-53页
·实验目标与环境	第49页
·实验数据	第49-50页
·实验设计与结果分析	第50-53页
·未登录词识别效果	第50-51页
·未登录词词典对于分类效果的影响	第51-53页
·算法分析和比较	第53-54页
·本章小结	第54-55页
第五章训练集自动标注算法	第55-68页
·设计目标	第55页
·自动标注方法的可行性分析	第55-57页
·标注数据的质量指标	第55页
·搜索方法的优点	第55-56页
·适用性与局限性	第56-57页
·自动标注算法的设计	第57-58页
·算法基本假设	第57页
·算法总体框架	第57-58页
·自动标注算法的实现	第58-64页
·基于类名限制的第一算法 LA-1	第58-59页
·基于查询扩展的第二算法 LA-2	第59-64页
·衡量查询和词语的相关度	第60页
·概念的泛指和特指	第60-62页
·构造查询	第62页
·算法的具体描述	第62-64页
·实验设计与分析	第64-66页
·实验目标与环境	第64页
·实验数据	第64页
·实验设计与结果分析	第64-66页
·算法分析	第66-67页
·本章小结	第67-68页
第六章新闻平台系统实现	第68-75页
·总体架构实现	第68页
·模块详细设计与实现	第68-73页
·展示效果	第73-74页
·本章总结	第74-75页
结论	第75-77页
参考文献	第77-81页
攻读硕士学位期间取得的研究成果	第81-82页
致谢	第82页