面向领域的文本分类与挖掘关键技术研究

摘要	第1-8页
Abstract	第8-13页
第1章绪论	第13-23页
·研究背景	第13-15页
·文本分类定义	第15页
·文本分类的历史	第15-16页
·文本分类的研究现状	第16-20页
·特征选择与抽取	第17-18页
·分类器组合	第18-19页
·小样本问题	第19页
·层次文本分类	第19-20页
·样本不均衡问题	第20页
·本文的主要研究内容与组织结构	第20-23页
第2章文本分类方法概述	第23-33页
·文本表示的表示与计算	第23-27页
·文本表示的向量空间模型	第23-24页
·文本特征项	第24-25页
·文本特征的权重计算	第25-27页
·分类器	第27-31页
·kNN分类器	第27-28页
·朴素贝叶斯分类器	第28-29页
·最大熵分类器	第29页
·SVM分类器	第29-31页
·文本分类评价体系	第31-33页
第3章文本的独立特征抽取方法	第33-53页
·问题的提出	第33-35页
·独立性定义	第35页
·独立分量分析原理	第35-36页
·ICA的前提假设	第35-36页
·ICA的定义	第36页
·ICA问题求解	第36-42页
·独立分量分析的目标函数	第37-39页
·FastICA算法	第39-42页
·基于ICA技术的文本分类实验	第42-52页
·传统的特征选取方法	第43-45页
·ICA与传统特征选择方法相结合的文本分类算法	第45页
·实验语料	第45页
·评价指标	第45-46页
·实验	第46-52页
·小结	第52-53页
第4章面向政府公文的文本分类技术	第53-69页
·问题的提出	第53-55页
·公文主题词	第54-55页
·语料	第55页
·政府公文主题词的扩充	第55-60页
·Bootstrapping方法	第55-56页
·政府公文主题词空间扩展	第56-58页
·公文主题词扩展实验	第58-60页
·文本特征空间转换技术	第60-62页
·随机关键词产生技术模型	第60-61页
·条件概率的计算	第61-62页
·SKG模型在文本分类中的应用	第62页
·基于KWB模型与SKG模型相结合的公文分类	第62-66页
·基于KWB模型与SKG模型相结合的公文分类	第62-64页
·政府公文分类实验	第64-66页
·小结	第66-69页
第5章基于弱指导学习的实体特征识别和极性分析技术	第69-85页
·问题的提出	第69-71页
·文本句子的主客观分析	第71-77页
·两类训练、两类判别框架	第72页
·三类训练、两类判别框架	第72-73页
·实验	第73-77页
·基于弱指导学习的实体特征识别和极性分析	第77-84页
·实体特征的识别	第78-80页
·关于实体特征观点的极性分析	第80-81页
·实验	第81-84页
·小结	第84-85页
第6章面向专利挖掘的文本分类技术	第85-113页
·问题的提出	第85-86页
·相关背景	第86-88页
·任务描述及任务分析	第88-95页
·任务基本描述	第88页
·任务使用数据	第88-91页
·任务评价方式	第91-92页
·任务的难点分析	第92-94页
·实验数据与实验评价	第94-95页
·基于kNN模型的非专利文档IPC类别标记技术	第95-103页
·文本相似度计算	第96-100页
·Ranking调序算法	第100-103页
·基于系统融合的Re-Ranking技术	第103-111页
·系统融合方法	第103-111页
·NTCIR-7最终评测结果	第111页
·小结	第111-113页
第7章总结	第113-117页
·本文的主要贡献与结论	第113-114页
·进一步的工作	第114-117页
参考文献	第117-127页
致谢	第127-129页
攻博期间发表的论文	第129-131页
攻博期间参与的项目	第131-133页
作者简介	第133页