Blog检索中的关键问题研究

摘要	第1-5页
ABSTRACT	第5-8页
第一章绪论	第8-14页
·研究背景及意义	第8-9页
·网页分析技术的研究现状	第9-11页
·网页分析	第9-10页
·全站模板抽取	第10页
·网页内容块抽取	第10页
·基于视觉信息的信息抽取	第10-11页
·文本情感分析技术的研究现状	第11-13页
·主客观分类	第11页
·词的极性分类	第11-12页
·基于情感词标注的文本情感分析	第12页
·基于机器学习的文本情感分析	第12-13页
·本文的工作及内容安排	第13-14页
第二章基于网页分析的Blog文本抽取	第14-28页
·引言	第14-15页
·网页分析的相关技术概念	第15-16页
·DOM	第15页
·SAX	第15-16页
·CSS	第16页
·网页分析系统的主要任务	第16-19页
·HTML标签去除	第16-17页
·语种识别	第17页
·Spam检测	第17-18页
·正文抽取	第18-19页
·HTML文本信息抽取算法研究	第19-28页
·非英语文档过滤算法	第19-20页
·HTML标签对齐算法	第20-21页
·网页文本抽取算法	第21-22页
·网页文档分割算法	第22-24页
·Spam检测算法	第24-25页
·Blog网页的正文抽取算法	第25-28页
第三章基于统计模型的文本情感分析	第28-41页
·引言	第28-29页
·基于统计模型的文本分类技术	第29-30页
·文本的表示和向量空间模型	第29-30页
·特征抽取	第30页
·特征选择	第30页
·权重计算	第30页
·分类模型	第30-33页
·朴素贝叶斯模型	第31-32页
·最大熵模型	第32-33页
·特征选择和权值计算	第33-37页
·N-Gram	第33-34页
·Unigram及其权重计算	第34-36页
·词性	第36页
·否定词	第36-37页
·同义词扩展	第37页
·实验	第37-41页
·数据集与工具包	第38页
·语言特征选择方法的对比	第38-41页
第四章 Blog观点检索系统	第41-50页
·引言	第41页
·TREC Blog评测介绍	第41-44页
·评测历史及发展现状	第41-42页
·评测数据、任务与相关技术指标	第42-44页
·Blog观点检索系统设计与评测	第44-50页
·Bolg主题检索系统	第44-49页
·基于情感分类的Blog观点检索系统	第49-50页
第五章总结与展望	第50-52页
·工作总结	第50页
·需要进一步解决的工作	第50-52页
参考文献	第52-63页
致谢	第63-64页
攻读学位期间发表的学术论文	第64页