首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Web文本挖掘若干关键问题研究及其在机电产品在线评测中的应用

摘要第5-6页
Abstract第6页
第1章 绪论第9-17页
    1.1 研究背景第10-12页
        1.1.1 网页正文提取第10-11页
        1.1.2 网络新词识别第11-12页
        1.1.3 产品特征提取第12页
    1.2 研究现状第12-15页
        1.2.1 网页正文提取第12-13页
        1.2.2 新词识别第13-14页
        1.2.3 特征聚类第14-15页
    1.3 本文研究内容及意义第15-16页
        1.3.1 研究内容第15页
        1.3.2 研究意义第15-16页
    1.4 本文安排第16-17页
第2章 相关知识第17-24页
    2.1 文本挖掘概念第17页
    2.2 TF-IDF与LDA第17-20页
        2.2.1 TF-IDF简介第17-19页
        2.2.2 LDA简介第19-20页
    2.3 互信息简介第20页
    2.4 关联规则第20-21页
        2.4.1 Apriori算法简介第20-21页
        2.4.2 FP-Growth算法简介第21页
    2.5 《同义词词林》与特征相似度计算第21-23页
        2.5.1 《同义词词林》简介第21-22页
        2.5.2 相似度计算方法第22-23页
    2.6 字符模式匹配第23页
    2.7 本章小结第23-24页
第3章 基于统计的复杂网页正文提取方法第24-36页
    3.1 网页正文提取流程第24页
    3.2 网页信息重构第24-26页
    3.3 文本长度最优阈值第26-28页
    3.4 文本行号区间第28-29页
    3.5 利用公共子序列优化网页正文提取第29-32页
    3.6 实验与分析第32-35页
        3.6.1 文本长度最优阈值的获取第32-34页
        3.6.2 网页正文提取方法评价第34-35页
    3.7 本章小结第35-36页
第4章 基于高频一元词的中文新词识别方法第36-44页
    4.1 本章新词识别方法简介第36页
    4.2 新词识别的基本流程第36页
    4.3 新词识别的准备工作第36-38页
        4.3.1 文本预处理第37页
        4.3.2 生成结构化文本第37-38页
        4.3.3 获取一元词集合第38页
    4.4 新词识别规则——优先与高频N元词结合、仅允许高频一元词扩展第38-41页
    4.5 实验第41-43页
        4.5.1 实验数据第41-42页
        4.5.2 实验环境第42页
        4.5.3 实验结果与分析第42-43页
    4.6 实验软件截图第43页
    4.7 本章小结第43-44页
第5章 在线评论中的产品特征聚类研究第44-50页
    5.1 本章安排第44页
    5.2 产品特征提取第44-45页
    5.3 产品特征聚类第45-47页
        5.3.1 “分配”过程算法描述第45-47页
        5.3.2 “转移”过程算法第47页
        5.3.3 算法复杂度分析第47页
    5.4 实验及分析第47-49页
    5.5 本章小结第49-50页
第6章 WEB文本挖掘若干关键问题研究在机电产品在线评测中的应用第50-56页
    6.1 网页正文提取在机电产品中在线评测中的应用第50-51页
    6.2 基于高频一元词的新词识别在机电产品在线评测中的应用第51-52页
    6.3 产品在线评论中的特征聚类在机电产品在线评测中的应用第52-55页
    6.4 本章小结第55-56页
第7章 总结与展望第56-57页
参考文献第57-62页
致谢第62-63页
攻读学位期间所开展的科研项目和发表的学术论文第63页

论文共63页,点击 下载论文
上一篇:纪录片《素清的城》创作阐述
下一篇:基于前景理论的通勤者出行路径选择行为及风险态度研究