情感分析—传统情感分类方法

1.导语

情感分类是情感分析技术的核心问题,其目标是判断评论中的情感取向,按区分情感的粒度可分为两种分类问题:
1)正/负(positive/negative)二分类或者正面/负面/中立(positive/negative/neutral)三分类。
2)多元分类,如对新闻评论进行“乐观”、“悲伤”、“愤怒”、“惊讶”四元情感分类,对商品评论进行1星~5星五元情感分类等。

2.主流的情感分类方法分类

按技术路线分为5类:
1)基于词典的方法
2)基于机器学习的方法
3)词典与机器学习混合的方法
4)基于弱标注信息的方法
5)基于深度学习的方法

2.1 基于词典(Lexicon-based)的情感分类方法

基于词典方法的核心模式是“词典+规则”,即以情感词典作为判断情感极性的主要依据,同时兼顾评论数据中的句法结构,设计相应的判断规则(如but从句与主句情感极性相反)
基于词典的情感分类方法本质上依赖于情感词典和判断规则的质量,而两者都需要人工设计。因此这类方法的优劣很大程度上取决于人工设计和先验知识,推广能力较差。

2.2 基于机器学习的情感分类方法

基于机器学习技术的情感分类研究工作:
1)特征工程是此类研究工作的核心。情感分类任务中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、Part-of-Speech(POS)特征、句法特征、TF-IDF特征等,但是该方法依赖人工设计,受人为因素影响,推广能力差,在某一领域表现优秀的特征不一定在其他领域也表现优秀
2)基于机器学习的情感分类方法多使用经典分类模型如支持向量机、朴素贝叶斯、最大熵模型等,其中多数分类模型的性能依赖于标注数据集的质量,而获取高质量的标注数据需要耗费大量的人工成本。

2.3 词典与机器学习混合的情感分类方法

这种混合的思路有两种:
1)将“词典+规则”视为简单的分类器,然后融合多种不同分类器进行情感分类
2)将词典信息作为一种特征与现有特征(句法特征、POS特征等)进行结合,然后选择最优的特征组合进行情感分类。

2.4 基于弱标注信息的情感分类方法

从用户产生的数据中挖掘有助于训练情感分类器的信息,如评论的评分、微博中的表情符号等。由于互联网用户的“标注”行为没有统一标准,具有较大的随意性,所以将这种标注信息称为弱标注信息。

2.5 基于深度学习的情感分类方法

针对情感分类问题的机器学习方法有两个步骤:
1)从海量评论语料中学习出语义词向量
2)通过不同的语义合成方法用词向量得到所对应句子或文档的特征表达。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注