14
中中 王王王 ,, , 王王 200092王王王王王王王王王王王 。,,,。, 、、、、 CRF王SVM王 6王王王王王 王王 王王王王王 ,,,、 F王王王 王王王王王 王 王王王王王王王王王王王王王王王 。、、、、 7王王王3646王王王 王王王 6王王王 。,王王 王王王王王王王王王 体统 ;;;, 王王王王王王王王王王王王王王王王王王王王王王王王 TP18 A 0 王王 王王王王Sentiment analysis 王王王 “王 ”王 “王 “王王”王王“王王” 王王王 王王王王王王王王王王王王王王王王王王王王王王 王王王王王王王 ),, ,。 王王 ,。 王王王王王王王王王王王王王王王王 :( 1 王王王王王王王王王王王王 。,,。, ;( 2 王王王王王 )。,,, CRFHMM 王王 SVM 王王王王王 王王王 王王王王王王王王王王王 王王王王王王 王王王王王 王王王王王 王王王王王王王王王王王王王王王王 王王王 王王王王王王王王王王王王王 统一 ,。,,。, 1 王王王王 1.1 王 王 王王王王 王王王王王王王王王王王王王王王王 、、 [1] 王 王王王王王王王王王王王王王王王王王王 [2-4] 王 王王王 王 。, [5,6] 王王王王王王王王王王王 。,,。,,体,、、,。 王王王王王王王王王王王 [2,7] 王王王王王王王王王王王 王王王王王“ 王王王王王王王” 王王王王王 王王王王王王王王王王王王王王 王王王王王王王王王王 ,,。 王王王王王王王王王王王王王王王王王王 王王王王王王王 王王王王王王王王王王王王王王王王王王 ,一 [3,8] 王王王王 。,,。 [9] 王王王王王王王王王 。体 [10,11] 王王 Web 王王王王王王王 王王王王王 王 [14-16] 王王 。, 5王王 CP + with + NP” CP”王 王 “ 体, NP”王 王 mattress with cover” 王王王王王王王 王 withonofin王 王 王 王 ,。,。 王王王王王王王王王王王王王王王王王王王王王 王王王 王王王王王王王王王王王王王王王王王王王王王 王王王王王王王王王 王王王王王王 王王王 王王王王王 王王 。,,一,、、、 王王 王王王王王王王王 王王王王王王王王王王王王王王王王王王王王 ,、、、、 [4] 王王王王王王王王王王王王王王 。,,。,:;,。,,,。, [17] [18] 王 王 王王王王王王王王王王王王王王王王王王王王王 ,( PMI ), TF-IDF 王王王 王王王王王王王王王王王 [19- 21] 王“ 。: of xx” xx has” xx comes with”王 xx 王 “王 。体-王 ”王 王 “王 -王 ”王 王 王 王王王王王王 王王王王王王 王王 ()体 王王王王王 。,,, [22] 1.2 王王王王王王王王王王王王王 王王王王王王 。,,。, [23] 王王王王王 ,。,,, [24] 王王王王王王王王王王王王王王 王王王王王王王王王王王王王 [25] 王王王王王王王王王王王王王王王王王王王 王王王王王王王王王 王王王王王 王王王王王王王王王 。, 一 , 体。(CRF[26] 王王王王王王王王王王王王王王王王 王王王王王王王王王王王 王王王王王王王王王王王 王王王王王王王王 王王王王王王王王王王王王王 王 王王王 ,。,一体, 王王王王 SVM 王王王王王王王王王王王王王 [32-37] SVM 王王王王王王王王王王王王王王 [38] SVM王王王王王 王王王 ,, [39,40] SVM王王王王王王王王 王王王 :。,SVM 王王王王王王SVM王王王王王王王王王王王 王王王王王王王王王 王 ,,,。,,。 SVM 王王王王王王王王 [41,42] 王王王王王王王王王王王王王 王王王王王王王王王王王王王王王王王王王王王 王王王王王 王王王王王王王王王 王王王王王 王王 王 王王王王王王王王王王王王王王王 ,。,、、体、 2014-07-25 2015-03-30 王王王王王王王王王王王王 709710997137114471402121 王王 );一(2013BGL004)。 王王 1982-),王王王王 ,,,:, E-mail: [email protected] 。( 1973-)(中中中中 王王王王王王王王 ),,,,,,:体, E-mail: [email protected] 。(1979- 王王王王王 ),,,:,E-mail: [email protected]

or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

  • Upload
    vandien

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

中文在线评论的产品特征与观点识别:跨领域的比较

王伟,王洪伟,盛小宝(同济大学经济与管理学院, 上海 200092)

摘要:产品特征及观点的识别是细粒度情感分析的重要任务。但是,现有识别算法对中文语境下不同评论领域的适应性尚无定论,算法的鲁棒性也不理想,难以实现跨领域的算法移植。为此,选取词频统计方法、规则匹配、关联规则挖掘、具有句法格式的关联规则、CRF 和 SVM 等 6 种代表性的识别算法,结合中文在线评论的语言特点,对上述算法引入到中文评论的文本分析中,根据准确率、召回率和 F 值指标,分析比较统计方法和机器学习方法在产品特征及观点识别上的性能。选择数码相机评论、化妆品评论 、书评、酒店评论、影评、手机评论和餐厅评论 7 类语料 3646 条评论,分别采用 6 种算法进行产品特征和观点的抽取。实验表明,不同领域下的特征抽取难度是存在差异的;不同算法适应于不同领域;评论的文本长度对识别准确率和召回率有显著影响;另外,总体上机器学习的算法性能显著高于统计学方法。

关键字:在线评论;中文语境;产品特征;观点识别;情感分析中图分类号:TP18 文献标识码:A 文章编号:

0 引言情感分析(Sentiment analysis)是利用文本挖掘技术,对在线评论进行分析,旨在识别用户的情感趋

向是“高兴”还是“伤悲”,或判断用户的观点是“赞同”还是“反对”。通常,用户会借助在线评论对产品的各种特征发表意见。有效识别产品特征及对应观点,是提高用户意见分类准确性的关键。

有两类产品特征及其观点的识别算法:(1)基于统计的方法。原理简单,成本较低,但是需要人工制定和调整规则。在不规则的评论语料下,系统的健壮性和可移植性不能得到保证;( 2)基于机器学习的方法。准确性较高,但是需要人工标注训练语料,成本较高,代表性算法有 CRF、HMM 以及 SVM 等。

各种算法的性能及其适用范围,尚无定论。特别是,算法的鲁棒性及可移植性,都不尽理想。究其原因,是缺乏基于统一的有代表性语料的跨领域对比研究。另外,现有算法大多基于英文语境,由于语言结构的差异,针对英文的识别算法不能直接应用于中文评论。为此,针对多领域语料的多方法比较,识别不同算法在不同领域中文评论中的性能差异,以解决产品特征及观点抽取算法的健壮性和领域适应性问题。1 文献综述1.1 基于统计的特征挖掘算法

基于统计的特征挖掘算法包括以下几类:基于词性统计、基于语法结构、基于语言形态学等[1]。基于词性统计的方法假设特证词都是名词。这个假设被非监督特征挖掘算法所采纳 [2-4]。因此,最朴

素的方法就是统计语料中频繁出现的名词或名词组合,这类词代表了候选产品特征并以此为模式识别产品特征[5,6]。但是,这类方法容易产生较多无关特征,同时容易丢失非频繁产品特征。另外,对于英文评论,还需要处理词汇变体,例如复数、现在分词、过去式等,而中文语境不存在这个问题。

基于规则的特征挖掘算法 [2,7]根据构成句子的词汇规则,提取类似于“形容词修饰名词”的句法结构 ,被修饰的名词为候选产品特征,形容词则为特征观点。这种方法并没有区分频繁特征和非频繁特征,后来收稿日期:2014-07-25 修回日期:2015-03-30 基金项目:国家自然科学基金资助项目( 70971099,71371144,71402121);上海市哲学社会科学规划课题一般项目(2013BGL004)。作者简介:王伟(1982-),男,重庆,博士研究生,研究方向:商务智能与情感计算,E-mail: [email protected]。王洪伟(1973-)(通讯作者),男,大连,教授,博导,博士,研究方向:社交媒体与情感计算, E-mail: [email protected]。盛小宝(1979-)男,江苏,博士研究生,研究方向:商务智能与情感计算,E-mail: [email protected]

Page 2: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

的改进之一是依据关联规则挖掘算法来识别产品特征[3,8]。基本思路是人们通常使用相同的词来描述产品特征,因此频繁名词项更有可能是产品特征,而非频繁名词项则不太可能是产品特征。然后采用频繁项集挖掘算法[9]进行紧凑剪枝和冗余剪枝。基于本体的算法也采用了类似的模式[10,11],根据 Web 语义识别产品特征以及用户观点[12]。类似的,混合识别模式也被用来识别观点词和背景词之间的关系[13]。

基于规则的算法大多忽视了语言的使用习惯,因此有研究提出具有语法格式的关联规则挖掘算法 [14-

16]。根据英语使用习惯,把英文语法规则提取为 5 类,例如“CP + with + NP”,其中“CP”代表整体概念词,“NP”代表部分特证词,典型的例子有“mattress with cover”。由于中文没有类似 with、on、of、in 等连词,我们不能直接使用这种带有语法格式的关联规则挖掘算法。受此启发,提出中文语境下特征挖掘的语法规则。

研究者还提出需要少量人工参与的特征挖掘算法。例如,通过挖掘影评中频繁关键词来识别两类特征项,一类与电影元素有关,如屏幕效果、剧情、视觉效果、音乐、特效等;另一类与电影人物有关,如出品人、导演、演员、舞台总监、创作人等 [4]。该方法以固定的关键词列表作为搜索的逻辑起点,再借助依赖语法结构,识别频繁产品特征。因此,初始关键词列表对特征挖掘影响较大:初始列表太大会导致较高的准确率和较低的召回率;相反,太小会导致较低的准确率和较高的召回率。更重要的是,每个领域的关键词并不相同,因此这种方法实际上是领域独立的,在实际中应用较少。另外,在评论文本中考虑句子模式有助于提高算法的性能[17],句法依赖结构也会显著影响观点词识别[18]。

另一种少量人工参与的算法是指定产品分类,然后计算类别指示词与候选特征词的点互信息(PMI),或通过 TF-IDF来确定一个名词是否为产品特征词 [19-21]。例如:“of xx”、“xx has”、“xx

comes with”中 xx 代表产品类别。该算法应用基于“整体-部分”关系的特征搜索算法,但并不是通过机器学习来挖掘“整体-部分”关系,而是通过统计(如网页查询)得到基于整体部分关系的特征模型。另外,在中文文本分类中,也有学者尝试过基于互联网查询的情感分类,并验证了其实用性[22]。1.2 基于机器学习的特征挖掘算法

基于机器学习的特征挖掘通常采用监督学习。首先人工标注部分语料作为训练集,经过训练得到模型参数,然后对测试集进行测试。应用机器学习进行产品特征识别,通常需要考虑句子结构 [23],生成候选特征标注集。为了降低模型复杂度,通常只把名词标注为候选特征,形容词为候选特征观点,剩余的其他所有词均标注为无关背景词[24]。

隐马尔可夫模型基于两个假设:独立输出假设和马尔科夫假设 [25]。独立输出假设要求序列数据严格相互独立,这在语言处理中是一个强假设,因为语言成分是相互依赖的实体。条件随机场(CRF)[26]采用概率图模型来代替独立输出假设,更加符合语言使用规则。不同于隐马尔可夫模型,条件随机场作为一种无向图模型包含了依赖实体,因此普遍认为对评论要素的识别上,它具有较大的伸缩性和优势。有研究者采用条件随机场来提取在线评论中的产品特征 [27-29],但是这些研究集中在文本层次的观点识别上,并且缺乏足够的比较。少数研究深入到产品特征的提取上 [28,30],证实了英文语境下 CRF优于隐马尔可夫模型。由于人工标注语料耗时费力,有研究提出了自标注方法 [30,31],即人工标注部分语料,然后采用已经标注的语料对模型迭代训练。采用训练得到的参数对全部测试集进行测试,当得到的结果大于置信度阙值时,把该结果加入训练集。重复此过程,直到达到满足要求的训练集比例为止。

有研究把 SVM 应用于在线评论中的观点分类 [32-37],发现 SVM 在情感分析中取得较高的准确率 [38]。这是因为 SVM 通过迭代把数据向高维空间映射,实现特征项降维,这对高维文本分类非常有效[39,40]。

SVM将问题分为两类:线性可分和线性不可分。前者通过对偶问题的凸优化来解决,而 SVM 重点解决后者。SVM 借助核函数,数据由低维空间映射到高维空间,并反复向高维空间迭代,直到原始空间中线性不可分问题能够线性可分。因此,核函数需要在保证计算量和精度的前提下,对原始数据进行非线性扩展。已有研究比较了不同核函数对 SVM 分类精确度的影响[41,42]。

对于产品特征及其观点的提取,在线评论的特征项选择会影响最终的分类结果。研究发现,不同语料对于语种、写作风格、文体、句法和内容区分度上的敏感度是不同的[43],这需要在实验中设置。1.3 研究评述

Page 3: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

学者不断尝试各种方法来识别在线评论的产品特征及其观点,但仍存在以下不足:(1)缺少在代表性的语料库上进行跨领域的对比分析,无法客观评价算法性能,其鲁棒性及可移植性也不能保证;( 2)大多数研究面向英文评论,由于语法结构的差异,现有算法难以适应中文语境下的产品特征提取。这导致针对中文语料的多算法性能对比依然薄弱 [30,44];(3)适合中文在线评论情感分析的语料库建设,包括领域选取、标注原则与方法,还处在起步阶段。

综合文献回顾,提出以下问题:(1)基于英文语境中产品特征及观点的识别规则,提出中文在线评论产品特征及其观点的抽取方法;(2)提出领域选取原则及标注方法,构建多领域中文在线评论的语料库;(3)根据准确率、召回率和 F 值,对多个算法的性能进行对比,以评价算法跨领域的鲁棒性及可移植性。2 特征挖掘算法2.1 基于词频统计的特征挖掘算法

基于词频统计的特征挖掘认为文档中频繁出现的词是对文档内容很好的指示,然后采用 TF-IDF[45]度量相对重要的特证词 [21,46]。本文关注的是中文语境下的特征抽取,而不是特证词重要度识别,因此只按照词频进行统计,并保留词频大于阙值的名词作为候选产品特征,修饰名词的形容词为候选特征观点。2.2 基于规则的特征挖掘算法

针对英文评论,研究者提出 5 种特征挖掘规则[2],见表 1。其中,JJ 表示形容词,NN 表示名词,RB 代表副词,VB 是代表动词[47]。

表 1.英文在线评论特征抽取规则序号 第 1 个单词 第 2 个单词 第 3 个单词

1 JJ NN or NNS Anything

2 RB,RBR or RBS JJ Not NN nor NNS

3 JJ JJ Not NN nor NNS

4 NN or NNS JJ Not NN nor NNS

5 RB,RBR or RBS VB,VBD,VBN or VBG Anything

表 1 的特征抽取规则在英文评论中取得了不错的效果,但中文并没有比较级、最高级、过去式、过去分词、现在分词等语法,因此该规则并不能用于中文特征抽取。我们归纳了常见的中文语法结构,提出中文在线评论的特征抽取规则,见表 2。首先进行中文分词和词性标注,每个词都被标注为名词(NN),形容词(JJ)等。词性标注采用 ICTPOS 词性标记集[48]。ICTPOS 是比较全面的细粒度标注集,参考了北京大学汉语词性标记集、清华大学汉语词性标记集以及教育部语用所词性标记集。 ICTPOS 包括名词(n)、动词(v)等 22 类标记,每一类还包含了子类,如名词分为人名(nr)、地名(ns)、机构团体名(nt))、其他专名(nz)、名词性惯用语(nl)、名词性语素(ng)等 6 个子类,适合本文细粒度产品特征挖掘任务。

表 2.中文在线评论特征抽取规则序号 第 1 个词 第 2 个词 第 3 个词 例句

1 形容词(a) 名词(n) 高清镜头2 形容词(a) 助词(/ude1/ude2/ude3) 名词(n) 干净的房间3 名词(n) 形容词(a) 颜色耀眼4 名词(n) 动词(v) 形容词(a) 窗帘是坏的5 名词(n) 副词(d) 形容词(a) 照片有点模糊6 名词(n) 副词(d)+ 动词(v) 形容词(a) 海鲜还是新鲜的

满足表 2 规则中的名词,都列为候选产品特征。如果出现连续名词,即名词序列,例如:“不错的相机镜头”,则抽取最后面的名词。因为根据汉语语法,连续名词的重点是后面的名词,例如:“书包拉

Page 4: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

链”、“手机屏幕”、“电脑内存”、“书籍封面”等。2.3 关联规则挖掘算法

关联规则算法通常用来挖掘频繁项集[9]。在本文中,项集是指频繁出现的一组词或者短语集合,其基本理论是支持度与置信度。

关联规则算法描述为:以 I={i1, i2, …, in}表示项的集合,in 为项;D={d1 , d2 ,……,dm}为事务文件, 任何事务 文件都 是项集 I 的 一 个子集。 关 联 规 则 可 以 实 现 一 种 X →Y 的映射,并要求X⊂ I ,Y⊂ I,且X⋂Y=∅。D 的支持度 s 是指D中至少有 s%的事务满足X∪Y ;置信度 c 是指D中至少有 c%的事务既支持 X,也支持 Y。关联规则的目标就是在 D 中识别出所有满足最小支持度和最小置信度的事务。

根据关联规则,首先识别评论中的频繁特征项 [3]。英文语境下,0.1 的支持度可以覆盖 90%以上的特证词[4],因此最低支持度通常设为 0.1[3,30]。由于语言差异,中文语境下,需要通过实验确定支持度阙值。后续实验将比较支持度阙值对不同领域的中文特征抽取的影响。

在产品特征和观点挖掘中,构成句子的词被认为是项,关联规则是在所有项中挖掘频繁出现的模式。与基于规则的挖掘算法一样,关联规则也基于一个假设:产品特征一般是名词或名词词组;评价这些特征的观点词是形容词[2,3]。产品特征分为频繁特征和非频繁特征,关联规则主要关注的是频繁特征挖掘。具体来说,中文语境下的关联规则挖掘算法如下:对评论文本分词,并进行词性标注。抽取所有名词作为事务文件,采用 Aprior 算法[9]剪枝,频繁项集作为候选产品特征。关联规则算法从较大规模的数据集开始,当一个名词或连续名词项不在候选产品特征列表时,该名词被加入到新产品特征中。重复此过程,直到没有新的频繁项集被挖掘出来。2.4 具有语法格式的关联规则挖掘算法

关联规则只考虑了频繁规则下的产品特征挖掘,却没有考虑事务是否符合语法规则。鉴于此,有研究提出英文语境下具有语法格式的关联规则挖掘算法 [14,15],并把语法规则归纳为 5 种模式,见表 3。其中NP 指代名词的部分(候选特征),CP 代表总体概念词。

表 3.英文语境下评论特征提取的语法格式序号 语法格式 例子

1 NP + Prep + CP Battery of the camera

2 CP + with +NP Mattress with a cover

3 NP CP or CP NP Mattress pad

4 CP Verb NP The phone has a big screen

5 “no” pattern No noise

中文没有“of”、“in”、“on”、“with”。“的”、“地”、“得”等助词的用法也与英文差异较大 。因此,根据中文习惯,结合英文语法格式,提出中文语境下具有语法格式的关联规则算法,见表 4。

表 4.中文产品特征提取的语法规则序号 语法规则 例子

1 整体(n)+助词(ude*)+部分(n) 相机的电池不耐用;汽车的排量较大;餐馆的饭菜还行2 整体(n)+部分(n) 或 部分(n)+整体(n) 相机电池刚够用吧;汽车排量太小3 整体(n)+动词(v)+部分(n) 酒店拥有大房间;相机具有高清镜头4 否定(没有|还有|不是|是|不能)+部分(n) 没有热水;不能自动升级;还有空调;不是美食满足表 4 中的任一规则,均为候选特征与候选特征观点。例如“汽车的排量较大”,经分词和词性

标注,结果为“汽车/n”+“的/ude1”+“排量/n”+“较/d”+“大/a”。其中,“汽车/n”+“的/ude1”+“排量/n”满足整体(n)+助词(ude*)+部分(n)模式,因此“排量”被抽取为产品特征,而修饰排量的形容词“大”被抽取为特征观点。

本文提出的抽取语法规则具有一定的通用性,因为几乎所有领域的评论都遵循相似的语法规则,这

Page 5: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

些语法规则均可在不同领域下完成特征抽取任务。2.5 基于条件随机场的产品特征挖掘算法

在产品特征识别中,马尔可夫模型要求序列数据严格相互独立才能保证推导的正确性。然而,在产品特征和观点的识别中,构成句子的词大多具有较强的依赖关系,难以表示成一系列独立的事件。针对这种情况,条件随机场(CRF)采用概率图来避免这种强假设。CRF 具有长距离依赖性和交叠性特征,能够较好的解决标注偏置,而且所有特征都可以由归一化得到全局最优解。

CRF 基于无向图的概率分布[26],其定义为:对于图形 G=(V, E),令 X 为待标注的目标序列,在本文中代表构成评论的词的组合,令Y=¿为 G 的满足马尔可夫属性的随机变量标注集,本文中指对一个句子各个部分可能的特征标注(即哪一个词是产品特征),则(X, Y)构成一个条件随机场,因此该问题可以描述为条件概率形式:

P ( y|x )= 1Z (X )∏i∈ N

∅ i( y i , x i) (1)其中,Z ( X )=∑

y∏i∈N

( y i , xi)是对序列 X 的归一化因子,∅ i( y i , xi)定义为以下形式:∅ i ( yi , x i)=exp (∑k

λk f k( y i, x i)) (2)因此,与马尔可夫模型类似,问题转化为求解公式(3)中函数的最大值。

Y=arg maxy

P ( y∨x) (3)CRF 的学习和训练比较繁琐,已有方法采用状态转移结构进行学习,用 L-BFGS[49]算法进行训练。我们提出采用 CRF 算法进行中文产品特征的抽取,这可以看作是中文词汇的序列标注问题。首先进

行中文分词和词性标注,然后采用一定比例的训练集来训练模型,最后对测试集进行测试。2.6 基于支持向量机的产品特征挖掘算法

支持向量机(SVM)分为线性可分和线性不可分两类问题[50]。线性可分问题是寻找超平面的优化问题,以使样本到达超平面的距离最大化。公式(4)展示了最大化超平面的计算方法。

MAX margin=d+¿+d−¿= 2

¿∨W ∨¿¿¿ (4)

其中,d+和 d-分别为分割的超平面距离正例与负例的距离;W 为超平面的法向量;¿∨W∨¿表示W 的距离范数,可以采用欧式距离计算。

对于线性不可分问题,SVM 分为训练阶段和测试阶段。在训练阶段,寻找一个超平面w,使w不但能区分训练集,还能使训练集的区分度越大越好。寻找超平面是一个约束优化问题,即假设 cj={-1,0,1}

(分别代表负面、中性和正面情感)代表了对文本 dj 的预设分类,则约束优化问题可表示为公式(5)。w=∑

jα jc j d j , α j ≥ 0 (5)

其中,α j表示对原问题对偶问题的最优解;d j代表α j值大于 0 的d j向量,称为支持向量,因为只有α j>0时,d j才对w有正向贡献。

在测试阶段,采用训练好的模型在测试集上进行分割,以确定测试数据落在超平面 w的哪一边,公式(6)展示了最终的分类决策准则。

∑i=1

n

yi α i<Φ (x i )×Φ ( x )>+b (6)其中,运算符Φ表示将数据从输入空间x映射到另外一个空间;x i为输入空间x的第i个样本向量;

Page 6: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

y i为训练集中的分类表示;运算符¿Φ (x i ) ×Φ ( x )>¿表示计算Φ (x i )

和Φ ( x )的点积;b为度量偏置。我们提出的基于 SVM 的中文产品特征抽取算法,可以视为线性不可分问题。因为众多的中文词汇和

语法规则下,很难找到一个线性准则把一个词抽取为产品特征或者特征观点。因此,SVM 在中文产品特征的抽取上,计算量较大,需要反复迭代。3 实验设计3.1 实验语料及预处理

语料的选取遵循以下原则:(1)与日常生活密切相关的领域,避免冷门行业。冷门行业由于评论并不广泛,评价指标容易受到少数带偏见评论的影响;(2)在线评论会影响用户消费意愿的领域,避免刚性需求行业(例如:医疗、住房等),因为这类行业中的在线评论对用户的消费意愿影响并不大,在线评论的价值并不能充分体现;(3)领域语料的选择,需要同时兼顾生活类服务(例如:餐厅、酒店)以及文艺娱乐类评论(例如:影评、书评);(4)选取来自不同网站的语料,尽可能保证来源多样性;(5)为了客观地评价算法,除了必要的预处理(例如:删除广告评论),不对语料再加工。这会造成准确率和召回率偏低,但能够真实模拟实际情况;(6)避免同一用户的多条语料。由于能够观察到发布者的用户名,为了保证评测不被少数用户习惯影响,来自每个用户的评论最多选择 1 条。

根据上述标准,实验语料来自 7 个领域,分别是:数码相机评论(亚马逊)、化妆品评论(亚马逊)、书评(亚马逊)、餐厅评论(口碑网)、影评(豆瓣网)、手机评论(京东)、酒店评论(去哪儿)。采用爬虫随机抓取并保存到数据库,然后进行以下预处理:规范化、文字清洗、分句、分词、词性标注等。

多领域在线评论的语料库构建上,总结出以下原则。由于经验所限,其合理性有待进一步验证。(1)尽量不对原始语料进行过滤。由于多领域在线评论产品特征和观点的抽取是一项实用的课题,如

果只挑选适合算法处理的语料,势必会造成实验结果好实际效果差,难以客观地评价算法性能。因此,对原始语料只进行少量必要的过滤,见原则(4)。

(2)中文否定词的特殊处理。英文有“no”、“not”等直接指示否定的词,中文否定词却具有不同的使用方法,例如:“这款数码相机镜头表现真是不俗”。如果按照英文语料的标注原则,其特征观点应该为“俗”,这会引起歧义。在这里,“不俗”意味着“还可以”,“不”与“俗”是不可分割的词汇。因此,对于中文语料库,这类语料的观点均抽取为“不俗”。类似地,还有“不错”、“不够”等。但是,当否定词修饰意义明确的观点词时,观点词不应该包含否定词,例如:“软件功能不完善”,特征观点抽取为“完善”。

(3)组合词的处理。组合词分 2 种情况:a)特征组合词,例如“相机镜头”、“小说情节”、“景点门票”,统一抽取后面的名词作为特征词,即“镜头”、“情节”、“门票”为特征词,这符合中文使用习惯,最后出现的特征往往是用户表达的重点; b)观点组合词,例如“酒店房间干净整洁”,观点“干净整洁”是不可分割。对于观点组合词,应保留原始观点。因此,特征词和观点词分别为:“房间”和“干净整洁”。

(4)广告以及垃圾语料的处理。尽可能少对原始语料库进行处理,只对广告和垃圾语料进行筛选。例如:“快速办证,请找******”,这类广告语料需要剔除。

评论类别和数量等统计信息,如表 5所示。表 5.评论的类别和数量等统计信息表

序号 类别 评论数量 平均长度 词语数量 唯一词语 特征词数量 名词数量 观点词数量 形容词数量1 数码相机评论 534 169.383 49851 5023 207 602 218 205

2 化妆品评论 516 132.3542 40674 4410 152 485 203 211

3 书评 512 146.2406 42958 5133 200 757 218 265

Page 7: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

4 酒店评论 532 106.4967 34083 3071 216 522 184 187

5 影评 525 863.0088 241811 14424 470 2357 497 688

6 手机评论 508 26.9485 8016 841 57 126 54 58

7 餐厅评论 519 330.7394 94074 6705 359 1054 290 300

合计 3646 254.7175 511467 39607 1257 3912 1087 1013

从表 5看出,手机评论最短,每条评论平均为 27 个汉字;而影评最长,达到 863 个汉字。这反映了用户的评论习惯:手机的产品特征少,用户通常对外观、速度、屏幕等特征进行评价;而电影涉及的特征多,从剧情到特效、音乐、演员等,可评价的特征广泛。评论平均长度为 255 个汉字。从词语数量来看,影评的词汇数量最多,达到 2418811 个词,由 14424 个不同的词语构成。其次是餐厅评论,由 94074 个词构成,涉及 6705 个不同的词语。用词最少、最单一的是手机评论,仅 841 个不同的词语构成了 508 条手机评论。从特征词和观点词数量来看,影评和餐厅评论的特征词和观点词位居前两位。这是由于电影和餐厅涉及较多的特征方面,评论广度较大。而数码相机、化妆品、书籍和酒店的特征词数量和观点词基本持平。手机评论的观点词和特征词最少,508 条手机评论中只用了 57 个特征词以及 54 个观点词。3.2 标注说明

对评论的特征词和观点词进行人工标注,只标注 3 类实体:背景词、特征词和观点词,如表 6所示。表 6.三类标注说明

序号 类别 标注符号 说明1 背景词 <BG>……</BG> 除了特征词和观点词以外的其他所有词语均视为背景词。2 特征词 <FEATURE>……</

FEATURE>

对特征的定义遵循 Jin & Ho et al.[31]的定义,即产品部件、功能及其属性均视为特征。例如:数码相机的取景器、对焦、重量等。

3 观点词 <OPINION>……</OPINION> 对特征词表达的观点、态度等主观判断词汇。采用 ICTCLAS[51]系统分词,然后对评论语料进行人工标注。使用 Linux操作系统,MySQL 数据库,

把分词和词性标注后的词语保存到数据库;借助 PHP脚本语言构建在线评论标注系统,通过Apache把标注系统的界面以 B/S 方式呈献给标注者。

文[31]将产品特征定义为产品部件、功能及其属性。特征观点是指对特征词表达的观点、态度等主观判断词汇。邀请 5位领域专家参与标注。首先向标注者说明标注的方法和原则,以及标注系统界面的使用 。5位专家随后对一批测试语料试标注,根据试标注结果的差异解决标注者认知的偏差,形成一致的标注标准。最后,将每条评论随机分配给 2位不同的标注者。当标注结果相同时,把标注结果保存到数据库;当结果不同时,把语料指派给第 3位专家,然后选择多数一致的标注结果。为了降低标注误差,每标注 100

条后,有 2位检查人员独立地对已标注的结果进行检查,分析讨论前期的标注结果,调整标注原则。表 7 的例子给出了分词、标注以及特征转化的详细过程。

表 7.标注以及特征转化的例子步骤 步骤说明 处理结果

1 评论原文 宾馆的设施有点陈旧,地理位置不错,服务人员态度比较好,总体来说性价比很高。

2 分句处理宾馆的设施有点陈旧地理位置不错服务人员态度比较好总体来说性价比很高

3 分词处理宾馆 的 设施 有点 陈旧地理 位置 不错服务 人员 态度 比较 好总体 来 说 性价比 很 高

4 词性标注 宾馆 /n 的 /ude 设施 /n 有点 /d 陈旧 /a

Page 8: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

预处理

采集评论评论清洗(广告评论,无意义字符

等)

标注 人工标注特征观

点对

自动分词,词性标注

机器学习方法

统 计方法定义学习

环境 训练模型 测试集结果定义统计

算法最优化阙

值语料标注结果

评 测算法

准确率 / 召回率 /F 值等

地理 /n 位置 /n 不错 /a服务 /n 人员 /n 态度 /n 比较 /d 好 /a总体 /n 来 /vf 说 /v 性价比 /n 很 /d 高 /a

5 特征标注

<BG>宾馆 /n</BG> <BG>的 /ude</BG> <FEATURE>设施 /n</FEATURE> <BG>有点 /d</BG>

<OPINION>陈旧 /a</OPINION>

<BG>地理 /n</BG> <FEATURE>位置 /n</FEATURE> <OPINION>不错 /a</OPINION>

<BG>服务 /n</BG> <BG>人员 /n<BG> <OPINION>态度 /n<OPINION> <BG>比较 /d</BG>

<OPINION>好 /a</OPINION>

<BG>总体 /n</BG> <BG>来 /vf</BG> <BG>说 /v</BG> <FEATURE>性价比 /n</FEATURE> <BG>

很 /d</BG> <OPINION>高 a</OPINION>

3.3 实验环境及算法实现本文关注显式产品特征和特征观点,因此不考虑隐式产品特征。采用 python编写算法 1至算法 4。算

法 5 和算法 6 分别修改已有研究成果实现[52,53]。机器学习算法还有一个特殊设置:词在句子中的位置信息。将表 7 的结果进行分割,每词占一行,

词语的顺序严格按照词语在句子中的出现次序。每句话之后留一个空行,代表句子结束标识。算法处理的基本流程见图 1。

机器学习采用交叉验证(N=8),即把语料随机分为 8份,选取其中 7份作为训练集,剩余 1份为测试集。每次使用不同的测试集,重复 8次实验,取 8次实验的平均值为结果。测试结果采用准确率、召回率和 F 值进行对比。

图 1.本文算法的基本流程4 实验结果4.1 词频统计的特征观点识别结果

研究表明,当词频支持度为 1%时,可以识别约 90%的产品特证[4]。但这是基于英文语料的实验结果,在中文语料中,首先需要确定词频阙值。表 8 显示了不同词频阙值下,特征识别的准确率和召回率统计。

表 8.基于词频统计的识别结果类别 词频阙值 特征识别 观点识别

准确率 召回率 F1 准确率 召回率 F1

Page 9: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

数码相机0.5% 0.744 0.450 0.560 0.522 0.431 0.472

1% 0.881 0.285 0.431 0.519 0.257 0.344

1.5% 0.925 0.179 0.300 0.614 0.161 0.255

化妆品0.5% 0.600 0.592 0.596 0.485 0.493 0.489

1% 0.781 0.329 0.463 0.531 0.256 0.346

1.5% 0.851 0.263 0.402 0.581 0.212 0.310

书评0.5% 0.694 0.215 0.328 0.483 0.193 0.275

1% 0.900 0.135 0.235 0.500 0.092 0.155

1.5% 0.933 0.070 0.130 0.552 0.073 0.130

酒店评论0.5% 0.822 0.343 0.484 0.563 0.386 0.458

1% 0.875 0.259 0.400 0.562 0.272 0.366

1.5% 0.951 0.181 0.304 0.537 0.158 0.244

影评0.5% 0.534 0.440 0.483 0.403 0.356 0.378

1% 0.686 0.270 0.388 0.410 0.183 0.253

1.5% 0.757 0.172 0.281 0.369 0.097 0.153

手机评论0.5% 0.661 0.649 0.655 0.321 0.463 0.379

1% 0.694 0.439 0.538 0.408 0.370 0.388

1.5% 0.750 0.316 0.444 0.472 0.315 0.378

餐厅评论0.5% 0.734 0.393 0.512 0.550 0.366 0.439

1% 0.825 0.223 0.351 0.598 0.221 0.322

1.5% 0.898 0.148 0.254 0.618 0.162 0.257

从表 8看出,所有评论类别,随着词频阙值的上升,特征和观点识别的准确率上升,但是召回率下降速度大于准确率上升幅度,导致 F 值下降。总体来说,对中文评论而言,当词频阙值为 0.5%时,能够得到最佳效果。这与英文语境下的词频阙值有显著差异,英文语境下支持度为 1%时能够得到最佳识别效果。

不同类别的评论,识别率差异较大。对特征识别而言,酒店特征的准确率最高,达到 82%,召回率34%,F 值 48%;而影评的准确率最低,仅为 53%,召回率 44%,F 值 48%。与特征识别相联系的观点识别呈现出不同的趋势,酒店评论观点提取准确率最高,达到 56%,召回率 39%,F 值 46%;而手机评论的观点识别效果最差,准确率仅为 32%。这可能是由于手机评论普遍较短,导致一些不是特征观点的形容词也能以较高的词频出现,典型的这类形容词有:吃惊、合理、犹豫、踏实、忐忑等。这类用户描述心理行为的词汇以较高的频率出现,影响了基于词频统计的观点词识别效果。

从总体上讲,基于词频统计的特征观点识别具有较大的可提升空间。4.2 基于规则的特征挖掘算法

基于规则的挖掘算法,按照表 2所示的语法格式进行模式匹配,满足任何一个预定义模式,均抽取为特征观点对。表 9展示了该算法的识别结果。

表 9.基于规则的特征挖掘算法识别结果类别 特征识别 观点识别

准确率 召回率 F1 准确率 召回率 F1

数码相机 0.675 0.493 0.570 0.685 0.349 0.462

化妆品 0.621 0.592 0.606 0.703 0.443 0.544

书评 0.649 0.500 0.565 0.594 0.390 0.471

酒店评论 0.764 0.569 0.653 0.761 0.467 0.579

影评 0.486 0.583 0.530 0.508 0.437 0.470

Page 10: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

手机评论 0.919 0.596 0.723 0.813 0.481 0.605

餐厅评论 0.650 0.532 0.585 0.716 0.417 0.527

从表 9看到,基于规则的挖掘算法与基于词频的方法得到的结果存在较大的差异。对于手机评论,特征识别的准确率最高,达到 92%,召回率 60%,F 值 72%,远远领先于其他类别的评论。这可能是由于手机的产品特征比较单一,手机评论也普遍较短,在有限的特征词汇和评论长度下,用户的评论使用习惯趋于一致。类似的,在观点识别上,手机评论的效果也最好,准确率达到 82%,召回率 48%,F 值 60%。而影评的特征识别和观点识别,在所有评论类别中是最差的,这可能是因为影评最长,使用的语言规则也最为复杂,因此预定义的模式很难满足不同用户的语言使用习惯。4.3 关联规则挖掘算法

关联规则算法不但考虑语言规则,还考虑了规则的支持度。表 10 显示了该算法的识别结果,我们尝试了不同支持度下的实验,由于篇幅限制,表 10只列出最佳支持度下的识别结果。

表 10.关联规则挖掘算法识别结果类别 支持度 特征识别 观点识别

准确率 召回率 F1 准确率 召回率 F1

数码相机 0.5% 0.893 0.242 0.380 0.765 0.179 0.290

化妆品 0.5% 0.758 0.309 0.439 0.837 0.202 0.325

书评 0.4% 0.806 0.145 0.246 0.853 0.133 0.230

酒店评论 0.5% 0.939 0.213 0.347 0.939 0.250 0.395

影评 0.1% 0.665 0.257 0.371 0.670 0.245 0.359

手机评论 3% 0.929 0.228 0.366 0.900 0.167 0.281

餐厅评论 0.3% 0.768 0.240 0.365 0.853 0.221 0.351

从表 10看出,对于不同类别的评论,最佳支持度阙值存在差异。手机评论的支持度阙值最大,为3%;而影评的支持度最小,为 0.1%。可能的原因是:(1)影评的长度最长,而手机评论的长度最短,这会影响到词汇在评论中的比例;(2)影评的特征词总数是手机评论的 8倍(分别为 470 和 57),这导致在电影评论中稀释了特征词出现的比例。

从表 10 还可以看出,与基于规则的算法相比,关联规则算法能够提升识别准确率,但以牺牲召回率为代价。关联规则算法的召回率和 F 值显著低于基于规则的算法,这表明在中文语境下,基于规则的算法优于关联规则挖掘算法。4.4 具有语法格式的关联规则挖掘算法

表 11 显示了具有语法格式的关联规则算法的识别结果。其中,支持度与表 10 的支持度是一致的。与表 10 的不同之处在于,具有语法格式的关联规则算法不但考虑关联规则的支持度阙值,还考虑了表 4 中所列的中文语法规则。

表 11.具有语法格式的关联规则挖掘算法的识别结果类别 支持度 特征识别 观点识别

准确率 召回率 F1 准确率 召回率 F1

数码相机 0.5% 0.754 0.208 0.326 0.815 0.101 0.180

化妆品 0.5% 0.780 0.257 0.386 0.759 0.108 0.190

书评 0.4% 0.714 0.150 0.248 0.724 0.096 0.170

酒店评论 0.5% 0.783 0.167 0.275 0.828 0.130 0.225

影评 0.1% 0.600 0.302 0.402 0.644 0.175 0.275

手机评论 3% 0.875 0.123 0.215 0.833 0.093 0.167

餐厅评论 0.3% 0.716 0.231 0.350 0.891 0.169 0.284

与关联规则算法相比,具有语法格式的关联规则算法并不能显著提高特征识别的准确率,甚至在数

Page 11: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

码相机、书评、酒店、餐厅评论上的准确率还略低于关联规则挖掘。这可能是因为中英文在语法格式上存在较大差异,在英文语境下表现良好的算法,并不能在中文语境下有同等的优势。

从表 11 还可以看出,具有语法格式的关联规则算法对观点识别的召回率很低,均在 10%~20%之间。这表明,具有语法格式的关联规则挖掘算法会把大量无关形容词当作观点词。以化妆品为例,“皮肤很敏感”这一评论满足预定义的语法模式,因而具有语法格式的关联规则算法会把该评论抽取为特征词“皮肤”和观点词“敏感”。这导致该算法的性能降低。4.5 基于 CRF 的产品特征挖掘算法

表 12 显示了基于 CRF 的产品特征挖掘算法的识别结果。可以看到,机器学习算法比基于统计的算法能够显著提升识别的准确率。

表 6.基于CRF的产品特征挖掘算法的识别结果类别 特征识别 观点识别

准确率 召回率 F1 准确率 召回率 F1

数码相机 0.757 0.498 0.601 0.684 0.417 0.519

化妆品 0.745 0.539 0.626 0.742 0.438 0.551

书评 0.738 0.380 0.502 0.657 0.307 0.419

酒店评论 0.736 0.657 0.694 0.789 0.609 0.687

影评 0.746 0.375 0.499 0.726 0.288 0.412

手机评论 0.875 0.614 0.722 0.813 0.481 0.605

餐厅评论 0.729 0.540 0.621 0.755 0.541 0.631

具体来说,基于 CRF 的算法对各类产品特征识别的准确率均在 70%以上,手机评论的准确率更是达到 88%,影评的准确率也为 75%,与之前 4 个算法相比,表现最好。在产品特征识别的召回率上,酒店评论最高,达到 66%;而影评的召回率仅为 38%,在所有类别中最低。这是因为影评由于评论较长,构成评论的句式多样,机器学习容易被多样的句式干扰,因此,较多的候选特征实际上并非产品特征项。例如:基于 CRF 的算法在影评语料中识别得到 252 个特征词,272 个观点词;而事实上,影评语料包含 470 个特征项,497 个观点词。如此分布广泛且数量众多的特征词和观点词,是造成影评特征抽取召回率最低的原因。而对于除了影评语料以外的其他语料而言,召回率和 F 值都显著提升。4.6 基于 SVM 的产品特征挖掘算法

表 13 显示了基于 SVM 的产品特征挖掘算法的结果。SVM 算法的结果也显著高于统计方法,但与CRF 相比在不同语料集上的表现存在差异。

表 7.基于SVM的产品特征挖掘算法的识别结果类别 特征识别 观点识别

准确率 召回率 F1 准确率 召回率 F1

数码相机 0.785 0.610 0.687 0.823 0.576 0.677

化妆品 0.704 0.533 0.607 0.762 0.458 0.572

书评 0.686 0.350 0.464 0.689 0.335 0.451

酒店评论 0.777 0.727 0.751 0.805 0.696 0.746

影评 0.723 0.328 0.451 0.771 0.278 0.408

手机评论 0.903 0.491 0.636 0.889 0.381 0.533

餐厅评论 0.785 0.610 0.687 0.823 0.576 0.677

从表 13看出,对手机评论的特征识别准确率最高,达到 90%,这在所有的特征识别算法中表现最好,但其召回率低于 CRF 算法。而书评的特征识别准确率是最低的,仅为 69%。这是由于书评中用户较多提及书的内容,比如小说的情节,而内容一般不会包含产品特征,但是 SVM并不能避免这类语料中的类似问题。对特征提取的总体表现来说,在数码相机、酒店和餐厅的特征抽取, SVM 表现较好;而对其他 4

Page 12: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

个语料,CRF 表现更好。值得重视的是,对于观点识别的准确率,SVM 比 CRF 显著提升,在所有 7 个语料中,除了影评语料的观点识别准确率基本持平外,SVM 几乎都比 CRF 提升了 10%以上。4.7 算法对比

对不同算法在多种语料上的性能进行纵向对比,如图 2 和图 3。其中,纵坐标分别表示本文使用的 6

种算法:词频统计(算法 1)、基于规则匹配(算法 2)、关联规则挖掘(算法 3)、具有语法格式的关联规则挖掘(算法 4)、CRF(算法 5)以及 SVM(算法 6)。

图 2.产品特征抽取的准确率,召回率以及F值对比图 2 显示了产品特征抽取的准确率、召回率以及 F 值对比。可以看到,不同算法适用于不同语料,

没有普适的算法在所有测试中均能保持领先。例如,对于手机特征提取来说,算法 2 取得比算法 5 和算法6更好的性能,三者的 F 值分别为:0.723,0.722,0.636;类似地,电影语料中,算法 2 比算法 5更准确。对于化妆品来说,算法 2 与算法 5 的 F 值相等,算法 1 与算法 6 的 F 值相等,这表明就化妆品这一类别而言,机器学习算法并不能显著提升特征抽取的准确率;类似的语料还有书评。而在其余语料,机器学习在总体上领先于统计学方法。

另一趋势是:算法 3 和算法 4 在产品特征抽取上的召回率很低,约 20%。换句话说,这两类算法抽取出的特征有限,这可能是因为中文语法格式灵活多变,有限的规则并不能匹配多元化的用户语言习惯。这两类算法的准确率与其他算法的准确率相当,甚至略高于其他算法;但是,这种高准确率是以牺牲召回率为代价的,从而导致 F 值偏低。

图 3.特征观点抽取的准确率,召回率以及F值对比

Page 13: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

图 3 对比了不同语料上特征观点抽取的准确率、召回率以及 F 值。可以看到,在特征观点识别上,机器学习算法具有优势。具体来说,就准确率而言,除了电影外,在其他所有语料中,算法 3 和算法 4 的准确率最高;而算法 1 在所有语料中的准确率都很低。这表明算法 1 不适用于处理特征观点。但有意思的是,算法 3 和算法 4 在所有语料中的召回率都是最低的,这表明算法 3 和算法 4 抽取出来的特征观点几乎都是真实的特征观点,但数量有限。总体上看,在数码相机、化妆品、酒店、餐厅评论中,算法 6 取得最佳 F 值;影评、书评中,算法 2 的 F 值最大;在手机评论中,算法 5 和算法 2 的 F 值几乎相等。在不同方法的比较上,在统计学方法中,算法 2 能够取得最佳性能;而在机器学习算法中,算法 6 总体效果更好。

图 2 和图 3 存在相似之处:算法 3 和算法 4 在召回率上低于其他算法,尽管这两种算法的准确率不错,但这种高准确率建立在低召回率的代价上。另一相似之处:评论越长,算法的性能普遍降低,例如影评和书评。以算法 5 为例,特征抽取 F 值与评论的文本长度相关系数为-0.64;而观点抽取 F 值与文本长度相关系数为-0.53。可能的原因是,在影评、书评等长评论中,评论者发挥了个人的主观判断,描述了故事情节,分析了人物心理,由此产生大量与产品特征无关的文本。上述 6 种算法均不能有效处理这类问题。

表 8.不同语料下的最佳抽取算法归纳语料分类 语料 特征抽取最佳算法 观点抽取最佳算法

规则算法适用语料影评 算法 2 算法 2

书评 算法 2、算法 5 算法 2

手机 算法 2 算法 2、算法 5

机器学习适用语料化妆品 算法 5 算法 6

餐厅 算法 6 算法 6

酒店 算法 6 算法 6

数码相机 算法 6 算法 6

表 14 总结了不同语料下的最佳抽取算法。在影评、书评和手机领域,基于统计的算法具有优势,其中算法 2普遍取得较好的效果。可能的原因:(1)手机评论最短,平均为 30 个字,短文本更适合以固定规则进行抽取;(2)影评和书评个人发挥空间大,评论中参杂了用户的主观分析,包含大量与电影和书籍有关的情节,这类文本更适合用基于规则的方法抽取。而在化妆品、餐厅、酒店和数码相机评论中,适合采用机器学习进行产品特征和观点挖掘。其中,除了在化妆品的产品特征抽取中算法 5 准确率更高外,算法 6 在其他语料中均具有绝对优势。这可能是由于 SVM 在处理文本时,把文本从低维空间向高维空间迭代完成数据的分类;而 CRF 采用无向图的方式不太适合处理文本抽取。5 结论和展望

针对不同类别的中文语料,选取 6 种代表性的算法,对特征与观点的识别性能进行比较,得到以下结论:(1)中文语料的支持度阙值为 0.5%时能达到最佳性能,这与英文语料存在较大差异(英文语料为1%);(2)不存在面向所有评论均能表现卓越的算法,每种算法只在特定领域内表现良好;(3)机器学习普遍优于统计学方法,但在某些语料中(例如手机评论),统计方法反而更好,这要求后续研究根据语料选择合适的特征挖掘算法;(4)评论长度会影响特征挖掘算法的性能,文本越长,特征挖掘算法的性能越差;反之亦然;(5)在英文语境下效果不错的关联规则算法和具有语法格式的关联规则算法,在中文语境下表现非常差,这也间接表明了中文处理的复杂性;(6)同样的算法,在处理生活服务类评论时(例如:餐厅、酒店),能获得较好的效果,而在抽取文艺类评论时(例如:影评、书评),总体性能较差,这表明不同领域的评论在特征抽取上存在难度差异。

未来的研究方向有:(1)基于规则的算法和基于关联规则的算法只使用了有限的规则来匹配中文评论,但是用户表述习惯千变万化,很难以几个固定的模式概括所有用户的语言使用习惯,这导致算法 3 和算法 4 的召回率普遍较低。将来可在这两个算法的基础上加入模糊规则,以更好匹配用户语言使用模式;(2)6 种算法均只考虑了显式产品特征,但在线评论存在大量隐式产品特征,为此需要比较这些算法在

Page 14: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

隐式产品特征提取上的性能;(3)机器学习算法需要人工标注部分语料,这会降低效率和提高成本,未来计划采用统计方法对特征进行识别,提取信度较高的特征词和观点词作为机器学习样本,以降低人工参与成本;(4)将多种算法相结合,可能会提升总体特征识别性能,因此,多种特征挖掘算法的融合值得探讨。

参考文献[1] Witschel H F. Terminology Extraction and Automatic Indexing[J]. Terminology and Knowledge Engineering (TKE), 2005: 1-12.

[2] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of

the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 417-424.

[3] Hu M, Liu B. Mining opinion features in customer reviews[C]//AAAI. 2004, 4: 755-760.

[4] Zhuang L, Jing F, Zhu X Y. Movie review mining and summarization[C]//Proceedings of the 15th ACM international conference on

Information and knowledge management. ACM, 2006: 43-50.

[5] Justeson J S, Katz S M. Technical terminology: some linguistic properties and an algorithm for identification in text[J]. Natural

language engineering, 1995, 1(1): 9-27.

[6] Khan K, Baharudin B B, Khan A. Semantic-Based Unsupervised Hybrid Technique for Opinion Targets Extraction from Unstructured

Reviews[J]. Arabian Journal for Science and Engineering, 2014, 39(5): 3681-3689.

[7] Hai Z, Chang K, Kim J J, et al. Identifying Features in Opinion Mining via Intrinsic and Extrinsic Domain Relevance[J]. IEEE

Transactions on Knowledge and Data Engineering, 2014, 26(3): 623-634.

[8] Li W, Xu H. Text-based emotion classification using emotion cause extraction[J]. Expert Systems with Applications, 2014, 41(4):

1742-1749.

[9] Agrawal R, Srikant R. Fast algorithms for mining association rules[C]//Proc. 20th Int. Conf. Very Large Data Bases, VLDB. 1994,

1215: 487-499.

[10] Shi W, Wang H, He S. Sentiment analysis of Chinese micro-blogging based on sentiment ontology: a case study of ‘7.23 Wenzhou

Train Collision’ [J]. Connection Science, 2013, 25(4): 161-178.

[11] Yin P, Wang H, Guo K. Feature–opinion pair identification of product reviews in Chinese: a domain ontology modeling method[J].

New Review of Hypermedia and Multimedia, 2013, 19(1): 3-24.

[12] Peñalver-Martinez I, Garcia-Sanchez F, Valencia-Garcia R. Feature-based opinion mining through ontologies[J]. Expert Systems

with Applications, 2014, 41(13): 5995-6008.

[13] Khan K, Baharudin B, Khan A. Identifying product features from customer reviews using hybrid patterns[J]. Int. Arab J. Inf.

Technol., 2014, 11(3): 281-286.

[14] Ding X, Liu B, Yu P S. A holistic lexicon-based approach to opinion mining[C]//Proceedings of the international conference on Web

search and web data mining. ACM, 2008: 231-240.

[15] Zhang L, Liu B, Lim S H, et al. Extracting and ranking product features in opinion documents[C]//Proceedings of the 23rd

International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 1462-1470.

[16] Zheng X, Lin Z, Wang X, et al. Incorporating appraisal expression patterns into topic modeling for aspect and sentiment word

identification[J]. Knowledge-Based Systems, 2014, 61: 29-47.

[17] Guo J L, Peng J E, Wang H C. An Opinion Feature Extraction Approach Based on a Multidimensional Sentence Analysis Model[J].

Cybernetics and Systems, 2013, 44(5): 379-401.

[18] Johansson R, Moschitti A. Relational features in fine-grained opinion analysis[J]. Computational Linguistics, 2013, 39(3): 473-509.

[19] Popescu A M, Popescu O. Extracting product features and opinions from reviews[M]//Natural language processing and text mining.

Springer London, 2007: 9-28.

[20] Bagheri A, Saraee M, De Jong F. Care more about customers: Unsupervised domain-independent aspect detection for sentiment

analysis of customer reviews[J]. Knowledge-Based Systems, 2013, 52: 201-213.

[21] Quan C, Ren F. Unsupervised product feature extraction for feature-oriented opinion determination[J]. Information Sciences, 2014,

Page 15: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

272: 16-28.

[22] Zi-qiong Z, Yi-jun L I, Qiang Y E, et al. Sentiment classification for Chinese product reviews using an unsupervised Internet-based

method[C]// ICMSE 2008: 3-9.

[23] Chenlo J M, Losada D E. A Machine Learning Approach for Subjectivity Classification Based on Positional and Discourse

Features[M]//Multidisciplinary Information Retrieval. Springer Berlin Heidelberg, 2013: 17-28.

[24] Fu G, Luke K K. Chinese named entity recognition using lexicalized HMMs[J]. ACM SIGKDD Explorations Newsletter, 2005, 7(1):

19-25.

[25] Eddy S R. Hidden markov models[J]. Current opinion in structural biology, 1996, 6(3): 361-365.

[26] Wang J, Ren F, Li L. Recognizing sentiment of relations between entities in text[J]. IEEJ Transactions on Electrical and Electronic

Engineering, 2014, 9(6): 614-620.

[27] Zhao J, Liu K, Wang G. Adding redundant features for CRFs-based sentence sentiment classification[C]//Proceedings of the

conference on empirical methods in natural language processing. Association for Computational Linguistics, 2008: 117-126.

[28] Li F, Han C, Huang M, et al. Structure-aware review mining and summarization[C]//Proceedings of the 23rd International

Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 653-661.

[29] Miao Q, Li Q, Zeng D. Mining fine grained opinions by using probabilistic models and domain knowledge[C]//Web Intelligence and

Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. IEEE, 2010, 1: 358-365.

[30] Chen L, Qi L, Wang F. Comparison of feature-level learning methods for mining online consumer reviews[J]. Expert Systems with

Applications, 2012, 39(10): 9588-9601.

[31] Jin W, Ho H H, Srihari R K. OpinionMiner: a novel machine learning system for web opinion mining and extraction[C]//Proceedings

of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009: 1195-1204.

[32] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the

ACL-02 conference on Empirical methods in natural language processing. Association for Computational Linguistics, 2002: 79-86.

[33] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum

cuts[C]//Proceedings of the 42nd annual meeting on Association for Computational Linguistics. Association for Computational

Linguistics, 2004: 271.

[34] Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis[C]//Proceedings of the 14th ACM international

conference on Information and knowledge management. ACM, 2005: 625-631.

[35] Ye Q, Zhang Z, Law R. Sentiment classification of online reviews to travel destinations by supervised machine learning

approaches[J]. Expert Systems with Applications, 2009, 36(3): 6527-6535.

[36] Shi H, Chen W, Li X. Opinion Sentence Extraction and Sentiment Analysis for Chinese Microblogs[M]//Natural Language

Processing and Chinese Computing. Springer Berlin Heidelberg, 2013: 417-423.

[37] Moraes R, Valiati J F, GaviãO Neto W P. Document-level sentiment classification: An empirical comparison between SVM and

ANN[J]. Expert Systems with Applications, 2013, 40(2): 621-633.

[38] Zhang D, Xu H, Su Z, et al. Chinese comments sentiment classification based on word2vec and SVM perf[J]. Expert Systems with

Applications, 2015, 42(4): 1857-1863.

[39] Koppel M, Argamon S, Shimoni A R. Automatically categorizing written texts by author gender[J]. Literary and Linguistic

Computing, 2002, 17(4): 401-412.

[40] Zheng W, Ye Q. Sentiment classification of Chinese traveler reviews by support vector machine algorithm[C]//Intelligent

Information Technology Application, 2009. IITA 2009. Third International Symposium on. IEEE, 2009, 3: 335-338.

[41] DIOŞAN L, Rogozan A, Pecuchet J P. Learning SVM with Complex Multiple Kernels Evolved by Genetic Programming[J].

International Journal on Artificial Intelligence Tools, 2010, 19(05): 647-677.

[42] Wang F, He K, Liu Y, et al. Research on the selection of kernel function in SVM based facial expression recognition[C]//Industrial

Electronics and Applications (ICIEA), 2013 8th IEEE Conference on. IEEE, 2013: 1404-1408.

[43] Abbasi A, Chen H, Salem A. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums[J].

Page 16: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

ACM Transactions on Information Systems, 2008, 26(3): 12(1-34).

[44] Wang G, Sun J, Ma J, et al. Sentiment classification: The contribution of ensemble learning[J]. Decision Support Systems, 2014, 57:

77-93.

[45] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

[46] Wang L, Ji P, Qi J, et al. Feature weighted naïve Bayes algorithm for information retrieval of enterprise systems[J]. Enterprise

Information Systems, 2014, 8(1): 107-120.

[47] Forsati R, Shamsfard M. Novel harmony search-based algorithms for part-of-speech tagging[J]. Knowledge and Information

Systems, 2015, 42(3): 709-736.

[48] 刘群, 张华平, 张浩. 计算所汉语词性标记集 Version3.0 [z], 2004.

[49] Liu D C, Nocedal J. On the limited memory BFGS method for large scale optimization[J]. Mathematical programming, 1989, 45(1-

3): 503-528.

[50] Liu B. Web data mining[M]. Springer-Verlag Berlin Heidelberg, 2007.

[51] Zhang H P, Yu H K, Xiong D Y, et al. HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN

workshop on Chinese language processing. Association for Computational Linguistics, 2003: 184-187.

[52] Sha F, Pereira F. Shallow parsing with conditional random fields[C]//Proceedings of the 2003 Conference of the North American

Chapter of the Association for Computational Linguistics on Human Language Technology. Association for Computational Linguistics,

2003: 134-141.

[53] Kudo T, Matsumoto Y. Fast methods for kernel-based text analysis[C]//Proceedings of the 41st Annual Meeting on Association for

Computational Linguistics. Association for Computational Linguistics, 2003: 24-31.

Extracting Product Aspects and Opinions from Chinese Online Reviews:

A Comparative Study of Multi-domains

WANG Wei, WANG Hong-wei, SHENG Xiao-bao (School of Economics and Management, Tongji University, Shanghai, 200092, China)

Abstract: Extracting aspects and opinions is the basis of sentiment analysis in fine-grained manner. Prior

algorithms are not applicable for multiple domains, so the robustness and reliability for different fields are of

concern to these algorithms. Generally, there are two common techniques used for extracting aspects and opinions:

statistics based methods and machine learning based methods. However, no final conclusion has yet been drawn on

the matter of aspect extraction. One of the reasons is lack of systematic comparison on a unified corpus. In

addition, past algorithms are mostly implemented in English contexts, but lacking enough attentions on Chinese

online reviews. Due to the syntactic differences between languages, the algorithms working best for English are

not applicable in Chinese context directly. So robustness and portability are still the main issues for current

algorithms.

We thus choose six widely-used extraction algorithms and compare the performance between the statistical

methods and machine learning methods for aspect-opinion mining in Chinese context. The selected algorithms

include Frequency-based opinion mining, Rule-based opinion mining, Association rule-based opinion mining,

Association rule-based opinion mining plus linguistic, CRFs-based opinion mining and SVM-based opinion

mining. We collect 3146 reviews as experimental corpus from 7 different fields: digital camera reviews, cosmetics

reviews, book reviews, hotel reviews, critics, cell phone reviews and restaurant reviews. Finally, these corpuses are

employed respectively by the six algorithms above to extract aspects for validating extraction effectiveness.

Experiment obtains the following conclusions: (1) It can achieve the best performance for frequency-based

Page 17: or.nsfc.gov.cnor.nsfc.gov.cn/bitstream/00001903-5/348249/1/1000014116546.docx  · Web view中文在线评论的产品特征与观点识别:跨领域的比较. 收稿日期:2014-07-25

opinion mining when the threshold is set to 0.5%, which is quite different from English context (1%); (2) there is

no algorithm which can dominate in all corpuses. Any algorithm can achieve better performance in limited areas;

(3) machine learning algorithms generally outperform statistical approaches. In some corpus (e.g. mobile phone

reviews), however, statistical methods can perform better, thus guiding us to select an appropriate algorithm

according to the corpus in the follow-up research and application; (4) the length of reviews can affect the

performance of mining algorithms. A longer text will lead a poorer accuracy, and vice versa; (5) due to syntactic

difference between languages, both the association rule-based opinion mining and the association rule-based

opinion mining plus linguistic perform poorly in Chinese context, unlike their excellence in English context. It also

implies the complexity of Chinese natural language processing; (6) for the same algorithm, experimental results

show that the performance is higher in dealing with service domains (e.g. restaurants, hotels), but much poor in

arts and entertainment areas (e.g. film, book). It indicates a difference between domains in problem-solving of

extracting aspects and opinions.

Keywords: Online review; Chinese context; product aspect; opinion extraction; sentiment analysis

英文摘要的中文翻译产品特征及观点的识别是细粒度情感分析的基础。但是,现有识别算法对中文语境下不同评论领域

的适应性较差,算法的鲁棒性也不理想,难以实现跨领域的算法移植。研究者提出了各种不同的特征挖掘算法。目前,产品特征识别算法主要有两类,一类是基于统计的方法,第二类是基于机器学习的方法。然而关于特征挖掘的研究,目前尚无定论,各种算法的鲁棒性以及可移植性是主要问题。究其原因,在于缺乏在统一的有代表性的语料上进行纵向和横向对比。另外,目前的抽取算法大多是在英文语境下实现的,而在中文在线评论中的研究还较少,由于语言间的显著差异,英文语境下算法不能直接应用于中文特征识别。

为此,本文选取词频统计方法、规则匹配、关联规则挖掘、具有句法格式的关联规则、 CRF 和 SVM

等 6 种代表性的挖掘算法,结合中文在线评论的语言特点,将上述算法引入到中文评论的文本分析中,根据准确率、召回率和 F 值指标,分析比较统计方法和机器学习方法在产品特征及观点识别上的性能。

选择数码相机评论、化妆品评论、书评、酒店评论、影评、手机评论和餐厅评论 7 类语料 3646 条评论构成语料库,然后分别采用 6 种算法进行产品特征和观点的抽取。

实验结果表明:(1)中文语料的支持度阙值为 0.5%时能够达到最佳性能,这与英文语料存在较大差异(英文语料为 1%);(2)不存在一个能够在所有评论语料中均能表现卓越的算法,任何算法均只能在特定领域内表现良好;(3)机器学习算法普遍优于统计学方法,但是在某些语料中(例如:手机评论) ,统计方法反而更好,这要求我们在后续研究和应用中,根据语料选择合适的特征挖掘算法;( 4)评论长度会影响特征挖掘算法的性能,评论越长,几乎所有的特征挖掘算法的性能越差;反之亦然;( 5)由于语言差异,在英文语境下效果不错的关联规则算法和具有语法格式的关联规则算法,在中文语境下表现非常差,这也间接表明了中文处理的复杂性;(6)同样的算法,在处理生活类服务评论时(例如:餐厅、酒店),能获得较好的效果,而在抽取文艺类评论时(例如:影评、书评),总体性能较差,这表明不同领域的评论在特征抽取这个问题上是存在难度差异的。