文本情感分析
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观訊息。
通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)。
研究领域
[编辑]文本情感分析的一个基本步骤是对文本中的某段已知文字的两极性进行分类,这个分类可能是在不同的層級下進行。分类的作用就是判断出此文字中表述的观点是积极的、消极的、还是中性的情感(sentiment)。更高级的“超出两极性”的情感分析还会寻找更复杂的情绪状态(emotion),比如“生气”、“悲伤”、“快乐” 等等。
在文本情感分析领域,早期做出研究贡献的有 Turney[1] 和 Pang[2] 他们运用了多种方法探测商品评论和电影影评的两极观点。此研究是建立在文档级所进行的分析。另一种文档意见的分类方式可以是多重等级的,Pang[3] 和 Snyder[4] (among others):[3] 延伸了早先的基础两极意见研究,将电影影评分类并预测为3至4星的多重级别,而 Snyder[4] 就餐馆评论做了个深度分析,从多种不同方面预测餐馆的评分,比如食物、气氛等等 (在一个5星的等级制度上)。尽管在大多数统计方面的分类方式中,“中性” 类是经常被忽略的,因为“中性”类的文本经常是处于一个两极分类的边缘地带,但是很多研究者指出,在每个两极化问题当中,都应该识别出三个不同的类别。进一步的说,一些现有的分类方式 例如 Max Entropy[5] 和 SVMs[6] 可以证明,在分类过程中区分出“中性”类可以帮助提高分类算法的整体准确率。實際上,之前的一些研究發現,在某些場合,例如 YouTube,中性語氣佔多數。約53.84%的觀眾對北京建築遺產旅遊視頻持中立態度,約36.79%的觀眾對北京建築遺產旅遊視頻持正面或強烈正面情感態度。[7]
另一种判定文本情绪的方法是利用比例换算系统。当一个词普遍被认为跟消极、中性或是积极的情感有关联时,将这个词赋予一个-10到+10之中的数字级别(最消极到最正向情感),在使用自然语言处理来分析一个非结构化文本数据后,余下的的概念也可以被分析来得出词与概念的相关性。[來源請求] 接下来,每一个概念都可以被赋予一个分数,这个分数是基于情感词汇和这个概念的关联度,以及他们本身的分数而得出的。这个方法让文本情感的理解晋升到一个更加智能的层面,并且是基于一个11分的等级范围的。另外一种方法是,计算出文本正向的和消极的情感力度分数, 如果研究的目的是要判定一个文本的感情,而不是总体文本集的两极分布或文字的力度。[8]
另一个研究方向是“主观/客观 识别”。这个研究 [9] 通常被定义为将一个已知文本(一般是句子)分类成两个类:主观和客观。这个问题有些时候比两极化分类问题更难解决。 [10] 主观词汇和短语可能是基于前后文语意联系,而一个客观文档有可能包含主观语句(e.g. 一篇新闻引用了某人的观点)。此外, Su[11] 也曾提到过,得到的结论在很大程度上依赖于注释文本时对“主观”的定义。不过, Pang[12] 证实了如果两极分类前去除文件中的客观语句,会提高算法的表现。
方法
[编辑]现有的文本情感分析的途径大致可以集合成四类:关键词识别、词汇关联、统计方法和概念级技术。[13] 关键词识别是利用文本中出现的清楚定义的影响词(affect words),例如“开心”、“难过”、“伤心”、“害怕”、“无聊”等等,来影响分类。[14]词汇关联除了侦查影响词以外,还附于词汇一个和某项情绪的“关联”值。[15] 统计方法通过调控机器学习中的元素,比如潜在语意分析(latent semantic analysis),SVM(support vector machines),词袋(bag of words),等等。(参见Peter Turney[1]在相关领域的研究成果。)一些更智能的方法意在探测出情感持有者(保持情绪状态的那个人)和情感目标(让情感持有者产生情绪的实体)。[16]要想挖掘在某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。[17]与单纯的语义技术不同的是,概念级的算法思路权衡了知识表达(knowledge representation)的元素,比如知识本体 (ontologies)、语义网络(semantic networks),因此这种算法也可以探查到文字间比较微妙的情绪表达。例如, 分析一些没有明确表达相关信息的概念,但是通过他们对于明确概念的不明显联系来获取所求信息。[18]
有很多开源软件使用机器学习(machine learning)、统计、自然语言处理的技术来计算大型文本集的情感分析, 这些大型文本集合包括网页、网络新闻、网上讨论群、网络评论、博客和社交媒介。[19] Yao et al 使用机器学习發現,英語推文的情緒越積極,它就越有可能被轉發。然而,法國推文的負面情緒越多,推文被轉發的可能性就越大。因此,在法語推文中,負面職業安全推文比正面推文具有更強的影響,但在英文推文中則不然。雖然法語推文的情緒分析結果表明,大多數推特用戶以中立的語氣討論職業安全問題,但法語推文中極端負面的數量遠多於英語。這反映了語言文化差異影響用戶的行為。[20]
分析層級與基於面向的情感分析
[编辑]情感分析可以分為三種分析層級,分別為文件層級(document level)、句子層級(sentence level)以及面向層級(aspect level)。
在文件層級中,一則文件只會被萃取出一個情感。在句子層級中,情感分析方法將文件中的每一則句子皆萃取出一個對應情感。
面向層級與上面兩者差別較大。在面向層級中,情感分析的單位為一個實體(entity)的不同面向,而一個面向會萃取出一個情感。一個實體可能是一個手機,或一個相機等。一個面向則是一個實體的某個屬性或者組成部分。以一則句子「這台電腦的性能很優秀」為例,「電腦」為一個實體,「性能」則為該實體的一個面向,在面向層級的情感分析中即會得到類似於「性能具有積極情感」的結果。[21]
面向層級的情感分析目的在於取得粒度更細的分析結果,技術上的難度也較其他兩者困難,因此發展出獨立的研究領域,一般稱作基於面向的情感分析(aspect-based sentiment analysis, ABSA)。ABSA的子任務包含了意見目標萃取(opinion target extractio, OTE)、面向類別偵測(aspect category detection)、情感極性分類(sentiment polarity)等。[22]
参见
[编辑]参考
[编辑]- ^ 1.0 1.1 Peter Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Proceedings of the Association for Computational Linguistics: 417–424. 2002. arXiv:cs.LG/0212032 .
- ^ Bo Pang; Lillian Lee and Shivakumar Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): 79–86. 2002 [2015-01-07]. (原始内容存档于2020-08-13).
- ^ 3.0 3.1 Bo Pang; Lillian Lee. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. Proceedings of the Association for Computational Linguistics (ACL): 115–124. 2005 [2015-01-07]. (原始内容存档于2020-07-03).
- ^ 4.0 4.1 Benjamin Snyder; Regina Barzilay. Multiple Aspect Ranking using the Good Grief Algorithm. Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL): 300–307. 2007 [2015-01-07]. (原始内容存档于2016-08-06).
- ^ Vasilis Vryniotis. The importance of Neutral Class in Sentiment Analysis. 2013 [2015-01-07]. (原始内容存档于2013-09-28).
- ^ Moshe Koppel; Jonathan Schler. The Importance of Neutral Examples for Learning Sentiment. Computational Intelligence 22: 100–109. 2006 [2015-01-07]. (原始内容存档于2020-02-02).
- ^ The Cultivation Effect of Architectural Heritage YouTube Videos on Perceived Destination Image. Buildings 2023, 13, 508. https://doi.org/10.3390/buildings13020508
- ^ Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid. Sentiment strength detection in short informal text. Journal of the American Society for Information Science and Technology. 2010, 61 (12): 2544–2558 [2015-01-07]. doi:10.1002/asi.21416. (原始内容存档于2021-02-01).
- ^ Pang, Bo; Lee, Lillian. 4.1.2 Subjectivity Detection and Opinion Identification. Opinion Mining and Sentiment Analysis. Now Publishers Inc. 2008 [2015-01-07]. (原始内容存档于2020-11-09).
- ^ Rada Mihalcea; Carmen Banea and Janyce Wiebe. Learning Multilingual Subjective Language via Cross-Lingual Projections (PDF). Proceedings of the Association for Computational Linguistics (ACL): 976–983. 2007. (原始内容 (PDF)存档于2010-07-08).
- ^ Fangzhong Su; Katja Markert. From Words to Senses: a Case Study in Subjectivity Recognition (PDF). Proceedings of Coling 2008, Manchester, UK. 2008 [2015-01-07]. (原始内容存档 (PDF)于2017-02-15).
- ^ Bo Pang; Lillian Lee. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. Proceedings of the Association for Computational Linguistics (ACL): 271–278. 2004 [2015-01-07]. (原始内容存档于2020-08-05).
- ^ Cambria, Erik; Schuller, Björn; Xia, Yunqing; Havasi, Catherine. New Avenues in Opinion Mining and Sentiment Analysis. IEEE Intelligent Systems. 2013, 28 (2): 15–21 [2015-01-07]. doi:10.1109/MIS.2013.30. (原始内容存档于2014-12-19).
- ^ Ortony, Andrew; Clore, G; Collins, A. The Cognitive Structure of Emotions (PDF). Cambridge Univ. Press. 1988. (原始内容 (PDF)存档于2015-11-23).
- ^ Stevenson, Ryan; Mikels, Joseph; James, Thomas. Characterization of the Affective Norms for English Words by Discrete Emotional Categories (PDF). Behavior Research Methods. 2007, 39 (4): 1020–1024 [2015-01-07]. (原始内容 (PDF)存档于2016-03-04).
- ^ Kim, S.M. & Hovy, E.H. Identifying and Analyzing Judgment Opinions. (PDF). Proceedings of the Human Language Technology / North American Association of Computational Linguistics conference (HLT-NAACL 2006). New York, NY.. 2006 [2015-01-07]. (原始内容 (PDF)存档于2011-06-29).
- ^ Lipika Dey, S K Mirajul Haque. Opinion Mining from Noisy Text Data. Proceedings of the second workshop on Analytics for noisy unstructured text data, p.83-90. 2008.
- ^ Cambria, Erik; Hussain, Amir. Sentic Computing: Techniques, Tools, and Applications (PDF). Springer. 2012 [2015-01-07]. (原始内容存档 (PDF)于2017-08-29).
- ^ Cuneyt Gurcan Akcora, Murat Ali Bayir, Murat Demirbas, Hakan Ferhatosmanoglu. Identifying breakpoints in public opinion. SigKDD, Proceedings of the First Workshop on Social Media Analytics. 2010.
- ^ An informal institution comparative study of occupational safety knowledge sharing via French and English Tweets: languaculture, weak-strong ties and AI sentiment perspectives, Safety Science, Volume 147, March 2022, 105602, https://www.sciencedirect.com/science/article/abs/pii/S0925753521004422 (页面存档备份,存于互联网档案馆)
- ^ Birjali, M., Kasri, M., & Beni-Hssane, A. (2021). A comprehensive survey on sentiment analysis: Approaches, challenges and trends. Knowledge-Based Systems, 226, 107134. https://doi.org/10.1016/j.knosys.2021.107134
- ^ Do, H. H., Prasad, P. W., Maag, A., & Alsadoon, A. (2019). Deep learning for aspect-based sentiment analysis: a comparative review. Expert systems with applications, 118, 272-299. https://doi.org/10.1016/j.eswa.2018.10.003