2021年7月4日,研究团队博士生梁斌和硕士生娄辰玮牵头撰写的论文“Multi-Modal Sarcasm Detection with Joint In-Modal and Cross-Modal Graphs”获第29届ACM多媒体国际会议(The 29th ACM International Conference on Multimedia,ACM MM2021)录用为长文发表。ACM MM会议起始于1993年,是中国计算机学会(CCF)A类国际学术会议,也是在多媒体领域享有很高学术声誉的国际顶级会议。今年会议的主会将在10月20-24日在中国成都举行。

多模态讽刺识别(multi-modal sarcasm detection)旨在根据给定的图片(image)和对应的文本(text)判定一个样本是否是讽刺表达。本研究发现,多模态讽刺识别的难点之一在于如何将文本中的重要片段(tokens)和图片中对应的零散图块(patches)建立连接,学习它们表达的关系,从而学习其中的讽刺表达信息。基于这一发现,本文首次提出了一种基于图网络模型的多模态讽刺识别方法。通过针对不同模态的信息建立模态内和跨模态关系图,能有效对多模态数据中不同模态之间的特征建立关系。基于此,本文使用一个交互式图网络结构,能有效提取和学习图片中零散的patches以及文本中对应的非连续零散tokens的语义信息和特征关系,从而获取多模态数据中的讽刺表示,最终有效提升多模态讽刺识别的性能。模型的框架图如下:

论文信息:

Bin Liang, Chenwei Lou, Xiang Li, Lin Gui, Min Yang, Ruifeng Xu*. Multi-Modal Sarcasm Detection with Joint In-Modal and Cross-Modal Graphs. The 29th ACM International Conference on Multimedia (ACM MM 2021), Oct. 2021.

发表评论