Construction of a Multimodal Dataset for Emergency Event Identification and Classification

Yifan ZHANG, Zuqin CHEN, Jike GE, Mingkun HE, Jie TAN

PDF(889 KB)
PDF(889 KB)
Journal of Library and Information Sciences in Agriculture ›› 2024, Vol. 36 ›› Issue (10) : 76-85. DOI: 10.13998/j.cnki.issn1002-1248.24-0624

Construction of a Multimodal Dataset for Emergency Event Identification and Classification

Author information +
History +

Abstract

[Purpose/Significance] Rich Internet data provide a multi-dimensional perspective for understanding emergencies, and multimodal emergency classification methods have emerged. However, the existing multimodal datasets of emergencies are not only scarce, but also lacking in diversity in categories, which is not enough to support related research, and greatly affects the progress of subsequent research. Compared with previous public datasets, the dataset constructed in this paper has richer categories and more improved modalities. This dataset solves the key gaps in the availability and diversity of multimodal datasets of emergencies. It not only expands the category range, but also provides more detailed classification in the natural disaster category, which is crucial for developing robust and accurate multimodal classification models. [Method/Process] An emergency event dataset (MEED) based on multimodal information was constructed, which contains data from five categories: accident disasters, public health, social security, natural disasters, and non-emergency events. The natural disaster data are divided into seven subcategories: geological disasters, biological disasters, drought disasters, marine disasters, meteorological disasters, earthquake disasters, and forest and grassland fires. [Results/Conclusions] The existing emergency classification methods were analyzed and validated on the emergency public dataset and MEED. The results showed that MEED helped improve the performance of multimodal models by more than 10% compared with the currently available emergency datasets. The results show that the improvement in model performance highlights the value of MEED in promoting emergency management and response research and applications. The dataset enables researchers and practitioners to better understand the complexity of emergencies and develop more effective prevention, mitigation, and response strategies. The improvement in model performance also shows that multimodal methods are a promising direction for analyzing emergency events because it leverages the advantages of different types of data to achieve higher accuracy and reliability in classification tasks. The creation of MEED is a major advancement in the field of emergency management, providing researchers with a valuable resource and potentially leading to the development of more sophisticated tools for responding to emergencies. However, the dataset still has certain limitations. Over time, the number of emergencies on the Internet continues to grow, which requires us to continuously update the dataset to adapt to new situations. The size of the dataset largely determines the performance of the classification model. The class imbalance problem of the emergency dataset constructed in this paper needs to be solved. In future research, we will continue to update and maintain the dataset in a timely manner to address these issues.

Key words

incidents / multimodal / dataset / deep learning / data acquisition / data annotations

Cite this article

Download Citations
Yifan ZHANG , Zuqin CHEN , Jike GE , Mingkun HE , Jie TAN. Construction of a Multimodal Dataset for Emergency Event Identification and Classification. Journal of Library and Information Science in Agriculture. 2024, 36(10): 76-85 https://doi.org/10.13998/j.cnki.issn1002-1248.24-0624

0 引言

高效精准地对突发事件信息进行分类的关键在于信息特征的表示和模型的学习能力,为此国内外众多学术人员开展了大量研究,大体上可以分为两个阶段:第一阶段是单模态研究方法;第二阶段是将文本和图像进行融合分类的多模态研究方法。
单模态研究方法经历了从机器学习到深度学习的演变。在机器学习阶段,研究者主要通过手工设计特征提取模块,将非结构化的文本信息转换为结构化的特征表示,然后应用分类算法进行分类。例如,利用N-Gram模型考虑单词的顺序和语义关系,通过支持向量机进行突发事件的文本分类[1];计算相对词频、词频增长率和爆发词权重来提取特征,结合共词分析方法进行爆发词聚类,以识别和分类突发事件[2];构建领域专用的停用词表,使用TF-IDF方法提取文本特征,并利用支持向量机进行突发事件的文本分类[3];将突发事件中的类别关键词组合作为决策树的属性项,通过分析类别组合来分类突发事件[4]。尽管机器学习方法在特征提取上具有一定的直观性和解释性,但它们通常只能抽取表层信息,难以捕捉词与词之间的复杂关系和深层次语义,同时对于高维数据的泛化学习能力较差,进而影响最终的分类效果。
近年来,随着技术和理论的不断发展,深度学习逐渐成为研究热点,它通过构建复杂的模型结构,能够更有效地挖掘和利用数据中的深层次语义信息。例如,通过将文本特征转换为词向量,并输入到结合了循环神经网络和卷积神经网络的RCNN神经网络中,以此提升文本分类的效果[5];使用基于BERT的多个模型对特定突发事件文本进行分类。BERT模型通过预训练大量文本数据,学习到了丰富的语言表示,这使得在特定任务上的分类准确率得到了提高[6];研究者采用BERT模型提取文本特征,并结合自适应决策边界模型来学习突发事件类别在高维语义空间上的决策边界,这种方法在公开数据集上验证了其有效性[7];结合BERT的语义理解能力、TextCNN的局部特征捕捉能力和BiLSTM的长序列依赖处理能力,构建融合词嵌入信息、文本特征信息和上下文信息的BERT-TextCNN-BiLSTM模型,与传统模型相比,展现出更好的泛化能力和分类效果[8];在考虑词语间或词语与类别间相互关系的基础上,提出DCLSTM-MLP的深度学习新闻文本分类模型,DCLSTM-MLP模型通过深度学习框架,实现对突发事件的有效识别和分类[9]
在当今信息爆炸的时代,多模态突发事件新闻因其结合了文本、图像等多种形式,越来越受到公众的青睐。这种报道方式不仅能够提供更直观的信息,还能增强突发事件的识别和分类准确性。通过整合视觉元素和文字内容,多模态新闻为事件的理解和分析提供了更全面的视角。例如,分别提取文本和图像特征,在特征级融合模块,采用Concatenate特征拼接技术融合文本特征和图像特征,最后利用3个分类模型分别对这3种特征进行分类,并在决策层输出进行权重分配,以此实现对突发事件的分类[10]。构建基于“文本-图像”增强的突发事件识别及分类模型,在提取文本和图像特征后,通过深度神经网络将二者进行融合,将上一层的输出特征作为下一层的输入进行特征学习,再通过逐层特征映射,将文本和图像的拼接特征映射到另一个特征空间,最后,采用Softmax层作为分类层来实现突发事件的识别及分类[11]。多模态信息融合的主要优势在于缩小不同模态间的异质性差异,以此来保持多模态的语义完整性。研究表明,多模态突发事件的识别与分类能够充分捕获不同模态间的相互依赖关系,从而实现更好的分类效果。
在对突发事件的识别和分类领域进行深入探究的过程中,研究人员构建了众多专门用于学习和研究的数据集。然而,目前大多数数据集仅包含单一模态的信息,如纯文本或纯图像的突发事件新闻。相比之下,能够同时提供文本和图像信息的多模态数据集则显得较为稀缺。这种多模态数据集的缺乏限制了我们对突发事件更全面理解的能力。为了促进突发事件的识别与分类,尤其是多模态突发事件识别与分类的发展,本文介绍了一个全新的多模态突发事件数据集:MEED(Multimodal Emergency Event Dataset),它包含15 181条事件记录,其中突发事件占11 844条,非突发事件3 337条,以及相应的15 181张相关图像。为了增强数据集中突发事件的类别信息,MEED特别收录了4个不同类别的突发事件样本,其中对自然灾害类别进行了细粒度划分,共分为7类,可以用于实现细粒度的自然灾害突发事件分类任务。

1 相关数据集

在突发事件的识别与分类研究领域,不同的研究策略催生了多样化的数据集构建。研究人员根据具体的研究目标来设计和开发相应的数据集。对现有基于单模态和多模态的突发事件数据集进行统计,如表1所示。表1数据显示,公开的多模态突发事件数据集相对较为稀缺,这进一步强调了创建此类数据集的必要性。
Table 1 Existing single-modal and multi-modal emergency event datasets

表1 现有的单模态和多模态突发事件数据集

数据集分类 数据集名称 标签数量/个
单模态

CEC-Corpus

CEEC-Corpus

DuEE1.0

HumAID

TREC

5

6

8

5

5

多模态 CrisisMMD 4

1.1 单模态数据集

单模态数据集仅包含文本或图像形式的突发事件信息,它们主要为分析模型提供了详尽的文本描述或视觉信息。
由上海大学语义智能实验室开发的中文突发事件语料库(CEC-Corpus)和中文环境突发事件语料库(CEEC-Corpus),依据国务院《国家突发公共事件总体应急预案》的分类标准,从网络搜集了包括地震、火灾、交通事故、恐怖袭击和食物中毒在内的5类突发事件新闻报道,形成原始语料。这些原始材料经过文本预处理、分析、事件标注和一致性审核等步骤,最终形成标注好的语料库,CEC-Corpus共收录了332篇。该语料库采用XML格式进行标注,涵盖了6个核心的数据结构(标签):事件(Event)、指示词(Denoter)、时间(Time)、地点(Location)、参与者(Participant)和对象(Object)。这些标签分别用于描述事件本身及其相关要素,每个标签还定义了相应的属性,以丰富语料库的信息内容。相较于ACE[12]和TimeBank[13]等语料库,CEC语料库的规模虽不大,却在事件及其要素的标注上做得更为详尽。CEEC-Corpus从互联网上收集了6类环境污染类突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEEC合计100篇。
百度发布的DuEE1.0数据集[14]是一个中文事件抽取集合,涵盖了1.7万句含有事件信息的句子,共涉及2万个事件和65种事件类型。与传统的事件抽取评测相比,DuEE1.0不仅包括了如“结婚”“辞职”“地震”等常见事件类型,还新增了“点赞”等反映现代社会特色的事件类型。
HumAID[15]数据集是一个用于危机信息学研究的大规模数据集,包含了约77 000条人工标注的推文,这些推文是从2016年到2019年期间发生在世界各地的19次自然灾害事件中收集的约2 400万条推文中抽样得到的。这些推文被标注为以下几种人道主义类别:受伤或死亡、失踪或找到、基础设施和公共服务损坏、救援和捐赠需求或提供、其他相关信息。该数据集旨在支持更先进和数据密集型的深度学习模型,解决社交媒体上的灾难管理和救援问题。
在事件流赛道上,作者使用了来自TREC 2018 Incident Streams挑战的数据,其中包含危险程度和信息类型的标签,其中危险程度定义为一个分数,以确定需要立即向官方显示危险程度作为警报。有关每条推特所属特定事件的原始数据和信息从Crisis NLP[16]数据集中提取,该数据集包含2012—2018年期间发生的灾难事件的英文推特。作者数据集中的危机事件可以分为五大类:地震、洪水、台风、野火和袭击。
上述是现阶段单模态突发事件数据集,这些数据集虽然具有经典性,但仍存在一些局限性。一方面,这些数据集的数据类型较为单一,内容也相对过时,无法充分反映当前突发事件的全貌;另一方面,其仅对突发事件进行分类,并未包含非突发事件的内容,目前网络新闻内容较为杂乱,突发事件与非突发事件的区分也是突发事件分类任务中重要的一环。

1.2 多模态数据集

当前,多模态突发事件数据集的数量十分有限,且存在一些不足之处,这限制了研究人员在该领域的研究工作。
多模态突发事件数据集包含了除文字描述之外的其他信息形式,例如图像和视频等,这些额外的信息模态为突发事件的分类模型提供了更丰富的特征支持。CrisisMMD多模态Twitter数据集[17]由数千条手动注释的推文和图像组成,这些推文和图像是在2017年发生的7次重大自然灾害中收集的,包括地震、飓风、野火和洪水,这些自然灾害发生在世界不同地区。此多模态数据集并未包含所有突发事件类别,因此运用于相关分类研究中不够充分,进而可能影响最终的分类效果。

2 MEED

数据集MEED的创建过程如图1所示,涵盖了突发事件信息的搜集、加工、存储以及对数据集所进行的分析工作,旨在为突发事件的识别和分类提供更有力的支持。
Fig.1 MEED construction process

图1 MEED构建流程

Full size|PPT slide

2.1 数据的收集

本研究通过新浪微博、官方突发事件发布平台和新闻网站等多模态信息频繁出现的渠道收集数据,用以构建MEED数据集。具体而言,选取2019至2024年间应急管理部公布的全国四大突发事件关键词作为数据收集的依据,初步根据这些事件类型进行分类和标注,并通过人工审核来确保数据的准确性。
在社交媒体平台对用户数据访问有严格规定的情况下,研究团队首先根据官方指南申请了API开发者账户,以获得必要的用户标识和访问凭证。随后,利用Python编写的网络爬虫程序,按照突发事件的分类或关键词进行数据收集。在从新闻网站获取事件样本时,主要提取了标题、时间、正文、来源以及相关图像等信息。这一过程确保了数据收集的合法性和有效性。

2.2 数据的处理与存储

数据的预处理方面,只保留包含文本和相应图像的两种模态数据,确保文本和图像样本的数量相等。同时,剔除包含表情符号、颜文字等无关内容的数据,并进行去重处理,移除分辨率较低的图像,以保证数据集的质量和一致性。
(1)文本数据的处理。最初所爬取到的事件样本中包含大约两万条数据,这些原始数据可能包含文本乱码或图像无法显示等异常数据,需要对其进行进一步的处理。对收集到的原始数据进行深入处理时,首先尝试下载与事件相关联的图片。在这一过程中,如果发现图片链接失效或文本内容出现乱码,我们会将相应的事件记录标记为异常数据。在对数据进行过滤时,剔除这些被标记为异常的事件数据。表情符号能够一定程度上表达作者的言语意图,对于此类特殊符号,使用“表情”这一字符串来进行文本替换。
(2)图像数据的处理。在处理社交媒体上的图像数据时,由于平台通常会为每张上传的图片分配一个独特的字符串标识,这可能会导致在下载过程中出现许多重复的图片。为解决这一问题,本文借鉴了构建微博数据集的方法,采用基于局部感知哈希的近似复制图像检测算法来识别并删除数据集中的重复图像[18]。同时对于数据集中尺寸过小或内容仅为文字的图像,采用人工审核的方式进行删除。
(3)事件标注。根据国家发布的《GB/T 35561-2017突发事件分类与编码》规范[19]对所收集的图文数据进行类别标注,通过突发事件的发生过程、性质和机理,将突发事件分为五大类(自然灾害、事故灾难、公共卫生、社会安全、非突发事件)。标注过程分为两个阶段,第一阶段,将数据按照突发事件五大类进行初步标注;第二阶段,筛选出第一阶段得到的自然灾害类别数据进行细粒度分类标注。
(4)数据的存储。MEED中的每条事件数据包含了事件的标题、发布时间、正文、来源、对应图片名称以及所属类别6部分内容。MEED中收集了5个大类别,分别为事故灾难、公共卫生、社会安全、自然灾害以及非突发事件。其中对自然灾害类别进行了细粒度的划分,分为7个类别,分别为地质灾害、生物灾害、干旱灾害、海洋灾害、气象灾害、地震灾害以及森林草原火灾。图片的名称字段中,只保存图片编号不包含图片的存储路径。

2.3 数据集的分析

表2 表3展示了MEED的基本构成,它由15 181条事件组成,其中突发事件11 844条,非突发事件3 337条,图文比例为1 : 1。MEED是一个多模态、多类别的突发事件数据集,包含事故灾难、公共卫生、社会安全、自然灾害以及非突发事件5个大类,此外将自然灾害数据[20]细分为地质灾害、生物灾害、干旱灾害、海洋灾害、气象灾害、地震灾害以及森林草原火灾7个类别。
Table 2 Analysis of the number of MEED events

表2 MEED事件数量分析

类别名称 数量/个
事故灾难 4 619
公共卫生 4 271
社会安全 1 132
自然灾害 1 822
非突发事件 3 337
Table 3 Fine-grained quantitative analysis of natural disasters

表3 自然灾害细粒度数量分析

类别名称 数量/个
地质灾害 343
生物灾害 34
干旱灾害 6
海洋灾害 14
气象灾害 643
地震灾害 668
森林草原火灾 114

3 数据集对比验证

3.1 数据集对比

本文所构建的突发事件数据集主要优势是多模态,现有公开数据集多以单模态为主,几乎找不到公开的多模态数据集。在部分多模态突发事件分类研究的论文中有研究者所自建的多模态数据集,但在数量或类别上相比,本文所创建的数据集更胜一筹。CrisisMMD是目前现有的多模态突发事件公开数据集,表4是MEED和CrisisMMD的对比。由表可知,MEED数据量较为庞大,且类别更加丰富,具有一定的研究价值。
Table 4 Comparison between MEED and existing multimodal emergency event datasets

表4 MEED和现有的多模态突发事件数据集对比

数据集 突发事件/个 非突发事件/个 类别数量/个
CrisisMMD 12 043 0 4
MEED 11 844 3 337 5

3.2 数据集验证

为了有效验证MEED的性能,选择4种单模态突发事件分类和多模态突发事件分类方法,在MEED和CrisisMMD上进行对比。

3.2.1 单模态突发事件识别与分类方法

(1)BERT-Base[21]。该模型通过微调预训练的BERT模型,可以构建出高效的语言分类系统。本文基于预训练的BERT模型构建一个突发事件多分类模型。
(2)VGG-16。该模型在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)2014中取得优异成绩,因而引起了广泛关注。本文使用此模型进行图像单模态突发事件的识别与分类,搭建了一个简单的图像多分类模型。
(3)TextCNN[22]。此方法将原有的突发事件新闻作为前n类样本训练集,再引入非突发事件新闻标注数据变为新的n+1类训练数据集,随后使用词向量和TextCNN模型进行训练得到n+1类的分类结果,其中词向量采用腾讯AI实验室开源的中文词向量。

3.2.2 多模态突发事件识别与分类方法

(1)TextCNN +VGG16。该研究围绕事件分类展开,涵盖了3个核心环节:多模态特征提取、特征融合以及事件分类。在特征提取阶段,采用TextCNN来捕捉文本数据的关键信息,并利用预训练的VGG-16网络来识别图像中的特征。这些特征随后被送入一个隐藏层进行整合,最终通过Softmax分类器输出分类结果。
(2)BERT+Vit。该方法分别使用BERT模型和Vit模型提取文本特征和图像特征,在特征融合方面,运用加权融合方式将两种模态特征进行融合,最终通过Softmax分类器输出分类结果。

3.2.3 评价指标

使用准确率(Accuracy)和F1分数(F1 Score)两个指标评价各个方法在数据集上的性能,通过真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)这4个基本的检验指标运算得出。
准确率的计算公式如下:
Accuracy=TP+TNTP+TN+FP+FN
(1)
F1分数的计算公式如下:
F1=2×Precision×RecallPrecision+Recall
(2)
其中, Precision代表精确率,其计算公式如下:
Precision=TPTP+FP
(3)
Recall代表召回率,其计算公式如下:
Recall=TPTP+FN
(4)
在实验阶段,采用80%的数据用于模型的训练,剩下20%的数据则被保留用于最终的性能评估。

3.2.4 实验参数设置

这些对比方法的主要参数参考相应的论文进行设置,具体的参数设置如表5所示。
Table 5 Parameter setting for different emergency classification methods

表5 不同突发事件分类方法的参数设置

分类方法 批量大小 优化器
VGG-16 10 Adam
TextCNN 128 Adam
BERT-base 128 Adam
TextCNN + VGG16 10 Adam
BERT+Vit 10 Adam

3.2.5 验证结果

表6比较了不同突发事件分类方法在多个数据集上的表现,相关指标对比图如图2所示。结果显示,无论是单模态还是多模态方法,在MEED数据集上都能取得较好的分类效果,优于CrisisMMD数据集。具体到单模态方法,VGG16、TextCNN和BERT-base在MEED数据集上的准确率均高于CrisisMMD,其中BERT的表现最为出色。在多模态分类方法中,BERT+Vit方法在MEED上的表现最为出色,具体指标变化趋势图如图3所示。多模态突发事件分类方法得益于其丰富的内容特征,能够提供更多有价值的信息以支持决策过程。总体而言,多模态分类方法在效果上超越了仅依赖单一模态信息的分类方法。
Table 6 Detection effects of various emergency classification methods on different datasets

表6 多种突发事件分类方法在不同数据集上的检测效果

模型 MEED CrisisMMD
Accuracy F1-Score Accuracy F1-Score
VGG-16 0.856 0.855 0.833 0.832
TextCNN 0.858 0.860 0.808 0.809
BERT-base 0.966 0.957 0.852 0.891
TextCNN + VGG16 0.973 0.967 0.844 0.842
BERT+Vit 0.979 0.973 0.851 0.853
Fig.2 Comparison of indicators of different classification methods on MEED and CrisisMMD

图2 不同分类方法在MEED与CrisisMMD上的指标对比

Full size|PPT slide

Fig.3 Evaluation of BERT+Vit multimodal classification method on MEED

图3 BERT+Vit多模态分类方法在MEED上的指标评估

Full size|PPT slide

4 结语

本文通过深入研究多模态突发事件的识别与分类问题,以及多模态数据集的相关挑战,构建了一个全新的多模态数据集——MEED(Multimodal Emergency Event Dataset),旨在为突发事件的识别与分类提供支持。这一数据集的创建,为该领域的研究提供了宝贵的资源和新的视角。该数据集是现有公开数据集中为数不多的多类别多模态突发事件数据集。MEED将获取到的事件新闻分为五大类,其中对自然灾害类别进行更加细粒度的划分,这些数据可以被用来进行细粒度的突发事件识别与分类。在不同数据集上应用多种突发事件分类方法后,实验结果表明,使用MEED数据集进行训练的模型分类性能有所提高。
随着时间的推移,互联网上的突发事件数量持续增长,这要求我们不断更新数据集以适应新的情况。数据集的规模在很大程度上决定了分类模型的性能,本文所构建的突发事件数据集类别不平衡问题有待解决。在未来的研究中,我们将针对这些问题不断对数据集进行及时的更新和维护。

References

1
LIU Y F, NIU J W, ZHAO Q J, et al. A novel text classification method for emergency event detection on social media[C]//2018 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation(SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI). Guangzhou, China. IEEE, 2018: 1106-1111.
2
陈国兰. 基于爆发词识别的微博突发事件监测方法研究[J]. 情报杂志, 2014, 33(9): 123-128.
CHEN G L. Micro-blog emergencies detection approach based on burst words distinguishing[J]. Journal of intelligence, 2014, 33(9): 123-128.
3
张馨月, 宋绍成. 突发事件中基于支持向量机算法的文本分类研究[J]. 信息技术与信息化, 2022(8): 13-16.
ZHANG X Y, SONG S C. Research on text classification based on support vector machine algorithm in emergencies[J]. Information technology and informatization, 2022(8): 13-16.
4
闫宏丽, 罗永莲. 基于决策树方法的突发事件新闻分类[J]. 电子技术与软件工程, 2020(2): 194-195.
YAN H L, LUO Y L. Classification of emergency news based on decision tree method[J]. Electronic technology & software engineering, 2020(2): 194-195.
5
LAI S W, XU L H, LIU K, et al. Recurrent convolutional neural networks for text classification[C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Austin, Texas. ACM, 2015: 2267-2273.
6
ZHOU B, ZOU L, MOSTAFAVI A, et al. VictimFinder: Harvesting rescue requests in disaster response from social media with BERT[J]. Computers, environment and urban systems, 2022, 95: 101824.
7
胡庭恺, 陈祖琴, 葛继科, 等. 开放领域新闻中基于自适应决策边界的突发事件识别和分类研究[J]. 情报理论与实践, 2023, 46(2): 194-200.
HU T K, CHEN Z Q, GE J K, et al. Research on the recognition and classification of emergency events based on adaptive decision boundaries in open domain news[J]. Information studies: Theory & application, 2023, 46(2): 194-200.
8
范昊, 何灏. 融合上下文特征和BERT词嵌入的新闻标题分类研究[J]. 情报科学, 2022, 40(6): 90-97.
FAN H, HE H. News title classification based on contextual features and BERT word embedding[J]. Information science, 2022, 40(6): 90-97.
9
宋英华, 吕龙, 刘丹. 基于组合深度学习模型的突发事件新闻识别与分类研究[J]. 情报学报, 2021, 40(2): 145-151.
SONG Y H, LYU L, LIU D. Study on identification and classification of emergency news based on the combined deep learning model[J]. Journal of the China society for scientific and technical information, 2021, 40(2): 145-151.
10
陈锟, 裴雷, 范涛. 基于多模态融合的突发事件分类研究[J]. 现代情报, 2023, 43(6): 24-34.
CHEN K, PEI L, FAN T. Research on emergency classification based on multimodal fusion[J]. Journal of modern information, 2023, 43(6): 24-34.
11
周红磊, 张海涛, 栾宇, 等. 基于文本—图像增强的突发事件识别及分类方法研究[J]. 情报理论与实践, 2024, 47(4): 181-188.
ZHOU H L, ZHANG H T, LUAN Y, et al. Research on emergencies identification and classification method based on text-image enhancement[J]. Information studies: Theory & application, 2024, 47(4): 181-188.
12
DODDINGTON G R, MITCHELL A, PRZYBOCKI M A, et al. The automatic content extraction (ACE) program-tasks, data, and evaluation[C]//2004 Fourth International Conference on Language Resources and Evaluation, Portugal, 2004. The European Language Resources Association (ELRA): LREC, 2004, 2(1): 837-840.
13
MIRZA P, SPRUGNOLI R, TONELLI S, et al. Annotating causality in the TempEval-3 corpus[C]//Proceedings of the EACL 2014 Workshop on Computational Approaches to Causality in Language (CAtoCL). Gothenburg, Sweden. Stroudsburg, PA, USAACL, 2014: 10-19.
14
LI X Y, LI F Y, PAN L, et al. DuEE: A large-scale dataset for Chinese event extraction in real-world scenarios[M]//Natural Language Processing and Chinese Computing. Cham: Springer International Publishing, 2020: 534-545.
15
ALAM F, QAZI U, IMRAN M, et al. HumAID: Human-annotated disaster incidents data from twitter with deep learning benchmarks[J]. Proceedings of the international AAAI conference on web and social media, 2021, 15: 933-942.
16
PALEN L, VIEWEG S, SUTTON J, et al. Crisis informatics: Studying crisis in a networked world[C]//Proceedings of the Third International Conference on E-Social Science, Ann Arbor, Michigan, 2007. United States: ConnectivIT Lab & the Natural Hazards Center University of Colorado, Boulder, 2007: 7-9.
17
OFLI F, ALAM F, IMRAN M. Analysis of social media data using multimodal deep learning for disaster response[J/OL]. arXiv:2004.11838, 2020.
18
JIN Z W, CAO J, GUO H, et al. Multimodal fusion with recurrent neural networks for rumor detection on microblogs[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, California, USA. ACM, 2017: 795-816.
19
国家质量监督检验检疫总局, 中国国家标准化管理委员会. 突发事件分类与编码: GB/T 35561-2017 [S]. 北京: 中国标准出版社, 2018.
General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China, Standardization Administration of the People's Republic of China. Emergency classification and coding: GB/T 35561-2017 [S]. Beijing: Standards Press of China, 2018.
20
国家质量监督检验检疫总局, 中国国家标准化管理委员会. 自然灾害分类与代码: GB/T 28921-2012 [S]. 北京: 中国标准出版社, 2013.
General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China, Standardization Administration of the People's Republic of China. Classification and codes for natural disasters: GB/T 28921-2012 [S]. Beijing: Standards Press of China, 2013.
21
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota, 2019. North American: ACL, 2019: 4171-4186.
22
ZHANG Y, WALLACE B. A sensitivity analysis of (and practitioners' guide to) convolutional neural networks for sentence classification[EB/OL]. 2015: 1510.03820.
Share on Mendeley
PDF(889 KB)

17

Accesses

0

Citation

Detail

Sections
Recommended

/