齐梓均, 牛当当, 吴华瑞, 张礼麟, 王仑峰, 张宏鸣
【目的/意义】 中文猕猴桃文本在段落上下文主题与字符间的左右关系中,展现出垂直与水平双维度特性。若能充分利用中文猕猴桃文本的双维特性,将有助于进一步提升命名实体识别的识别效果。基于此,提出了一种基于双维信息与剪枝的命名实体识别方法,命名为KIWI-Coord-Prune(kiwifruit-CoordKIWINER-PruneBi-LSTM)。 【方法】 通过设计CoordKIWINER与PruneBi-LSTM两个模块,对中文猕猴桃文本中的双维信息进行精准处理。其中CoordKIWINER模块能够显著提升模型捕捉复杂和嵌套实体的能力,从而生成涵盖更多文本信息的加强字符矢量;PruneBi-LSTM模块在上一模块的基础上,加强了模型对重要特征的学习与识别能力,从而进一步提升了实体识别效果。 【结果和讨论】 在自建数据集KIWIPRO和四个公开数据集人民日报(People's Daily)、ClueNER、Boson,以及ResumeNER上进行试验,并与LSTM、Bi-LSTM、LR-CNN、Softlexicon-LSTM,以及KIWINER五个先进模型进行对比,本研究提出的方法在5个数据集上分别取得了较好的F1值,分别为89.55%、91.02%、83.50%、83.49%和95.81%。 【结论】 与现有方法相比,本研究提出的方法不仅能够有效提升中文猕猴桃领域文本的命名实体识别效果,且具有一定的泛化性,同时也能够为相关知识图谱和问答系统的构建等下游任务提供技术支持。