基于词汇增强的典型文物命名实体识别算法

发布时间:2023-09-29 18:00:06 来源:网友投稿

崔鑫,王琰,侯小刚,周月

(1.北京邮电大学计算机学院,北京 100876;
2.北京邮电大学人工智能学院,北京 100876;
3.北京邮电大学电子工程学院,北京 100876)

文物是中华文化的重要组成部分,对于保护和传承中华文化具有不可替代的作用。本文选取可移动文物中的三类典型文物石刻、陶瓷、青铜器作为研究对象,这些文物是中国文化遗产中较为珍贵且受到广泛关注的部分,对于研究中国古代科技、美学和文化历史等方面具有极为重要的价值。文物数据是指文物各种属性和信息的数字化记录和存储,例如文物的名称、年代、类别、材质、尺寸、形态、寓意、保存状况、历史背景等各方面的信息。通过对文物数据的采集、整理和分析,可以更好地了解和挖掘文物的历史文化价值,同时也为文物的保护和传承提供了基础数据支持。通过命名实体识别技术可以从非结构化文本数据中得到实体位置以及实体类型信息,减轻博物馆工作人员人工标注的压力,促进三元组数据的构建。

典型文物数据具有构词的特殊性,比如“四子折桂”表达了石刻的寓意,使用现有的命名实体识别算法很难将“四子折桂”识别为相应的寓意。为了解决该问题,本文提出了一种基于词汇增强的典型文物命名实体识别算法,算法在输入表示层和上下文编码层都引入词汇信息,提高了词语领域专业性。算法通过构建文物领域词库,将其作为基于词汇增强的典型文物命名实体识别算法词典,最终较好地解决了词边界判断错误问题,在典型文物数据集上取得了较好的效果。

命名实体识别是从句子中提取特定的实体并将其分为对应的类别,比如人名、地名、组织名等,是知识图谱构建的关键步骤,影响之后的关系抽取和知识图谱构建。基于深度学习的命名实体识别方法占据着支配性作用,深度学习采用多层次的处理结构,每一层都会从前一层中抽取部分特征信息,并抽象化表示出更高层次的特征,从而增强数据的表征能力。

基于深度学习的命名实体识别模型主要用到了三类输入表示:单词级别的输入表示、字符级别的输入表示以及混合表示。对于单词级别的输入表示,经过训练,每个单词可以用一个低维度的实值向量表示,Zheng 等人[1]采用Word2Vec 模型,对于字符级别的输入表示,可以更有效地利用词级别的信息,能够很好的处理词汇溢出(Out-of-vocabulary,OOV)问题,可以对没有见过的单词进行表示,并在语素层面上共享、处理信息。Peters 等人提出了ELMo[2]表示,利用深度双向语言模型对大规模语料进行预训练,经原始任务数据集微调,产生适用于命名实体识别等任务的词向量表示。Kuru 等人[3]提出了CharNER,将句子视为字符序列,并利用LSTM 提取字符级别的表示。除上述两种输入表示,一些研究将附加信息纳入到单词的最终表示中,然后再输入上下文编码层,附加信息包括地名录[4]、词汇相似性[5]、语言依赖性[6]和视觉特征[7]。Devlin 等人[8]提出了预训练语言模型BERT,通过无监督的预训练方式学习文本中的双向上下文信息,从而能够更好地理解单词和文本之间的关系。

中文命名实体识别方法通常先使用中文分词工具进行分词,再进行词级别的序列标注,中文分词工具不可避免地会错误地分割句子。一些方法[9,10]使用基于BERT 的方法进行命名实体识别,借助预训练语言模型BERT 提取通用的包含上下文的文本信息,但是BERT 在垂直领域的表现一般,特别是在文物类的文本中表现不佳,BERT提取的信息更加全局,而命名实体识别任务更需要局部信息,因此依然会有词边界判断错误的问题。Zhang 和Yang[11]提出了Lattice LSTM,Ma 等人[12]提出了SoftLexicon,在基于深度学习的命名实体识别方法的基础上,引入词汇信息,较好地解决了词边界识别错误的问题。SoftLexicon 在输入表示层引入词汇信息,Lattice LSTM 修改了原有LSTM的结构,在上下文编码层引入了词汇信息。

本文提出了一种结合SoftLexicon与Lattice LSTM的基于词汇增强的典型文物命名实体识别算法,在输入表示层采用SoftLexicon 特征进行编码,在上下文编码层采用Lattice LSTM 获取上下文语义信息,在输入表示层跟上下文编码层都引入词汇信息,并且构建了文物领域词库,将其作为词典引入基于词汇增强的典型文物命名实体识别算法,较好地解决了词边界判断错误的问题。

3.1 典型文物数据集制作

典型文物数据集选取了石刻、陶瓷、青铜器三类典型文物,主要数据来源于各地博物馆的官网(比如故宫博物院、山东博物馆),从博物馆官网上爬取到文物的名称、对应图片、对应的文字描述以及来源,具体如表1所示。

表1 典型文物数据集示例

在命名实体识别数据集构建中,主要对非结构化的文字描述进行标注。总计收集3128条数据,经过清洗之后的有效数据为3000 条,将其划分为训练集2400 条、验证集300 条以及测试集300 条。根据文博专家的指导意见,制定了如表2所示的实体类型。

表2 典型文物数据集的8种实体类型

序列标注的主要方法有BIO、BIOES以及BMES。BMES 常用于分词标注,BIO 标注缺少显式的单词结尾信息,在Lattice LSTM 跟SoftLexicon 模型中,需要用到单词结尾的信息,因此在数据集的标注阶段采用BIOES标注法。

3.2 领域词库构建

典型文物数据集中的文本有很多文物领域的专有名词和领域词汇,比如:“四子折桂”、“北方七宿”、“磁山文化”等。使用常见的中文分词工具对文物语料进行分词,往往无法进行准确地切分,影响语义信息的提取。文物领域词库的丰富性和准确性影响着命名实体识别以及之后的关系抽取,因此,非常有必要制作文物领域的领域词库。

本文主要研究的是文物领域的知识图谱构建,因此主要关注与文物名称、朝代、出土地点、博物馆、纹样、寓意等有关的细分领域词库。通过收集输入法词库、百科类词库、以及一些细分领域的词库,再加入人工筛选,以及领域专家提供部分种子词语,得到种子领域词库。在构建种子领域词库的过程中,主要参考了THUOCL 词库、搜狗输入法词库以及DomainWords‐Dict词库中一些细分领域词库,具体如表3所示。

表3 构建种子词库所需的领域词库

本文利用词向量技术扩充领域词库,采用腾讯AI Lab 提供的包含800 万词汇的中文词向量,对种子领域词库中的纹样、朝代、寓意等词语,计算语义相似的前10 个词,具体示例如表4 所示。以“龙纹”为例,可以通过词向量技术获得相似词“风纹”、“云纹”以及“龙风纹”,但是也会出现一些噪声词,比如“纹饰”、“夔龙”,所以还需要进行人工筛选。

表4 词向量相似词扩展示例

借助已有领域词库构建种子词库以及通过词向量技术对种子词库进行扩充,最终得到15000 个文物领域的词语,部分例子如表5所示。

表5 文物领域词库示例

如图1 所示,基于词汇增强的典型文物命名实体识别算法可以分为输入表示层、上下文编码层以及标签解码层。输入表示层采用SoftLexicon,上下文编码层采用Lattice LSTM,标签解码层采用CRF,输入表示层跟上下文编码层都引入了词汇信息,以增强命名实体识别模型鉴别词边界的能力。

图1 基于词汇增强的典型文物命名实体识别算法框架

本文分别对比了BERT+BiLSTM+CRF 模型、BERT+CRF 模型、Lattice LSTM 模型、SoftLexicon 模型以及SoftLexicon+Lattice LSTM+CRF 模型(本文方法)。实验结果如表6所示。

表6 实验结果

对于Lattice LSTM 方法、SoftLexicon 方法以及本文算法,本文使用两种词典分别进行实验,无‘*’标记符表示使用Lattice LSTM 提出的词库,‘*’标记符表示使用本文制作的文物领域词库。实验结果表明,BERT+CRF 模型与BERT+BiLSTM+CRF 的效果差别不大,这是由于BERT 强大的上下文编码能力可以提取出需要的信息,BiLSTM 只是在BERT 的基础上选择有效的信息进行处理。引入词汇信息的方法有明显的提升。输入表示层SoftLexicon 和上下文编码层Lattice LSTM 都引入词汇信息优于分别在两层单独引入词汇信息的效果。

为了解决文物领域数据构词特殊性导致实体边界识别错误的问题,本文构建了文物领域词库,并提出了一种基于词汇增强的典型文物命名实体识别算法。首先,在输入表示层采用SoftLexicon,引入词汇信息;
其次,在上下文编码层采用Lattice LSTM,在输入表示层的基础上再次引入词汇信息;
最后,在标签解码层采用CRF解码,获取最终的标签。实验结果表明,使用本文构建的文物领域词库,基于词汇增强的命名实体识别方法在典型文物数据集上有较好的表现。

本文在构建典型文物数据集时,主要数据来源于相关博物馆官网的图文对数据,只对文本数据进行了算法处理。目前并没有高精度的文物多模态命名实体识别数据集,未来会考虑在领域专家的指导下对图文数据进行多模态标注,融合图像文本信息,进行命名实体识别。

猜你喜欢词库命名典型用最典型的事写最有特点的人小学生作文(低年级适用)(2022年10期)2022-10-31多项式求值题的典型解法中学生数理化·七年级数学人教版(2022年11期)2022-02-14命名——助力有机化学的学习学生数理化(高中版.高考理化)(2021年2期)2021-03-19典型胰岛素瘤1例报道现代临床医学(2021年1期)2021-01-26一“吃”多用动漫界·幼教365(大班)(2020年7期)2020-06-26有一种男人以“暖”命名东方女性(2018年3期)2018-04-16为一条河命名——在白河源散文诗(2017年17期)2018-01-31输入法词库乾坤大挪移电脑爱好者(2017年5期)2017-05-04词库音系学的几个理论问题刍议英语知识(2016年1期)2016-11-11河鲀命名小考中国科技术语(2012年5期)2012-03-20

推荐访问:算法 实体 文物

版权所有:睿智文秘网 2009-2024 未经授权禁止复制或建立镜像[睿智文秘网]所有资源完全免费共享

Powered by 睿智文秘网 © All Rights Reserved.。备案号:辽ICP备09028679号-1