当前位置:主页 > 学新知识 > 知识图谱 | (4) 知识(信息)抽取

知识图谱 | (4) 知识(信息)抽取

时间:2024-07-26 17:09:30 作者:
摘要:文章浏览阅读9.3k次,点赞6次,收藏34次。原文地址知识抽取NLP是人工智能领域的掌上明珠,知识(信息)抽取中关键技术主要是NLP处理技术

知识抽取

NLP是人工智能领域的掌上明珠,知识(信息)抽取中关键技术主要是NLP处理技术,主要以命名实体识别(实体抽取)与实体链接、实体关系抽取、事件抽取为主。如下图所示不同数据源知识抽取的过程。

实体抽取 摘要

实体抽取,又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包含三大类,实体类、时间类、数字类和7个小类,比如人、地名、时间、组织、日期、货币、百分比,是问答系统、翻译系统、知识图谱的基础,早期的NER的方法主要由语言学家手工构造规则模板,选用特定特征,包括统计信息、标点符号、指示词、方向词、中心词等,以模式与字符串相匹配为主要手段,但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。随着机器学习应用,提出了基于统计学的方法,主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF),基于统计方法的对特征选择要求较高,对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程,在特征学习方面具有较大优势,采用句子嵌入到CNN-CRF中,自动学习特征,对实体进行分类,实体抽取的LSTM-CRF ,BiLSTM-CRF模型,对实体识别提高了一个新的高度,目前。ACL会议提出了基于注意力机制、迁移学习及半监督学习的方法。

基于规则和词典的方法 基于统计的方法 基于深度学习的方法 开源流行的项目

近期趋势 医学命名实体识别(Biomedical Named Entity Recognition,BioNER) 实体链接 实体指称识别 候选实体生成 实体消歧 (实体)关系抽取 基于模板的关系抽取 基于监督学习的关系抽取

基于监督的关系抽取问题一般是转化为分类问题,模型的选择主要有SVM、朴素贝叶斯等机器学习分类模型,关系抽取的特征的定义对抽取的结果具有较大影响,依赖于特征工程。目前,深度学习表示学习的方法,避免了人工构建特征,只需要对词及位置的进行向量表示,主要有两个关系抽取的方法:流水线和联合法.

1)基于深度学习的流水线关系抽取

2)基于深度学习的联合关系抽取方法

基于弱监督学习的关系抽取

1)远程监督方法

该方法主要通过知识图谱与非结构化文本对齐的方式自动构建大量数据集,减少模型对人工标注数据的依赖。主要步骤有:

该方法存在语义漂移的现象,Guoliang JI的APCNNs模型和Jun Feng的CNN-RL模型具有代表性。

2)Bootstrapping 方法

事件抽取

事件抽取是指从自然语言文本中抽取用户感兴趣的事情信息,并以结构化的形式呈现出来。如下图所示:

事件抽取流水线 事件联合抽取方法 知识抽取相关竞赛 参考文献

知识抽取-实体及关系抽取

命名实体识别

主流的中文分词

命名实体识别综述

A simple BiLSTM-CRF model for Chinese Named Entity Recognition

命名实体识别全解析

github-中文实体命名

生物医学命名实体识别(BioNER)研究进展

事件抽取的相关Paper

事件抽取综述

相关阅读

发表评论

登录后才能评论

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。