龙岩第一社区

查看:1804 回复:0 发表于 2018-11-3 07:17
  • TA的每日心情
    慵懒
    2018-8-5 11:22
  • 发表于 2018-11-3 07:17:05 | 显示全部楼层 |阅读模式

    知识图谱构建的关键技术 [复制链接]

    知识图谱构建的关键技术

    大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。

    知识图谱构建技术应用表示则通过一定有效手段对知识要素表示,便于进一步处理使用。然后通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。

    接下来,本文将以知识抽取、知识表示、知识融合及知识推理技术为重点,选取代表性的方法,说明其中的相关研究进展和实用技术手段 。

    1 知识抽取

    知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。

    1.1 实体抽取

    实体抽取也称为命名实体学习或命名实体识别,指的是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。

    我们将实体抽取的方法分为4种:基于百科站点或垂直站点提取、基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。

    1.2 语义类抽取

    语义类抽取是指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联, 作为实体层面上的规整和抽象。有一种行之有效的语义类抽取方法,包含三个模块:并列度相似计算、上下位关系提取以及语义类生成。

    1.3 属性和属性值抽取

    属性提取的任务是为每个本体语义类构造属性列表,而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。

    1.4 关系抽取

    关系抽取的目标是解决实体语义链接的问题。关系的基本信息包括参数类型、满足此关系的元组模式等。

    2 知识表示

    传统的知识表示方法主要是以RDF(Resource Deion Framework资源描述框架)的三元组SPO(subject,predicate,object)来符号性描述实体之间的关系。但是其在计算效率、数据稀疏性等方面面临诸多问题。

    近年来,以深度学习为代表的学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。

    2.1 代表模型

    知识表示学习的代表模型有距离模型、单层神经网络模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。

    2.2 复杂关系模型

    知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N4种类型,而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。

    现在已经从最开始的TransH模型发展到了用高斯分布来刻画实体与关系的KG2E模型,模型使用高斯分布的均值表示实体或关系在语义空间中的中心位置,协方差则表示实体或关系的不确定度


    3 知识融合

    通过知识提取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标。但是由于知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、层次结构缺失等问题,所以必须要进行知识的融合。

    3.1 实体对齐

    实体对齐也称为实体匹配或实体解析或者实体链接,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。

    文思海辉(pactera)深耕AI人工智能解决方案在行业的应用领域,专注于AI人工智能技术与行业需求创新结合,赋能客户与行业,文思海辉以卓越的数字化服务能力深厚的行业积累在AI大数据、AI地产、AI金融、AI客服、AI制造等多领域为全球行业用户提供AI人工智能创新技术及数字解决方案。


    「真诚赞赏,手留余香」
    您需要登录后才可以回帖 登录 | 立即注册 微信登录

    本版积分规则

    发表新贴 返回顶部