知识图谱课程笔记


概述

  • 知识工程:数据和信息 → 知识
  • 互联网大数据&行业大数据
  • 现实 认知 语言 ,语言高于认知
    语言空间–反映>认知空间–表达>物理空间
    语言空间–指代>物理空间,但是会有很多歧义
  • 意象图式:我们日常身体经验中反复出现的比较简单的结构,可以为我们的体验提供连贯性和结构性
    感觉—知觉—意象—意象图式
    范畴–抽象成>概念–总结出>意义–>语言
    认知的基本思想:范畴化 + 想象力
  • 符号表示:知识图谱 数值表示:神经网络

第二节课

  • 知识表示是支持高效计算的数据结构,要求知识表示方法易于被机器处理
  • Hinton暗知识:隐藏在深度神经网络的网络结构,节点连接的权重网络输出等参数化数据之下的知识。Hinton看来“暗知识”才是深度学习本质上学到的知识,也是探求深度学习可解释性的一种手段。
  • 知识蒸馏:把大模型中有用的部分解释提取出来
  • 在识别一辆宝马汽车的图片时,分类器将该图片识别为清洁车的概率很小,然而这个概率比起将其识别为胡萝卜的概率还是大很多。但是,由于从宏观上由于这两个概率都很小,这个有关概率差别的知识很容易在训练过程中被淹没。这无疑浪费了重要的、可以用于将大模型中的知识迁移到小中的宝贵先验概率。

这一点也可以被机器学习到(相关性?)

  • 不同的语义网络之间难以互相操作
  • 脚本:更细致,但约束更多
  • 一阶谓词逻辑与函词

数学中的范畴论?把现有的数学逻辑结构推广到自然语言中,TBOX语言,概念、属性和个体之间的从属关系!

  • 本体是共享概念模型的明确的形式化规范说明
  • 类,子类,子子类,交交叉叉类,怎么更好的形式化描述

第三节课

  • 知识的空间表示,Trans,位移距离模型
  • 封闭世界假设:未在知识图谱中出现的事实都是错误的
    –>开放世界假设:不在知识图谱中出现的是错误的或者缺失的
  • RESCAL:用三维张量表示三元组来数值化,可以再做矩阵分解
  • 预训练语言模型相对于传统神经网络语言模型,由静态词向量表示变成了根据上下文的词语表示

第四节课

  • 预训练语言模型作为知识图谱使用
  • 课件蕴含很多知识!
  • 人工与大模型故意对抗就会发现很多问题,但是创造者不明白大模型到底是怎么工作的

第五节课 关系抽取

  • 多任务联合学习的时候,标签组合学习
  • 远程监督,维基百科文字回标到结构化的infobox,使用知识库中的关系,启发式的标注训练语料
  • 常识知识库 ConceptNet

文章作者: Bill Z
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Bill Z !
评论
评论
  目录