概述
- 知识工程:数据和信息 → 知识
- 互联网大数据&行业大数据
- 现实 认知 语言 ,语言高于认知
语言空间–反映>认知空间–表达>物理空间
语言空间–指代>物理空间,但是会有很多歧义 - 意象图式:我们日常身体经验中反复出现的比较简单的结构,可以为我们的体验提供连贯性和结构性
感觉—知觉—意象—意象图式
范畴–抽象成>概念–总结出>意义–>语言
认知的基本思想:范畴化 + 想象力 - 符号表示:知识图谱 数值表示:神经网络
第二节课
- 知识表示是支持高效计算的数据结构,要求知识表示方法易于被机器处理
- Hinton暗知识:隐藏在深度神经网络的网络结构,节点连接的权重网络输出等参数化数据之下的知识。Hinton看来“暗知识”才是深度学习本质上学到的知识,也是探求深度学习可解释性的一种手段。
- 知识蒸馏:把大模型中有用的部分解释提取出来
- 在识别一辆宝马汽车的图片时,分类器将该图片识别为清洁车的概率很小,然而这个概率比起将其识别为胡萝卜的概率还是大很多。但是,由于从宏观上由于这两个概率都很小,这个有关概率差别的知识很容易在训练过程中被淹没。这无疑浪费了重要的、可以用于将大模型中的知识迁移到小中的宝贵先验概率。
这一点也可以被机器学习到(相关性?)
- 不同的语义网络之间难以互相操作
- 脚本:更细致,但约束更多
- 一阶谓词逻辑与函词
数学中的范畴论?把现有的数学逻辑结构推广到自然语言中,TBOX语言,概念、属性和个体之间的从属关系!
- 本体是共享概念模型的明确的形式化规范说明
- 类,子类,子子类,交交叉叉类,怎么更好的形式化描述
第三节课
- 知识的空间表示,Trans,位移距离模型
- 封闭世界假设:未在知识图谱中出现的事实都是错误的
–>开放世界假设:不在知识图谱中出现的是错误的或者缺失的 - RESCAL:用三维张量表示三元组来数值化,可以再做矩阵分解
- 预训练语言模型相对于传统神经网络语言模型,由静态词向量表示变成了根据上下文的词语表示
第四节课
- 预训练语言模型作为知识图谱使用
- 课件蕴含很多知识!
- 人工与大模型故意对抗就会发现很多问题,但是创造者不明白大模型到底是怎么工作的
第五节课 关系抽取
- 多任务联合学习的时候,标签组合学习
- 远程监督,维基百科文字回标到结构化的infobox,使用知识库中的关系,启发式的标注训练语料
- 常识知识库 ConceptNet