本期PaperWeekly的主题是基于翻译模型(Trans系列)的知识表示学习,主要用来解决知识表示和推理的问题。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。一般而言的应用任务为triplet classification 和link prediction.自从2013年TransE模型提出后,产生了一系列模型对TransE模型进行改进和补充,比如TransH、TransG等等。本期PaperWeekly主要提供了Trans系列的7篇文章供大家赏读。paper目录: 1、TransE,NIPS2013,Translating embeddings for modeling multi-relational data。 2、TransH,AAAI2014,Knowledge graph embedding by translating on hyperplanes。 3、TransD,ACL2015,Knowledge graph embedding via dynamic mapping matrix。 4、TransA,arXiv2015,An adaptive approach for knowledge graph embedding。 5、TransG,arxiv2015,A Generative Mixture Model for Knowledge Graph Embedding) 6、KG2E,CIKM2015,Learning to represent knowledge graphs with gaussian embedding。 7、TranSparse,AAAI2016,Knowledge graph completion with adaptive sparse transfer matrix。 TransE:Translating Embeddings for Modeling Multi-relational Data作者 A Bordes, N Usunier, A Garcia-Duran, J Weston, O Yakhnenko 单位 CNRS, Google inc. 关键词 Embedding entities and relationships, Multi-relational data, link prediction 文章来源 NIPS 2013/12 问题 如何建立简单且易拓展的模型把知识库中的实体和关系映射到低维向量空间中,从而计算出隐含的关系? 模型 传统训练知识库中三元组(head,relation,tail)建模的方法参数特别多,导致模型太复杂难以解释,并且需要很大的计算代价,很容易出现过拟合或欠拟合问题。而简单的模型在表现上与复杂的模型几乎一样,但更易拓展。TransE的训练过程如下图:
TransE模型的训练中,第12步是损失函数,对E和L做uniform初始化之后,让正确的h+l-t结果趋近于0,让错误的h‘+l-t’的结果变大,损失函数结果大于0取原值,小于0则取0,这种hinge loss function可以尽可能的将对和错分开,模型使用SGD训练,每次更新可以只更新这个batch里的三元组的向量,因为参数之间并没有冲突。 资源 数据集 WordNet 数据集 Freebase Code: https://github.com/thunlp/KB2E 简评 本文提出了一种将实体与关系嵌入到低维向量空间中的简单模型,弥补了传统方法训练复杂、不易拓展的缺点。尽管现在还不清楚是否所有的关系种类都可以被本方法建模,但目前这种方法相对于其他方法表现不错。TransE更是作为知识库vector化的基础,衍生出来了很多变体。 TransH:Knowledge Graph Embedding by Translating on Hyperplanes作者 Zhen Wang1, Jianwen Zhang2, Jianlin Feng1, Zheng Chen2 单位 Sun Yat-sen University microsoft 关键词 knowledge graph embedding, Multi-relational data 文章来源 AAAI 2014 问题 对知识库中的实体关系建模,特别是一对多,多对一,多对多的关系。设计更好的建立负类的办法用于训练。 模型 过去指示图库建模的方法参数过多, TransE在一定程度上解决了这个问题, 但是TransE过于简单,很难对一对多,多对一和多对多关系建模。所以为了平衡模型复杂度和建模效果,TransH将把关系映射到另一个空间(如下图 )。 注意: 这种想法和Distant Model (Bordes et al. 2011)很相似,但是TransH用了更少的参数, 因为TransH假设关系是向量而不是距离。 (责任编辑:本港台直播) |