1. 基于图的表示
二元组G=G(V,E),V表示点的集合,E表示边的集合
2. 基于三元组的表示
<主体(Subject)谓词(Predicate)客体(Object)>
<主体(Subject)属性(Property)属性值(Property Value)>
3. 知识图谱的数值表示
知识图谱中事实(三元组<h,r,t>)
损失函数fr(h,t),其中h,t是三元组的两个实体h和t的向量化表示。当事实<h,r,t>成立时,期望fr(h,t)最小
目标函数:min Σ<h,r,t>∈O fr(h,t),其中O表示所有的事实集合
3.1 基于距离的模型
SE思想:当两个实体属于同一个三元组<h,r,t>,他们的向量表示在投影后的空间应该彼此靠近
损失函数:fr(h,t)=|| Wr,1 h - Wr,2 t|| l1 使用的1-范数
3.2 基于翻译的模型
<柏拉图,老师,苏格拉底>
3.2.1 TransE模型
思想:h+r≈t
损失函数:fr(h,t)=|| h+r -t|| l1/l2
目标函数: L=Σ(h,r,t)∈S Σ(h',r,t')∈S' [γ+fr(h,t)-fr(h',t')]
3.2.2 TransH模型
思想:头尾实体在关系r对应的超平面上的投影彼此接近
目标函数:fr(h,t)=|| (h-WrT h Wr)+dr-(t-WrT t Wr)||
3.2.3 TransR模型
思想:实体和关系在不同的向量空间中分开表示
损失函数:fr(h,t)=|| Mr h + r - Mr t || l1/l2
3.2.4 TransD模型
思想:实体映射由关系和实体映射向量共同决定
损失函数:fr(h+t)=|| Mrh h +r - Mrt t || l1/l2=|| (rp hpT + I mn)h +r - (rp tpT +I mn)t || l1/l2
4. 其他相关的表示
4.1 谓词逻辑(Predicate Logic)
否定(Negation ¬ )
析取(Disjuction ∨)
合取(Conjuction ∧)
蕴含(Implication ⇒)
全程量词(Universial Quantifer ∀)
存在量词(Exisential Quantier ∃)
4.2 产生式规则
IF <condition> THEN <conclusion>
4.3 框架
4.4 树形知识
4.5 概率图模型(Probalistic Graphical Model)
贝叶斯网络:
有向无环图模型,节点是一组随机变量X={X1,X2,......Xn},节点之间的有向边Xi->Xj表示Xj的分布取决于Xi的取值
令G=(I,E)代表一个贝叶斯网络,I表示节点的集合,E表示有向边的集合
X={Xi}i∈I 表示有向无环图中的某一结点i代表的随机变量
每个随机变量Xi在G中的父节点集Parent(Xi),则Xi与所有的Xi的非后代节点变量条件独立。
联合概率分布P(X)=∏ P(Xi | Parent(Xi) )
马尔可夫随机场(Markov Random Field)MRF
无向概率图模型,代表一组随机变量的联合分布,节点表示随机变量X={X1,X2,......Xn},边表示节点之间的统计依赖关系。
给定一个随机变量的邻居信息该随机变量独立于其所有的非邻居变量。
MRF基于势函数(Potential Function)来估计联合概率分布,势函数用于度量关系强度
多个变量的联合概率分布通过图中最大团(Maximal Clique)分解为多个势函数的乘积,每个最大团对应一个势函数Φc
联合概率分布分解为最大团上的势函数的乘积 P(X=x)=1/Z ∏ c∈ cl(G)Φc(xc)
cl(G)是MRF对应的最大团集合,Z是用于规范化的常数
4.6 马尔可夫链(Markov Chain MC)
边上带概率的有向图,节点集合是状态S,每个有向边si->sj代表从状态si转移到状态sj的概率 P(Xt+1=sj | Xt=si)
马尔科夫性(Markov Property):某个随机变量序列的下一个状态仅仅与当前的状态有关,与之前的状态无关
P(Xt+1 | Xt,........X1)=P(Xt+1 | Xt)
Xt表示系统在t时刻状态的随机变量
马尔可夫决策过程(Markov Decision Process MDP)
在马尔可夫的状态集和转移矩阵的基础上增加了动作集合和奖励函数
系统在t+1时刻的状态St+1不仅取决于当前的状态St,还取决于t时刻采取的动作at,为每个动作定义了相应的奖励函数r(st,at)
目标是找到最优策略丌,丌本质上是状态st到对应动作at的映射丌:S-A
Xt可取状态si∈S
4.7 马尔可夫逻辑网(Markov Logic Network MLN)
将一阶逻辑和马尔可夫随机场结合起来的模型
5. 机器学习
关键因素:
模型选择:函数族选择,线性函数
优化准则:损失函数,均方差
优化方法:梯度下降,Adam
局限性:
样本特征主要靠专家经验或特征准换的方法获取
选择简单的函数模型,如线性函数
监督学习
无监督学习:
聚类(Clustering):将相似数据聚成类
分布密度估计(Density Estimation):生成观测数据的概率分布密度函数
维度简约(Dimensionality Reduction):将高维数据投影到低维数据,捕捉数据的本质特征或便于数据可视化
半监督学习
6.深度学习
优势:
中间层可以自动获取特征
多个中间层可以表达复杂的非线性函数映射
6.1 前馈神经网络(Feedforward Neural Network)
多层感知器(Multilayer Perceptron)
层与层之间的神经元采用全连接方式
除输入层外,每层的神经元采用非线性激活函数,比如 Sigmoid,Relu
无反馈,信号从输入层向输出层单向传播
6.2 卷积神经网络(Convolution Neural Network CNN )
使用卷积操作代替全连接层所使用的矩阵乘法操作
处理图像数据
输入层,卷积层,池化层,全连接层
特点:稀疏连接,参数共享
6.3 循环神经网络(Recurrent Neural Network RNN)
特点:参数共享,序列上不同时间点的权重共享
处理序列数据的神经网络
应用于语音,自然语言等可以建模为序列的数据处理中。
本质上是指数据在t时刻的状态取决于其前序状态
第i个输入单元xi,产生第i个时刻得记忆hi,hi=f(hi-1,xi)
6.4 注意力机制
人可以在关注一些信息的同时忽略其他信息
输出往往与输入的部分数据相关,而其他数据可以被忽略。
阅读理解,对于输入的长篇文章,只有部分词语与答案相关,其他的可以忽略
翻译,翻译句子中的每个词就是输入句子中某个词的直译
若输入X包括n各元素,每个元素的向量分别表示为X1,X2......Xn。对于问题q,可以使用一个随机变量z选择Xi 回答q。
在[1,n]的范围内给定输入X和查询q,选择输入Xi的概率ai
ai=exp(s(Xj,q))/ Σ j∈(1,n)exp(s(Xj,q))
ai在本质上是注意力在输入数据上的分布。计算ai的关键可归结为对注意力打分函数s(Xi,q)的评估。
评估方式:加性模型(Additive Attension),点积模型(Dot-product Attentiom),缩放点积模型(Scale Dot-product Attention),双线性模型(Bi-linear Attention)
7. 自然语言处理
自然语言理解:自然语言输入--映射--合适有效的表示
自然语言生成:计算机的一些内在表示--生成--有意义的自然语言词汇,句子,段落甚至篇章
7.1 基本概念
字符(Character)
单词(Word)
词汇(Phrase)---实体或者概念
句子(Sentense)
段落(Paragraph)
篇章(Document)
词法分析(Lexical Analysis)
语法分析(Syntactic Analysis)
语义分析(Semantic Analysis)
语用分析(Pragmatic Analysis )
断句(Sentense Segmentation):通过标点符号实现
分词(Tokenization):常用的分词工具有Jieba,SnowNLP,NLPIR
词性标注(Part-of-Speech Tagging):名词,动词,形容词,副词等
词性还原(Lemmatization):将名词的单复数,be动词以及动词的过去时态和现在进行时态还原成相应的原形
识别停用词(Identifying Stop-Words): in the of ,停用词表
依存句法分析(Dependency Syntax Parsing):识别句子的语法结构,主要手段是分析句子各语言成分之间的依存关系,分析结果是一棵依赖树。树的根节点是关键动词。
命名实体识别(Named Entity Recognition):识别句子的词序列中具有特定意义的实体,并将其标注为人名,机构名,日期,地名,时间和职务。
共指消解(Conference Resolution):识别句子中同一实体的所有不同表达。
语义角色分析(Semantic Role Labeling):围绕动词短语(谓语)得相关成分展开识别,比如施事者,受事者,时间,地点
7.2 文本得向量化表示
7.2.1 离散表示(Discrete Representation)
读热表示(one-hot)
beijing is the capital of China and it is also the political center of China.
编码得字典为{"beijing ":1,"is":2,"the":3,"capital":4,"of":5,"China":6,"and":7,"it":8,"also":9,"political":10,"center":11}
beijing:[1,0,0,0,0,0,0,0,0,0,0,0]
is: [0,1,0,0,0,0,0,0,0,0,0,0]
词袋表示:[1,2,3,1,2,2,1,1,1,1,1]
问题:任何两个词得向量都是相互正交得,导致气欧式距离为0,显然对于猫和狗等语义相似得词不合理
7.2.2 连续表示----分布式表示(Distribute Representation)
思想:将语言得语义或者语法特征分散存储再一个低维,稠密的实数向量中。
Skip-gram模型:学习合理词向量,利用词向量准确预测上下文的概率尽可能高
给定w1,w2,w3.......wN,最大化给定任意词wi,观测到wi-c到wi+c的期望概率
CBOW模型:根据上下文预测目标词汇
如给定(the cat sits on the )预测(sofa)