1. 基於圖的表示
二元組G=G(V,E),V表示點的集合,E表示邊的集合
2. 基於三元組的表示
<主體(Subject)謂詞(Predicate)客體(Object)>
<主體(Subject)屬性(Property)屬性值(Property Value)>
3. 知識圖譜的數值表示
知識圖譜中事實(三元組<h,r,t>)
損失函數fr(h,t),其中h,t是三元組的兩個實體h和t的向量化表示。當事實<h,r,t>成立時,期望fr(h,t)最小
目標函數:min Σ<h,r,t>∈O fr(h,t),其中O表示所有的事實集合
3.1 基於距離的模型
SE思想:當兩個實體屬於同一個三元組<h,r,t>,他們的向量表示在投影后的空間應該彼此靠近
損失函數:fr(h,t)=|| Wr,1 h - Wr,2 t|| l1 使用的1-范數
3.2 基於翻譯的模型
<柏拉圖,老師,蘇格拉底>
3.2.1 TransE模型

思想:h+r≈t
損失函數:fr(h,t)=|| h+r -t|| l1/l2
目標函數: L=Σ(h,r,t)∈S Σ(h',r,t')∈S' [γ+fr(h,t)-fr(h',t')]
3.2.2 TransH模型

思想:頭尾實體在關系r對應的超平面上的投影彼此接近
目標函數:fr(h,t)=|| (h-WrT h Wr)+dr-(t-WrT t Wr)||
3.2.3 TransR模型

思想:實體和關系在不同的向量空間中分開表示
損失函數:fr(h,t)=|| Mr h + r - Mr t || l1/l2
3.2.4 TransD模型

思想:實體映射由關系和實體映射向量共同決定
損失函數:fr(h+t)=|| Mrh h +r - Mrt t || l1/l2=|| (rp hpT + I mn)h +r - (rp tpT +I mn)t || l1/l2
4. 其他相關的表示
4.1 謂詞邏輯(Predicate Logic)
否定(Negation ¬ )
析取(Disjuction ∨)
合取(Conjuction ∧)
蘊含(Implication ⇒)
全程量詞(Universial Quantifer ∀)
存在量詞(Exisential Quantier ∃)
4.2 產生式規則
IF <condition> THEN <conclusion>
4.3 框架
4.4 樹形知識
4.5 概率圖模型(Probalistic Graphical Model)
貝葉斯網絡:
有向無環圖模型,節點是一組隨機變量X={X1,X2,......Xn},節點之間的有向邊Xi->Xj表示Xj的分布取決於Xi的取值
令G=(I,E)代表一個貝葉斯網絡,I表示節點的集合,E表示有向邊的集合
X={Xi}i∈I 表示有向無環圖中的某一結點i代表的隨機變量
每個隨機變量Xi在G中的父節點集Parent(Xi),則Xi與所有的Xi的非后代節點變量條件獨立。
聯合概率分布P(X)=∏ P(Xi | Parent(Xi) )
馬爾可夫隨機場(Markov Random Field)MRF
無向概率圖模型,代表一組隨機變量的聯合分布,節點表示隨機變量X={X1,X2,......Xn},邊表示節點之間的統計依賴關系。
給定一個隨機變量的鄰居信息該隨機變量獨立於其所有的非鄰居變量。
MRF基於勢函數(Potential Function)來估計聯合概率分布,勢函數用於度量關系強度
多個變量的聯合概率分布通過圖中最大團(Maximal Clique)分解為多個勢函數的乘積,每個最大團對應一個勢函數Φc
聯合概率分布分解為最大團上的勢函數的乘積 P(X=x)=1/Z ∏ c∈ cl(G)Φc(xc)
cl(G)是MRF對應的最大團集合,Z是用於規范化的常數
4.6 馬爾可夫鏈(Markov Chain MC)
邊上帶概率的有向圖,節點集合是狀態S,每個有向邊si->sj代表從狀態si轉移到狀態sj的概率 P(Xt+1=sj | Xt=si)
馬爾科夫性(Markov Property):某個隨機變量序列的下一個狀態僅僅與當前的狀態有關,與之前的狀態無關
P(Xt+1 | Xt,........X1)=P(Xt+1 | Xt)
Xt表示系統在t時刻狀態的隨機變量
馬爾可夫決策過程(Markov Decision Process MDP)
在馬爾可夫的狀態集和轉移矩陣的基礎上增加了動作集合和獎勵函數
系統在t+1時刻的狀態St+1不僅取決於當前的狀態St,還取決於t時刻采取的動作at,為每個動作定義了相應的獎勵函數r(st,at)
目標是找到最優策略丌,丌本質上是狀態st到對應動作at的映射丌:S-A
Xt可取狀態si∈S
4.7 馬爾可夫邏輯網(Markov Logic Network MLN)
將一階邏輯和馬爾可夫隨機場結合起來的模型
5. 機器學習
關鍵因素:
模型選擇:函數族選擇,線性函數
優化准則:損失函數,均方差
優化方法:梯度下降,Adam
局限性:
樣本特征主要靠專家經驗或特征准換的方法獲取
選擇簡單的函數模型,如線性函數
監督學習
無監督學習:
聚類(Clustering):將相似數據聚成類
分布密度估計(Density Estimation):生成觀測數據的概率分布密度函數
維度簡約(Dimensionality Reduction):將高維數據投影到低維數據,捕捉數據的本質特征或便於數據可視化
半監督學習
6.深度學習
優勢:
中間層可以自動獲取特征
多個中間層可以表達復雜的非線性函數映射
6.1 前饋神經網絡(Feedforward Neural Network)
多層感知器(Multilayer Perceptron)
層與層之間的神經元采用全連接方式
除輸入層外,每層的神經元采用非線性激活函數,比如 Sigmoid,Relu
無反饋,信號從輸入層向輸出層單向傳播
6.2 卷積神經網絡(Convolution Neural Network CNN )
使用卷積操作代替全連接層所使用的矩陣乘法操作
處理圖像數據
輸入層,卷積層,池化層,全連接層
特點:稀疏連接,參數共享
6.3 循環神經網絡(Recurrent Neural Network RNN)
特點:參數共享,序列上不同時間點的權重共享
處理序列數據的神經網絡
應用於語音,自然語言等可以建模為序列的數據處理中。
本質上是指數據在t時刻的狀態取決於其前序狀態
第i個輸入單元xi,產生第i個時刻得記憶hi,hi=f(hi-1,xi)

6.4 注意力機制
人可以在關注一些信息的同時忽略其他信息
輸出往往與輸入的部分數據相關,而其他數據可以被忽略。
閱讀理解,對於輸入的長篇文章,只有部分詞語與答案相關,其他的可以忽略
翻譯,翻譯句子中的每個詞就是輸入句子中某個詞的直譯
若輸入X包括n各元素,每個元素的向量分別表示為X1,X2......Xn。對於問題q,可以使用一個隨機變量z選擇Xi 回答q。
在[1,n]的范圍內給定輸入X和查詢q,選擇輸入Xi的概率ai
ai=exp(s(Xj,q))/ Σ j∈(1,n)exp(s(Xj,q))
ai在本質上是注意力在輸入數據上的分布。計算ai的關鍵可歸結為對注意力打分函數s(Xi,q)的評估。
評估方式:加性模型(Additive Attension),點積模型(Dot-product Attentiom),縮放點積模型(Scale Dot-product Attention),雙線性模型(Bi-linear Attention)
7. 自然語言處理
自然語言理解:自然語言輸入--映射--合適有效的表示
自然語言生成:計算機的一些內在表示--生成--有意義的自然語言詞匯,句子,段落甚至篇章
7.1 基本概念
字符(Character)
單詞(Word)
詞匯(Phrase)---實體或者概念
句子(Sentense)
段落(Paragraph)
篇章(Document)
詞法分析(Lexical Analysis)
語法分析(Syntactic Analysis)
語義分析(Semantic Analysis)
語用分析(Pragmatic Analysis )
斷句(Sentense Segmentation):通過標點符號實現
分詞(Tokenization):常用的分詞工具有Jieba,SnowNLP,NLPIR
詞性標注(Part-of-Speech Tagging):名詞,動詞,形容詞,副詞等
詞性還原(Lemmatization):將名詞的單復數,be動詞以及動詞的過去時態和現在進行時態還原成相應的原形
識別停用詞(Identifying Stop-Words): in the of ,停用詞表
依存句法分析(Dependency Syntax Parsing):識別句子的語法結構,主要手段是分析句子各語言成分之間的依存關系,分析結果是一棵依賴樹。樹的根節點是關鍵動詞。
命名實體識別(Named Entity Recognition):識別句子的詞序列中具有特定意義的實體,並將其標注為人名,機構名,日期,地名,時間和職務。
共指消解(Conference Resolution):識別句子中同一實體的所有不同表達。
語義角色分析(Semantic Role Labeling):圍繞動詞短語(謂語)得相關成分展開識別,比如施事者,受事者,時間,地點

7.2 文本得向量化表示
7.2.1 離散表示(Discrete Representation)
讀熱表示(one-hot)
beijing is the capital of China and it is also the political center of China.
編碼得字典為{"beijing ":1,"is":2,"the":3,"capital":4,"of":5,"China":6,"and":7,"it":8,"also":9,"political":10,"center":11}
beijing:[1,0,0,0,0,0,0,0,0,0,0,0]
is: [0,1,0,0,0,0,0,0,0,0,0,0]
詞袋表示:[1,2,3,1,2,2,1,1,1,1,1]
問題:任何兩個詞得向量都是相互正交得,導致氣歐式距離為0,顯然對於貓和狗等語義相似得詞不合理
7.2.2 連續表示----分布式表示(Distribute Representation)
思想:將語言得語義或者語法特征分散存儲再一個低維,稠密的實數向量中。
Skip-gram模型:學習合理詞向量,利用詞向量准確預測上下文的概率盡可能高
給定w1,w2,w3.......wN,最大化給定任意詞wi,觀測到wi-c到wi+c的期望概率
CBOW模型:根據上下文預測目標詞匯
如給定(the cat sits on the )預測(sofa)
