Gremlin簡介
Gremlin是Apache TinkerPop 框架下的圖遍歷語言。Gremlin是一種函數式數據流語言,可以使得用戶使用簡潔的方式表述復雜的屬性圖(property graph)的遍歷或查詢。每個Gremlin遍歷由一系列步驟(可能存在嵌套)組成,每一步都在數據流(data stream)上執行一個原子操作。
Gremlin包括三個基本的操作:
- map-step
對數據流中的對象進行轉換; - filter-step
對數據流中的對象就行過濾; - sideEffect-step
對數據流進行計算統計;
以下是Gremlin在一些場景中的具體應用:
- 1.查找Gremlin朋友的朋友
g.V().has("name","gremlin").
out("knows").
out("knows").
values("name")
- 2.查找那些由兩個朋友共同創建的項目
g.V().match(
as("a").out("knows").as("b"),
as("a").out("created").as("c"),
as("b").out("created").as("c"),
as("c").in("created").count().is(2)).
select("c").by("name")
- 3.給出Gremlin的所有上司,直至CEO
g.V().has("name","gremlin").
repeat(in("manages")).
until(has("title","ceo")).
path().by("name")
- 4.獲得Gremlin合作者的頭銜分布
g.V().has("name","gremlin").as("a").
out("created").in("created").
where(neq("a")).
groupCount().by("title")
- 5.獲取Gremlin購買產品的相關產品列表並排序
g.V().has("name","gremlin").
out("bought").aggregate("stash").
in("bought").out("bought").
where(not(within("stash"))).
groupCount().order(local).by(values,decr)
- 6.獲取排名前十的中心人物
g.V().hasLabel("person").
pageRank().
by("friendRank").
by(outE("knows")).
order().by("friendRank",decr).
limit(10)
OLTP 和 OLAP遍歷
-
一次編寫,到處運行
Gremlin遵循“一次編寫,到處運行”的設計哲學。這意味着不僅所有的TinkerPop啟用的圖形系統都能執行Gremlin遍歷,而且每個Gremlin遍歷都可以被評估為實時數據庫查詢或批處理查詢。(前者被稱為在線交易流程(OLTP),后者被稱為在線分析流程(OLAP))。 -
協調多種圖遍歷
這種普遍性是由Gremlin遍歷機實現的。這種分布式、基於圖形的虛擬機了解如何協調多機器圖遍歷的執行。好處是,用戶不需要學習數據庫查詢語言和域特定的BigData分析語言(例如Spark DSL,MapReduce等)。Gremlin是構建基於圖的應用程序所必要的,其余一切都交給Gremlin遍歷機處理。
命令式和聲明式遍歷
Gremlin遍歷可以以命令式(程序式)方式,聲明性(描述性)方式編寫,也可以包含命令性和聲明性的混合方式編寫。
- 命令式編寫方式
獲得Gremlin合作者的上司名字分布:
g.V().has("name","gremlin").as("a").
out("created").in("created").
where(neq("a")).
in("manages").
groupCount().by("name")
一個命令式的Gremlin遍歷告訴運行器如何執行遍歷中的每一步;然后,遍歷器分裂到所有的“Gremlin”的合作者(去除Gremlin自己);下一步,遍歷器走到“Gremlin”合作者的上司(managers),最終根據上司的名字進行統計分發。
之所以是命令式的Gremlin遍歷,就是它明確地、程序化地告訴遍歷器“去這里,然后去那里”。
- 聲明式編寫方式
以下使用聲明式編寫方式實現了同樣的結果:
g.V().match(
as("a").has("name","gremlin"),
as("a").out("created").as("b"),
as("b").in("created").as("c"),
as("c").in("manages").as("d"),
where("a",neq("c"))).
select("d").
groupCount().by("name")
聲明式的Gremlin遍歷並不能告訴遍歷器執行它們的步驟的順序,而是允許每個遍歷器從一個(可能嵌套的)模式的集合中選擇一個模式來執行。
然而,聲明遍歷具有額外的好處,它不僅利用了編譯時查詢計划器(如命令式遍歷),而且還是一個運行時查詢計划器,根據每個模式的歷史統計信息選擇下一個執行哪個遍歷模式 - 有利於那些傾向於減少/過濾大多數數據的模式。
用戶可以選擇上述提出的方式編寫自己的遍歷語句。不管怎樣,用戶的遍歷語句都會根據具體的執行引擎和遍歷策略traversal strategies被重寫。Gremlin為用戶提供靈活性表達自己的查詢的;圖系統也針對具體啟用TinkerPop的數據系統進行有效地評估圖遍歷提供了靈活性。
無縫嵌入主語言
-
統一主開發語言和圖查詢語言
經典數據庫查詢語言(如SQL)被認為與最終在生產環境中使用的編程語言截然不同。因此,經典數據庫要求開發人員既要編寫主編程語言,還要編寫數據庫相應的查詢語言。Gremlin統一了這個划分,因為遍歷可以用支持功能組合和嵌套(主要編程語言都支持)的任何編程語言編寫。因此,用戶的Gremlin遍歷可以使用應用程序語言(主語言,Host language)編寫,並受益於主語言及其工具(例如類型檢查,語法高亮,點完成等)所提供的優點。目前存在各種Gremlin語言變體,包括:Gremlin-Java,Gremlin-Groovy,Gremlin-Python,Gremlin-Scala等。 -
示例程序
比較以下兩種方式,高低立判:
public class GremlinTinkerPopExample {
public void run(String name, String property) {
Graph graph = GraphFactory.open(...);
GraphTraversalSource g = graph.traversal();
double avg = g.V().has("name",name).
out("knows").out("created").
values(property).mean().next();
System.out.println("Average rating: " + avg);
}
}
public class SqlJdbcExample {
public void run(String name, String property) {
Connection connection = DriverManager.getConnection(...)
Statement statement = connection.createStatement();
ResultSet result = statement.executeQuery(
"SELECT AVG(pr." + property + ") as AVERAGE FROM PERSONS p1" +
"INNER JOIN KNOWS k ON k.person1 = p1.id " +
"INNER JOIN PERSONS p2 ON p2.id = k.person2 " +
"INNER JOIN CREATED c ON c.person = p2.id " +
"INNER JOIN PROJECTS pr ON pr.id = c.project " +
"WHERE p.name = '" + name + "');
System.out.println("Average rating: " + result.next().getDouble("AVERAGE")
}
}