Gremlin:圖遍歷語言

本文轉載自查看原文 2017-10-25 10:31 12048 JanusGraph/ Gremlin

Gremlin簡介

Gremlin是Apache TinkerPop 框架下的圖遍歷語言。Gremlin是一種函數式數據流語言，可以使得用戶使用簡潔的方式表述復雜的屬性圖（property graph）的遍歷或查詢。每個Gremlin遍歷由一系列步驟（可能存在嵌套）組成，每一步都在數據流（data stream）上執行一個原子操作。

Gremlin包括三個基本的操作：

map-step
對數據流中的對象進行轉換；
filter-step
對數據流中的對象就行過濾；
sideEffect-step
對數據流進行計算統計；

以下是Gremlin在一些場景中的具體應用：

1.查找Gremlin朋友的朋友

g.V().has("name","gremlin").
  out("knows").
  out("knows").
  values("name")

2.查找那些由兩個朋友共同創建的項目

g.V().match(
  as("a").out("knows").as("b"),
  as("a").out("created").as("c"),
  as("b").out("created").as("c"),
  as("c").in("created").count().is(2)).
    select("c").by("name")

3.給出Gremlin的所有上司，直至CEO

g.V().has("name","gremlin").
  repeat(in("manages")).
    until(has("title","ceo")).
  path().by("name")

4.獲得Gremlin合作者的頭銜分布

g.V().has("name","gremlin").as("a").
  out("created").in("created").
    where(neq("a")).
  groupCount().by("title")

5.獲取Gremlin購買產品的相關產品列表並排序

g.V().has("name","gremlin").
  out("bought").aggregate("stash").
  in("bought").out("bought").
    where(not(within("stash"))).
  groupCount().order(local).by(values,decr)

6.獲取排名前十的中心人物

g.V().hasLabel("person").
  pageRank().
    by("friendRank").
    by(outE("knows")).
  order().by("friendRank",decr).
  limit(10)

OLTP 和 OLAP遍歷

一次編寫，到處運行
Gremlin遵循“一次編寫，到處運行”的設計哲學。這意味着不僅所有的TinkerPop啟用的圖形系統都能執行Gremlin遍歷，而且每個Gremlin遍歷都可以被評估為實時數據庫查詢或批處理查詢。（前者被稱為在線交易流程（OLTP），后者被稱為在線分析流程（OLAP））。
協調多種圖遍歷
這種普遍性是由Gremlin遍歷機實現的。這種分布式、基於圖形的虛擬機了解如何協調多機器圖遍歷的執行。好處是，用戶不需要學習數據庫查詢語言和域特定的BigData分析語言（例如Spark DSL，MapReduce等）。Gremlin是構建基於圖的應用程序所必要的，其余一切都交給Gremlin遍歷機處理。

命令式和聲明式遍歷

Gremlin遍歷可以以命令式（程序式）方式，聲明性（描述性）方式編寫，也可以包含命令性和聲明性的混合方式編寫。

命令式編寫方式
獲得Gremlin合作者的上司名字分布：

g.V().has("name","gremlin").as("a").
  out("created").in("created").
    where(neq("a")).
  in("manages").
  groupCount().by("name")

一個命令式的Gremlin遍歷告訴運行器如何執行遍歷中的每一步；然后，遍歷器分裂到所有的“Gremlin”的合作者（去除Gremlin自己）；下一步，遍歷器走到“Gremlin”合作者的上司（managers），最終根據上司的名字進行統計分發。

之所以是命令式的Gremlin遍歷，就是它明確地、程序化地告訴遍歷器“去這里，然后去那里”。

聲明式編寫方式
以下使用聲明式編寫方式實現了同樣的結果：

g.V().match(
  as("a").has("name","gremlin"),
  as("a").out("created").as("b"),
  as("b").in("created").as("c"),
  as("c").in("manages").as("d"),
    where("a",neq("c"))).
  select("d").
  groupCount().by("name")

聲明式的Gremlin遍歷並不能告訴遍歷器執行它們的步驟的順序，而是允許每個遍歷器從一個（可能嵌套的）模式的集合中選擇一個模式來執行。

然而，聲明遍歷具有額外的好處，它不僅利用了編譯時查詢計划器（如命令式遍歷），而且還是一個運行時查詢計划器，根據每個模式的歷史統計信息選擇下一個執行哪個遍歷模式 - 有利於那些傾向於減少/過濾大多數數據的模式。

用戶可以選擇上述提出的方式編寫自己的遍歷語句。不管怎樣，用戶的遍歷語句都會根據具體的執行引擎和遍歷策略traversal strategies被重寫。Gremlin為用戶提供靈活性表達自己的查詢的；圖系統也針對具體啟用TinkerPop的數據系統進行有效地評估圖遍歷提供了靈活性。

無縫嵌入主語言

統一主開發語言和圖查詢語言
經典數據庫查詢語言（如SQL）被認為與最終在生產環境中使用的編程語言截然不同。因此，經典數據庫要求開發人員既要編寫主編程語言，還要編寫數據庫相應的查詢語言。Gremlin統一了這個划分，因為遍歷可以用支持功能組合和嵌套（主要編程語言都支持）的任何編程語言編寫。因此，用戶的Gremlin遍歷可以使用應用程序語言（主語言，Host language）編寫，並受益於主語言及其工具（例如類型檢查，語法高亮，點完成等）所提供的優點。目前存在各種Gremlin語言變體，包括：Gremlin-Java，Gremlin-Groovy，Gremlin-Python，Gremlin-Scala等。
示例程序
比較以下兩種方式，高低立判：

public class GremlinTinkerPopExample {
  public void run(String name, String property) {

    Graph graph = GraphFactory.open(...);
    GraphTraversalSource g = graph.traversal();

    double avg = g.V().has("name",name).
                   out("knows").out("created").
                   values(property).mean().next();

    System.out.println("Average rating: " + avg);
  }
}

public class SqlJdbcExample {
  public void run(String name, String property) {

    Connection connection = DriverManager.getConnection(...)
    Statement statement = connection.createStatement();
    ResultSet result = statement.executeQuery(
      "SELECT AVG(pr." + property + ") as AVERAGE FROM PERSONS p1" +
        "INNER JOIN KNOWS k ON k.person1 = p1.id " +
        "INNER JOIN PERSONS p2 ON p2.id = k.person2 " +
        "INNER JOIN CREATED c ON c.person = p2.id " +
        "INNER JOIN PROJECTS pr ON pr.id = c.project " +
          "WHERE p.name = '" + name + "');

    System.out.println("Average rating: " + result.next().getDouble("AVERAGE")
  }
}

參考資料

The Gremlin Graph Traversal Machine and Language

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 janusgraph-遍歷圖的語言一文了解各大圖數據庫查詢語言（Gremlin vs Cypher vs nGQL）| 操作入門篇 gremlin語言語法--學習筆記 C語言數據結構之圖的遍歷 C語言圖的建立及BFS,DFS遍歷的代碼圖的遍歷 C語言建立有向圖的鄰接表及其遍歷操作樹的遍歷與圖的遍歷 linux環境安裝可操作圖庫語言Gremlin的圖框架HugeGraph 圖--廣度優先遍歷/深度優先遍歷(c語言實現)