圖數據庫初探之Neo4j


圖數據庫初試之Neo4j

自從進入了移動互聯網時代,各種新事物出現的速度都好像坐上了宇宙飛船,幾乎隔幾天一個新概念。就拿數據庫而言,什么Oracle、DB2、SQL Server、MySQL,這些你都得知道,然后是以MongoDB、HBase等為代表的NoSQL數據庫,這幾年圖數據庫也很快流行起來,它是如此的熱門,以至於不趕緊學學好像沒法跟大家交流了一般,雖然它也屬於NoSQL。

練習完本文,大概需要20分鍾。

基本概念

圖數據庫,這是一個很容易被誤解的概念,好多人都下意識的以為,這是存儲圖片的數據庫,其實不然。

傳統的關系型數據庫數據模型就是二維表,存儲時每一條記錄按行存儲;到了NoSQL,有些存儲的是文檔,如MongoDB中,有些存儲的鍵值對,如Redis,而圖數據庫,存儲的則是點邊關系。

所謂圖,回想離散數學、數據結構之類的基礎課,會想起它的定義,G = (V, E),簡單來說,一個圖有兩個必要的組成要素,點集合和邊集合,點的集合是為點集,點之間的連接關系構成了邊集。典型的比如社交網絡,每一個人都可以看成一個點,而他們之間的朋友關系,則可以看成是邊。

為什么說圖數據庫這幾年很熱門,一個很重要的原因可能是,單一數據中的規律已經有太多的模型和算法可以處理了,而好多隱藏的規律,則蘊含在數據之間的連接中。拿一個欺詐檢測中最典型的例子來說,好多不法分子申請信用卡,一個典型的特點是,他們會填寫好多相同的地址和電話,如果單純地分析信用卡申請單,很難判斷他們是否欺詐,但如果利用圖數據庫,以申請人和地址作為點,以擁有某通信地址為邊構建圖,則很容易發現欺詐。(大家不要鑽牛角尖啊,我只是舉例說用圖數據庫很容易發現這種欺詐模式,並沒有說你不能用其他的技術發現。)

還有一個傳統關系型數據庫和其他NoSQL數據庫致命的弱點是,在一個圖(也有的資料叫網絡,這兩者的區別以后有機會再解釋)中,尋找二度及以上的關系,效率非常低。相比大家都聽說過“小世界”理論,也就是說,世界上的任何兩個人之間,只需要6個人就可以建立聯系,也叫六度分割理論,這只是個假說,后來有研究人員研究過Facebook等的數據發現,真實的值,比6還要小,大概在4左右,不得不感嘆,這個世界真小!言歸正傳,要想用關系型數據庫尋找6度關系,大家想想那個計算量,簡直大得驚人,而使用圖數據庫,則簡單地多,因為它存儲的就是點邊關系,尋找幾度關系這類為題,不過是圖的遍歷而已!

安裝

一般這種新興軟件的安裝都很簡單,本文以macOS為例,其他平台請參考官方文檔。

使用安裝文件安裝

訪問https://neo4j.com/download/,選擇For Individuals(Community版,免費),下載相應平台的安裝文件即可。

使用HomeBrew安裝

使用HomeBrew安裝同樣非常簡單

$ brew install neo4j

使用如下命令啟動

$ brew services neo4j start

啟動后,打開瀏覽器,訪問http://localhost:7474,即可看到Neo4j的web console,官方稱之為Neo4j Browser。使用neo4j/neo4j分別作為用戶名和密碼。登錄后會要求你更改用戶名和密碼

NOTE
萬一遺忘密碼,可以到Neo4j的數據目錄下,刪除<Neo4j_database_location>/data/dbms/auth,這樣下次登錄時會重置密碼。

界面探索

啟動后界面類似下圖所示,做出的的邊欄我點開了,右側上方的命令條很重要,接下來的命令都要在此輸入,整個界面還是比較易用的。

接下來介紹Cypher語句,這可謂是Neo4j的關鍵。

Cypher語句

Cypher語句是Neo4j的圖查詢語言。以下例子來自Neo4j Browser,啟動后在命令欄輸入:play cypher即可,可以參照例子進行學習,也可以參考本文練習。

CREATE

在上方命令條中輸入如下語句

CREATE (ee:Person { name: "Emil", from: "Sweden", klout: 99 })

CREATE是創建記錄的關鍵詞;()指定一個節點;ee:Person,ee是一個變量,Person是一個Label;{}為節點添加屬性

結果如下圖

MATCH

MATCH關鍵詞可以用於進行模式匹配(Pattern Matching),例如查找節點或者關系

MATCH (ee:Person) WHERE ee.name = "Emil" RETURN ee;

MATCH節點或關系的匹配模式,類似SQL中的select;(ee:Person)一個Label為Person的單節點模式,匹配到的結果將賦值給變量ee;WHERE對結果的約束,類似SQL中的where語句;ee.name = "Emil"ee的屬性name是Emil;RETURN請求特定結果。

MATCH語句不僅可以用於查詢節點,還可以用於查詢關系,例如如下的語句

MATCH (ee:Person)-[:KNOWS]-(friends)
WHERE ee.name = "Emil" RETURN ee, friends

在上面這條語句中

MATCH語句描述了從已知節點到待尋找節點的模式;(ee)是一個指代已知節點的變量;-[:KNOWS]-匹配了KNOWS的關系(雙向匹配);(friends)包含所有Emil的朋友

復合語句

除了上面這種簡單的CREATE語句,還可以組合其他關鍵詞添加更復雜的記錄,我暫且叫它復合語句吧。

在上方命令條中輸入如下語句

MATCH (ee:Person) WHERE ee.name = "Emil"
CREATE (js:Person { name: "Johan", from: "Sweden", learn: "surfing" }),
(ir:Person { name: "Ian", from: "England", title: "author" }),
(rvb:Person { name: "Rik", from: "Belgium", pet: "Orval" }),
(ally:Person { name: "Allison", from: "California", hobby: "surfing" }),
(ee)-[:KNOWS {since: 2001}]->(js),(ee)-[:KNOWS {rating: 5}]->(ir),
(js)-[:KNOWS]->(ir),(js)-[:KNOWS]->(rvb),
(ir)-[:KNOWS]->(js),(ir)-[:KNOWS]->(ally),
(rvb)-[:KNOWS]->(ally)

執行結果顯示Added 4 labels, created 4 nodes, set 14 properties, created 7 relationships, completed after 13 ms.

分析Cypher語句

使用PROFILEEXPLAIN可以用於分析Cypher語句,加深對查詢的理解

PROFILE MATCH (js:Person)-[:KNOWS]-()-[:KNOWS]-(surfer)
WHERE js.name = "Johan" AND surfer.hobby = "surfing"
RETURN DISTINCT surfer

使用Cypher語句進行推薦

模式匹配還能用來進行推薦。例如Johan正在學習沖浪,他想尋找一個新的已經在學習沖浪的朋友

MATCH (js:Person)-[:KNOWS]-()-[:KNOWS]-(surfer)
WHERE js.name = "Johan" AND surfer.hobby = "surfing"
RETURN DISTINCT surfer

可以從結果看到,該語句找到一個Johan的朋友Alison

小結

短短二三十分鍾,相信你已經大概了解了Neo4j,接下來還會介紹更加深入的例子,結合客戶端驅動(如Python)操作Neo4j,同時還會在后期結合一個具體的例子講解Neo4j,感興趣的歡迎關注哦。同時,大家也可以掃描二維碼關注我的微信公眾號哦。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM