Orange——開源機器學習交互式數據分析工具


Orange為新手和專家提供開源機器學習和數據可視化。使用大型工具箱交互式數據分析工作流程。

交互式數據可視化


Orange的全部內容都是關於數據可視化,幫助發現隱藏的數據模式,提供數據分析過程背后的直覺或支持數據科學家與領域專家之間的交流。可視化窗口小部件包括散點圖,箱形圖和直方圖,以及特定於模型的可視化,例如樹狀圖,輪廓圖和樹可視化,僅舉幾例。許多其他可視化功能可用於附加組件,包括網絡,詞雲,地理地圖等的可視化。

我們注意使橙色可視化交互:您可以從散點圖,樹中的節點,樹狀圖中的分支中選擇數據點。任何這樣的交互都會指示可視化來發出與所選部分可視化對應的數據子集。考慮下面的散點圖和分類樹的組合。散點圖顯示所有數據,但突出顯示與分類樹中選定節點對應的數據子集。

在樹中選擇的數據在散點圖中突出顯示

豐富的可視化

橙色包括許多標准的可視化。散點圖非常適合可視化一對屬性之間的相關性,用於顯示基本統計數據的框圖,用於提供整個數據集概述的熱圖,以及用於繪制多維數據的MDS等投影圖。

Orange中的一些基本可視化

除了數據挖掘套件中的可視化之外,Orange還包含一些其他軟件包中可能沒有的額外功能。其中包括用於分析聚類結果的輪廓圖的小部件,用於發現特征交互的馬賽克和Sieve圖以及用於分類樹和森林的畢達哥拉斯樹可視化。

一些不那么標准的可視化

探索性數據分析

交互式可視化支持探索性數據分析。可以直接從圖表,圖表和數據表中選擇有趣的數據子集,並將它們挖掘到下游的小部件中。例如,從層次聚類樹狀圖中選擇一個聚類並將其映射到MDS圖中的二維數據表示。或者檢查數據表中的值。或者觀察其特征值在箱形圖中的傳播。一次打開所有這些窗口,看看選擇中的更改如何影響其他小部件。或者,又例如,在數據集上交叉驗證邏輯回歸並將一些錯誤分類映射到二維投影。將Orange變成一種工具很容易,即使領域專家缺乏對基礎統計數據或機器學習的見解,領域專家也可以探索他們的數據。

選定的錯誤分類在散點圖中突出顯示

智能可視化

有時候有太多的選擇。比如說,當數據具有許多特征時,我們應該在散點圖中將哪些特征對形象化以提供大多數信息?智能可視化來拯救!在Orange的散點圖中,這稱為分數圖。當提供課程信息時,Score Plots會找到具有最佳課程分類的投影。考慮棕色選擇的數據集(帶有橙色)及其79個功能。有3,081(79 * 78/2)個不同的特征對,手動檢查它們的方式太多,但只有少數特征組合會產生很好的散點圖。分數圖找到他們全部,並允許我們瀏覽它們。

散點圖可視化的排名

報告

最后,我們只需單擊一下即可將關於模型的最重要的可視化,統計數據和信息納入報告。Orange包含巧妙的報告,您可以直接從報告中訪問每個窗口小部件和可視化的工作流歷史記錄。

報告可以包括來自數據分析工作流程的可視化

可視化編程


對於初學者以及專家型數據科學家來說,Orange是一款出色的數據挖掘工具。由於其用戶界面,用戶可以專注於數據分析而不是費力的編碼,從而簡化復雜數據分析流水線的構建。

基於組件的數據挖掘

在Orange中,數據分析是通過將組件堆疊到工作流中完成的。每個組件(稱為小部件)都嵌入了一些數據檢索,預處理,可視化,建模或評估任務。在工作流中組合不同的小部件可以讓您隨時構建全面的數據分析模式。有了一個大型的小部件庫,你不會被選中。其他小部件可通過附加組件獲得,並允許進行更專注和面向主題的研究。

數據分析工作流程

交互式數據探索

橙色的小部件相互溝通。他們接收有關輸入的數據並發送過濾或處理的數據,模型或小部件在輸出中執行的任何操作。比方說,從一個File小部件開始,它讀取數據並將其輸出連接到另一個小部件,例如數據表,並且您有一個正常工作的工作流程。改變一個小部件的任何變化,這些變化即時通過下游工作流傳播。更改File小部件中的數據文件將觸發所有下游小部件中的響應。如果這些小部件是開放的,並且您可以立即看到該數據中的任何更改的結果,交互式可視化中的方法或選擇的參數,那么這非常有趣。例如,在下面的簡單工作流程中,在電子表格中選擇數據傳播到散點圖時,

表中選擇的數據在散點圖中突出顯示

通過選擇合適的小部件及其連接,很容易為各種數據分析任務構建復雜的工作流程。

智能的工作流設計界面

即使是完全新手,橙色也很容易使用。從File小部件開始,Orange將自動建議可以連接到它的下一個小部件。例如,Orange知道在設置Distances小部件后,您可能需要Hierarchical Clustering。小部件中的所有其他默認設置也可以進行簡單分析,即使不了解統計信息,機器學習或探索性數據挖掘的大量情況。

橙色只能連接兼容信號通道的小部件

 

 

界面概覽


在“文件”小部件中加載和編輯您的數據。

 

分類器的交叉驗證和評分。

 

在散點圖中的數據選擇在箱形圖中可視化。

 

交互式梯度下降。

 

數據可以包含對圖像的引用。

 

繪制一個二維數據集。

 

操作特征(ROC)分析。

 

預測文本類別。

 

用分類樹進行探索性分析。

 

在機器學習的過程中,少不了需要准備幾個稱手的工具,以輔助分析時用,開源且這么易用的工具不常見,推薦給大家。 

官方網站:https://orange.biolab.si/
開源地址:https://github.com/biolab/orange


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM