https://mp.weixin.qq.com/s/T9swy3NeSs3SU4v41-UB9A
從頭開始學習數據科學的免費資源。
如何入門數據科學?
這個 GitHub 項目提供了一份免費學習資源,既包括超詳細的學習路線圖,又涵蓋多個免費線上課程、大量數據科學項目和 100 多本免費機器學習書籍,項目上線數天即獲得 2.4k 星。
項目地址:https://github.com/therealsreehari/Learn-Datascience-for-Free#5_-expressions
該項目收集了散布在網絡上的不同資源,並按照一定的順序進行組合,以幫助數據科學初學者解決如何搜索免費和結構化學習資源的問題。項目作者表示,該項目將基於新的免費資源持續更新。
數據科學家學習路線圖
「磨刀不誤砍柴工。」該項目首先詳細介紹了一份數據科學路線圖,羅列了數據科學學習者需要掌握的內容:
-
基礎知識(矩陣和代數基礎等);
-
統計學(概率論、貝葉斯定理等);
-
編程;
-
機器學習;
-
文本挖掘 / 自然語言處理;
-
數據可視化;
-
大數據;
-
數據獲取;
-
數據再加工(Data Munging);
-
工具箱。
成為數據科學家需要掌握的基礎知識
在成為數據科學家之前,你需要掌握關於矩陣的理論知識,了解其操作方式,熟悉矩陣的各種變換。項目作者還向我們介紹了多種數據結構,包括哈希函數、二叉樹等。
以二叉樹為例,項目作者解釋了什么是二叉樹:「在計算機科學中,二叉樹是一種樹數據結構,其中每個節點最多具有兩個子節點,稱為左子節點和右子節點。」
二叉樹
除了矩陣知識以外,數據科學初學者還需掌握關系代數、數據庫基礎知識、CAP 原理、ETL 等多達十多個知識點(有些部分還在更新中)。
統計學
該項目介紹了許多關於統計學的知識,包括數據集的選擇、描述性統計、探索性數據分析、直方圖、概率論、貝葉斯定理等內容。
以探索性數據分析為例,項目作者從數據的可視化和分析兩方面着手,向我們介紹了完成整個數據分析任務需要的開發環境、依賴庫、安裝方式以及分析方式。
在數據可視化方面,項目作者介紹了三個數據可視化庫 Matplotlib、Pandas、Seaborn,每個庫都有相應的鏈接,點擊鏈接即可進入相應的網頁進行查看。
點擊 Seaborn 鏈接,可進入 Seaborn 主頁,該圖為鏈接到的主頁內容。
在數據分析方面,項目作者介紹了 PCA 降維方法,幫助學習者了解什么是主成分分析,以及如何在 Python 中實現。
編程
成為數據科學家離不開編程,該項目介紹了需要掌握的編程語言 Python、R setup/R studio 等內容。以 R setup / R studio 為例,項目作者介紹了兩種安裝方式 Linux、Windows。但是本部分內容還有許多待補充知識。
待補充內容
機器學習
該項目還列舉了掌握數據科學需要了解的機器學習知識,包括數值變量、分類變量、監督學習、無監督學習、訓練集和測試集、分類器、過擬合、偏差和方差、支持向量機等 30 項內容。
以支持向量機為例,項目作者首先介紹了支持向量機的作用——可用於分類和回歸任務,接着用簡單明了的語言解釋了支持向量機的原理。此外,項目作者還列舉了關於支持向量機的其他知識,讀者可通過鏈接自行學習。
支持向量機
除了上述介紹的內容外,項目作者還整理了文本挖掘、數據可視化等內容,此處不再贅述。
免費線上課程
該項目基於 GitHub 用戶 Developer-Y 的項目整理了大量線上免費課程的資源,包括人工智能、機器學習、機器人學三個主要部分。其中機器學習部分又細分為機器學習導論、數據挖掘、數據科學、概率圖模型、深度學習、強化學習、進階版機器學習課程、基於機器學習的自然語言處理與計算機視覺、時序分析、概率與統計學、線性代數等。
該項目提供的免費線上課程列表部分截圖。
從該項目列表中,我們可以看到熟悉的吳恩達機器學習課程,以及來自卡內基梅隆大學、斯坦福大學、蘇黎世聯邦理工學院、加州大學伯克利分校、微軟等機構的豐富課程資源。
人工智能開源項目
此外,該項目還羅列了大量人工智能開源項目,涵蓋機器學習、深度學習、自然語言處理、計算機視覺這些領域。
這一資源來自 AI 研究者、數據科學家 Ashish Patel 創建的 GitHub 庫,目前包含 71 個條目,點開鏈接即可獲取相應的項目和代碼資源。
項目列表部分截圖。
從目前的列表中,我們可以看到它包括目標檢測、聊天機器人、GUI、無監督學習、回歸分析、情感分析、推薦系統、數據科學、NLP、計算機視覺等細分領域的相關項目資源。蓋列表將持續更新。
100+ 免費機器學習書籍
項目作者整理了一份來自 Insane 的機器學習書籍列表文章。該列表在 2021 年 1 月份剛剛更新過,包括我們熟悉的「花書」《深度學習》,以及主題為圖算法、自然語言處理、數據挖掘、GAN、Python 等的書籍。
圖源:https://www.theinsaneapp.com/2020/12/download-free-machine-learning-books.html
項目作者表示,希望這些免費資源能夠幫助到無法支付教育費用的人們,從頭開始掌握數據科學。