Kaggle是由聯合創始人、首席執行官安東尼·高德布盧姆(Anthony Goldbloom)2010年在墨爾本創立的,主要為開發商和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的平台。很多數據樣本可以從該平台獲取。類似於Githup.
想獲取上面的數據則需要一個賬號。
目前只支持Facebook gmail 雅虎賬號直接授權登錄。
由於某些原因,賬號登錄時認證需要使用vpn。個人習慣直接使用gmail授權登錄。恰好谷歌訪問助手可以直接訪問gmail.這種方式比賽風3翻牆靠譜多了,不會總是掉線。
反正授權登錄是沒有問題的,想去看牆外其他精彩的世界,還是用vpn哦,小老弟。
使用kaggle實現數據集的下載:
1.在用戶頭像處點擊 My Account,進入用戶中心,若當前設備未安裝kaggle庫,則需要安裝 pip install kaggle
2.在 C:\Users\asaxh\.kaggle 找到.kaggle文件夾。如果沒有這個文件夾,可以在命令行中輸入 kaggle competitions list
待其報錯后,去刷新當前目錄,則能看到文件夾了。
3.去個人中心my account 下最下面生成一個授權的json文件,授權認證需要它,將該文件拷貝之.kaggle中。
再次執行 kaggle competitions list 就能看到列表數據了。
4.去下載數據集,就是頁面中提供好的URL地址,直接在命令行執行就能下載了。
比如獲取如下頁面數據:https://www.kaggle.com/c/instacart-market-basket-analysis/data
碰到的問題:forbidden 403
新賬號授權登錄問題,用gmail登錄kaggle,被要求驗證手機號碼,手機號碼正常填寫后,無法收到驗證碼。
查詢后才明白要手動在前面補860,才能是國內的手機號,太low了。浙江嘉興的服務商提供的驗證碼,呵呵
手機賬號認證后,還需要同意規則。否則一直都是403錯誤。