原文:(數據科學學習手札70)面向數據科學的Python多進程簡介及應用

本文對應腳本已上傳至我的Github倉庫https: github.com CNFeffery DataScienceStudyNotes 一 簡介 進程是計算機系統中資源分配的最小單位,也是操作系統可以控制的最小單位,在數據科學中很多涉及大量計算 CPU密集型的任務都可以通過多進程並行運算的方式大幅度提升運算效率從而節省時間開銷,而在Python中實現多進程有多種方式,本文就將針對其中較為易用 ...

2019-11-08 19:40 0 299 推薦指數:

查看詳情

數據科學學習手札50)基於Python的網絡數據采集-selenium篇(上)

一、簡介   接着幾個月之前的(數據科學學習手札31)基於Python的網絡數據采集(初級篇),在那篇文章中,我們介紹了關於網絡爬蟲的基礎知識(基本的請求庫,基本的解析庫,CSS,正則表達式等),在那篇文章中我們只介紹了如何利用urllib、requests這樣的請求庫來將我們的程序模擬成一個 ...

Fri Sep 07 23:24:00 CST 2018 0 882
數據科學學習手札31)基於Python的網絡數據采集(初級篇)

一、簡介   在實際的業務中,我們頭的數據往往難以滿足需求,這時我們就需要利用互聯網上的資源來獲取更多的補充數據,但是很多情況下,有價值的數據往往是沒有提供源文件的直接下載渠道的(即所謂的API),這時我們該如何批量獲取這些嵌入網頁中的信息呢?   這時網絡數據采集就派上用處了,你通過瀏覽器 ...

Sat May 05 06:46:00 CST 2018 0 2694
數據科學學習手札127)在Python中使用icecream實現高效debug

本文示例代碼及文件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   盡管有那么多花里胡哨的debug工具和方式供我們選擇,但不得不承認,在大多數情況下,print()才是最方便的代碼調試方式 ...

Wed Aug 25 01:27:00 CST 2021 0 206
數據科學學習手札71)利用Python繪制詞雲圖

本文對應腳本及數據已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   詞雲圖是文本挖掘中用來表征詞頻的數據可視化圖像,通過它可以很直觀地展現文本數據中地高頻詞: 圖1 詞雲圖 ...

Mon Nov 18 01:57:00 CST 2019 4 912
數據科學學習手札54)Python中retry的簡單用法

一、簡介   retry是一個用於錯誤處理的模塊,功能類似try-except,但更加快捷方便,本文就將簡單地介紹一下retry的基本用法。 二、基本用法 retry:   作為裝飾器進行使用,不傳入參數時功能如下例所示:   我們編寫了每次運行都會通過raise報錯 ...

Sat Feb 02 07:54:00 CST 2019 0 1217
數據科學學習手札91)在Python中妥善使用進度條

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   在日常運行程序的過程中常常涉及到循環迭代過程,對於執行時間很短的程序來說倒無所謂,但對於運行過程有明顯耗時的涉及循環迭代的程序 ...

Sat Aug 01 02:11:00 CST 2020 0 782
數據科學學習手札68)pandas中的categorical類型及應用

一、簡介   categorical是pandas中對應分類變量的一種數據類型,與R中的因子型變量比較相似,例如性別、血型等等用於表征類別的變量都可以用其來表示,本文就將針對categorical的相關內容及應用進行介紹。 二、創建與應用 2.1 基本特性和適用場景   在介紹 ...

Wed Sep 04 03:27:00 CST 2019 0 2127
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM