數據分析實戰45講(第二講)--筆記


     上周在極客時間偶然看到陳暘博士的關於數據分析的課程,覺得很不錯,便毫不猶豫的花錢買了這個課程,今天抽空看了實戰分析第二講,感觸最深的就是學習過程一定要做筆記,不僅能鍛煉自己的歸納總結能力,更能對這一講的東西進行回顧,還能時不時回頭看看當初的想法。所以,我也試着開始做些筆記,畢竟大神都是這么過來的,好了,話不多說,進入今天的正題:數據分析全景圖及修煉指南。

  該講主要引導讀者從全局去了解什么是數據分析?為什么做數據分析?怎么去做數據分析?答案就是:掌握數據,就是掌握規律。當你了解了市場數據,對它進行分析,就可以得到市場規律。當你掌握了產品自身的數據,對它進行分析,就可以了解產品的用戶來源、用戶畫像等等。所以說數據是個全新的視角。數據分析如此重要,它不僅是新時代的“數據結構 + 算法”,也更是企業爭奪人才的高地。

      談到數據分析,我們一般都會從3個方面入手:

  • 數據采集 -- 數據源,我們要用的原材料
  • 數據挖掘 -- 它可以說是最“高大上”的部分,也是整個商業價值所在。之所以要進行數據分析,就是要找到其中的規律,來指導我們的業務。因此數據挖掘的核心是挖掘數據的商業價值(所謂的商業智能BI)
  • 數據的可視化 -- 數據領域中的萬金油,直觀了解數據分析結構

  數據分析的三駕馬車的關系如下:

  

  下面來大致認識下這三駕馬車:

  1)數據采集:

  數據的采集,主要是和數據打交道,用工具對數據進行采集,常用的數據源,如何獲取它們。在專欄里,后續會將介紹如何掌握“八爪魚”這個自動抓取的神器,它可以幫你抓取 99% 的頁面源。也會教讀者如何編寫 Python 爬蟲。掌握 Python 爬蟲的樂趣是無窮的。它不僅能讓你獲取微博上的熱點評論,自動下載例如“王祖賢”的海報,還能自動給微博加粉絲,讓你掌握自動化的快感。

  

  2)數據挖掘:

  數據挖掘,它可以說是知識型的工程,相當於整個專欄中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的數學基礎。

  掌握了數據挖掘,就好比手握水晶球一樣,它會通過歷史數據,告訴你未來會發生什么。當然它也會告訴你這件事發生的置信度是怎樣的。

  

  3)數據可視化

   為什么說數據要可視化,因為數據往往是隱性的,尤其是當數據量大的時候很難感知,可視化可以幫我們很好地理解這些數據的結構,以及分析結果的呈現。這是一個非常重要的步驟,也是我們特別感興趣的一個步驟。

 數據可視化的兩種方法:

  Python :在 Python 對數據進行清洗、挖掘的過程中,很多的庫可以使用,像 Matplotlib、Seaborn 等第三方庫進行呈現。

  第三方工具:如果你已經生成了 csv 格式文件,想要采用所見即所得的方式進行呈現,可以采用微圖、DataV、Data GIF Maker 等第三方工具,它們可以很方便地對數據進行處理,還可以幫你制作呈現的效果。

   

  數據分析包括數據采集、數據挖掘、數據可視化這三個部分。乍看你可能覺得東西很多,無從下手,或者感覺數據挖掘涉及好多算法,有點“高深莫測”,掌握起來是不是會吃力。其實這些都是不必要的煩惱。個人覺得只要內心篤定,認為自己一定能做成,學成,其他一切都是“紙老虎”哈。

  再說下,陳博在文章中提到的如何來快速掌握數據分析,核心就是認知。我們只有把知識轉化為自己的語言,它才真正變成了我們自己的東西。這個轉換的過程就是認知升級的過程。

  

  我本人也是很贊同這種說法,簡單一句就是“知行合一”

  總結

  • 記錄下你每天的認知  
  • 這些認知對應工具的哪些操作
  • 做更多練習來鞏固你的認知

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM