數據處理的全過程---(獲取數據-清洗數據-數據建模-數據可視化)


獲取數據:

已有的數據 

   1. 大家能想到的應該是我們數據庫已有的數據

    2.數據整理的各種表格數據

    3.其他

我們沒有的數據

   1.爬蟲

   2.利用大數據的生態圈的工具進行搜集(其實也是在做同樣的事情 )

那我們看看爬蟲和finbi結合從無數據到數據展示的全過程:
   數據的獲取:

     爬蟲:(相關的開源庫和框架---請關注本博客的相關動態,也會一一發布相關的信息)這里選擇的是爬蟲框架scrapy

     細節方面:1.mysql redis mogondb 三者結合 或者單獨使用 將數據進行保存

                     2.對爬去目標網站的提取內容的處理(字符串提取 正則表達式的應用 css選擇器的使用 extract和extract_first的區別 和get get_all)

                      3.python的基礎語法 和數據庫相關知識的應用(最后數據存儲有以下幾種:1.保存到本地文件中 2.保存到本地或者服務器數據庫中 3.利用大數據生態圈中Hadoop及其他插件做存儲)

                      

                      4.如果多個spider 需要考慮在一個scrapy中運行多個spider 

                      5.后期數據量變大 或者服務器部署了其他應用 需要考慮分布式來做高可用

                     6.數據展示方面和處理 (展示用finbi 不限於這一種 處理用到的數學知識(也可以考慮大數據生態圈中的相關技術) Python擴展件對數據的處理 )

                     7.太多了.........

今天先說:finBI

FinBI如果商用是需要收費的(作為技術出生的你 我相信你是有辦法的---------- 調皮)

 

 

 首頁就是這個樣子了!!這里不解釋怎么操作 提供一種可以實現可話的選擇 

它的操作文檔和使用說明書:https://help.finebi.com/doc-view-62.html

重點在於:數據建模  

        1.我想要通過數據了解什么

        2.除了這個維度能不能通過其他維度持有更多的信息

       3.怎樣計算使的信息更加准確 

       4.如果是運營人員使用的工具(維度非常重要)

        5.其他

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM