獲取數據:
已有的數據
1. 大家能想到的應該是我們數據庫已有的數據
2.數據整理的各種表格數據
3.其他
我們沒有的數據
1.爬蟲
2.利用大數據的生態圈的工具進行搜集(其實也是在做同樣的事情 )
那我們看看爬蟲和finbi結合從無數據到數據展示的全過程:
數據的獲取:
爬蟲:(相關的開源庫和框架---請關注本博客的相關動態,也會一一發布相關的信息)這里選擇的是爬蟲框架scrapy
細節方面:1.mysql redis mogondb 三者結合 或者單獨使用 將數據進行保存
2.對爬去目標網站的提取內容的處理(字符串提取 正則表達式的應用 css選擇器的使用 extract和extract_first的區別 和get get_all)
3.python的基礎語法 和數據庫相關知識的應用(最后數據存儲有以下幾種:1.保存到本地文件中 2.保存到本地或者服務器數據庫中 3.利用大數據生態圈中Hadoop及其他插件做存儲)
4.如果多個spider 需要考慮在一個scrapy中運行多個spider
5.后期數據量變大 或者服務器部署了其他應用 需要考慮分布式來做高可用
6.數據展示方面和處理 (展示用finbi 不限於這一種 處理用到的數學知識(也可以考慮大數據生態圈中的相關技術) Python擴展件對數據的處理 )
7.太多了.........
今天先說:finBI
FinBI如果商用是需要收費的(作為技術出生的你 我相信你是有辦法的---------- 調皮)
首頁就是這個樣子了!!這里不解釋怎么操作 提供一種可以實現可話的選擇
它的操作文檔和使用說明書:https://help.finebi.com/doc-view-62.html
重點在於:數據建模
1.我想要通過數據了解什么
2.除了這個維度能不能通過其他維度持有更多的信息
3.怎樣計算使的信息更加准確
4.如果是運營人員使用的工具(維度非常重要)
5.其他