對於做數據分析的同學來說,可能沒有參與搭建指標體系,但是每天會與各項業務指標打交道。不同的業務會有不同的指標衡量,如電商行業關注購買率、退貨率、客單價等,而游戲行業關注下載量、付費參與度等。
下面從以下三個方面對常用的數據名詞進行介紹。
- 互聯網常用名詞/指標
- 統計學指標
- 數據分析指標
一、互聯網常用名詞/指標
1. PV(Page View)頁面瀏覽量
指某段時間內訪問網站或某一頁面的用戶的總數量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網站日常流量數據的重要指標。PV可重復累計,以用戶訪問網站作為統計依據,用戶每刷新一次即重新計算一次。
2.UV(Unique Visitor)獨立訪客
指來到網站或頁面的用戶總數,這個用戶是獨立的,同一用戶不同時段訪問網站只算作一個獨立訪客,不會重復累計,通常以PC端的Cookie數量作為統計依據。
從這里可以看到PV和UV的區別,PV可重復累計,而UV不會重復累計
3.Bounce Rate 跳出率
指用戶通過鏈接來到網站,在當前頁面沒有任何交互就離開網站的行為,這就算作此頁面增加了一個“跳出”,跳出率一般針對網站的某個頁面而言。
跳出率=在這個頁面跳出的用戶數/PV
4.退出率
指用戶訪問某網站的某個頁面之后,從瀏覽器中將與此網站相關的所有頁面全部關閉,就算此頁面增加了一個“退出“。退出率=在這個頁面退出的用戶數/PV。
5.CTR 點擊率
指某個廣告、Banner、URL被點擊的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。CTR=點擊數(click)/被用戶看到的次數
6.Conversion rate 轉化率
指用戶完成設定的轉化環節的次數和總會話人數的百分比,通常用來評價轉化的好壞。轉化率較低則急需優化該轉化環節。轉化率=轉化會話數/總會話數
7.投資回報率(ROI:Return On Investment )
衡量投入與產出的關系,投資是否值得。公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用來評估某項項目/活動的價值。
8.重復購買率:指消費者在網站中的重復購買次數。
9.漏斗:如在京東商城購物,從點擊商品鏈接到查看詳情頁,再到查看顧客評價、領取商家優惠券,再到填寫地址、付款,每個環節都有可能流失用戶,這就要求商家必須做好每一個轉化環節,漏斗是評價轉化環節優劣的指標、也可以很直觀的看到哪個環節存在問題,並進行針對性改善。
10.流失分析(Churn Analysis/Attrition Analysis)
哪些顧客可能停止使用公司的產品/業務,以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用於為可能要流失的顧客准備新的優惠。
11.用戶畫像(Customer Segmentation & Profiling)
根據現有的顧客數據,將特征、行為相似的顧客歸類分組。描述和比較各組。也有為用戶打標簽,如高潛力客戶、低潛力客戶;土豪客戶、促銷敏感客戶、屌絲客戶等,每個企業會根據不同為維度進行細分打標簽。
12.用戶命周期價值 (Lifetime Value, LTV)
顧客在他/她的一生中為一個公司產生的預期折算利潤。
3.購物籃分析(Market Basket Analysis)
交易中經常同時出現的商品組合或服務組合,例如經常被一起購買的產品,被杜撰的額“啤酒與尿布”的故事。此類分析的結果可以為商品陳列提供決策支持。
14.實時決策(Real Time Decisioning, RTD)
幫助企業做出實時(近乎無延遲)的最優銷售/營銷決策。比如,實時決策系統(打分系統)可以通過多種商業規則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。
15.Referrer 引薦流量
將用戶引導至目標頁面的URL(超鏈接),如最近的知乎好物推薦,可以在回答、文章中插入購入鏈接,將用戶引流至京東、淘寶、拼多多等平台,從而賺取佣金。
二、 統計學名詞解釋
1、同比和環比
同比:指的是與歷史同時期的數據相比較而獲得的比值,反應事物發展的相對性
環比:指與上一個統計時期的值進行對比獲得的值,主要反映事物的逐期發展的情況
2、頻數和頻率
頻數:一個數據在整體中出現的次數。
頻率:某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。
3.百分比和百分點
百分比:是相對數中的一種,他表示一個數是另一個數的百分之幾,也成為百分率或百分數。百分比的分母是100,也就是用1%作為度量單位。如服裝銷售占平台銷售額的20%。
百分點:是指不同時期以百分數的形式表示的相對指標的變動幅度,1%等於1個百分點,如今年銷售額比去年增長5個百分點,其實就是增長了5%。
4.比例與比率
比例:是指在總體中各數據占總體的比重,通常反映總體的構成和比例,即部分與整體之間的關系。比率:是樣本(或總體)中各不同類別數據之間的比值,由於比率不是部分與整體之間的對比關系,因而比值可能大於1
5.連續變量VS離散型變量
統計學中,按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。
6、均值
平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。
7.中位數:對於有限的數集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
8.均值:即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。
9.缺失值:它指的是現有數據集中某個或某些屬性的值是不完全的,可能在數據采集中出現錯誤、或者被人為的刪除。
10.缺失率:某屬性的缺失率=數據集中某屬性的缺失值個數/數據集總行數。
11.異常值
指一組測定值中與平均值的偏差超過兩倍標准差的測定值,與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。經常用於品質檢驗中,在上一家公司,只要數據超過3西格瑪,就要寫報告向品質部門解釋。
12.方差:統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。方差是衡量源數據和期望值相差的度量值。
13.標准差:用σ表示。標准差是方差的算術平方根。標准差能反映一個數據集的離散程度。平均數相同的兩組數據,標准差未必相同。
14.皮爾森相關系數:用來反映兩個變量線性相關程度的統計量。相關系數用r表示, r描述的是兩個變量間線性相關強弱的程度。
15重數和眾數
給定含有n個元素的多重集合S,每個元素在S中的次數稱為該元素的重數。多重集S中重數最大的元素稱為眾數。
三、數據分析專業名詞解釋
聚合(Aggregation):搜索、合並、顯示數據的過程。
算法(Algorithms):可以完成某種數據分析的數學公式。
異常檢測(Anomaly detection):在數據集中搜索與預期模式或行為不匹配的數據項
匿名化(Anonymization):使數據匿名,即移除所有與個人隱私相關的數據。
客戶關系管理(CRM):用於支持決策,改善公司跟顧客的互動或提高互動的價值。
行為分析法(Behavioural Analytics):這根據用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結論,而不是僅僅針對人物和時間的一門分析學科,它着眼於數據中的人性化模式。
商業智能(Business Intelligence): 分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。
雲計算(Cloud computing):網絡上的分布式計算系統,數據是存儲於機房外的(即雲端)。
集群計算(Cluster computing):這是一個使用多個服務器集合資源的“集群”的計算術語。要想更技術性的話,就會涉及到節點,集群管理層,負載平衡和並行處理等概念。
聚類分析(Clustering analysis):它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。
冷數據存儲(Cold data storage):在低功耗服務器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時。
相關性分析(Correlation analysis):是一種數據分析方法,用於分析變量之間是否存在正相關,或者負相關。
儀表板(Dashboard):使用算法分析數據,並將結果用圖表方式顯示於儀表板中,制造業常用於生產看板。
數據聚合工具(Data aggregation tools):將分散於眾多數據源的數據轉化成一個全新數據源的過程。
暗數據(Dark Data):基本上指的是,由企業收集和處理的,但並不用於任何意義性目的的數據,因此它是“暗”的,可能永遠不會被分析。它可以是社交網絡反饋,呼叫中心日志,會議筆記等等。有很多人估計,所有企業數據中的 60-90% 可能是“暗數據”。
數據挖掘(Data mining):通過使用復雜的統計學習方法,結合商業實踐,並得出大量數據的見解。
數據清洗(Data cleaning):對數據進行重新審查和校驗的過程,目的在於刪除重復信息、糾正存在的錯誤,並提供數據一致性。
數據質量(Data Quality):確保數據可靠性和實用價值的過程和技術。高質量的數據應該忠實體現其背后的事務進程,並能滿足在運營、決策、規划中的預期用途。
數據集市(Data Mart):進行數據集買賣的在線交易場所。
分布式文件系統(Distributed File System):提供簡化的,高可用的方式來存儲、分析、處理數據的系統。
提取-轉換-加載(ETL:Extract,Transform and Load):是一種用於數據庫或者數據倉庫的處理過程,即從各種不同的數據源提取(E)數據,並轉換(T)成能滿足業務需要的數據,最后將其加載(L)到數據庫。
Hadoop:一個開源的分布式系統基礎框架,可用於開發分布式程序,進行大數據的運算與存儲。
Hadoop數據庫(HBase):一個開源的、非關系型、分布式數據庫,與Hadoop框架共同使用。
HDFS:Hadoop分布式文件系統(Hadoop Distributed File System);是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。
高性能計算(HPC:High-Performance-Computing):使用超級計算機來解決極其復雜的計算問題。
物聯網(IoT):最新的流行語是物聯網(IOT)。IOT通過互聯網將嵌入式對象(傳感器,可穿戴設備,汽車,冰箱等)中的計算設備進行互連,並且能夠發送以及接收數據。IOT生成大量數據,提供了大量大數據分析的機會。
日志文件(Log file):由計算機系統自動生成的文件,記錄系統的運行過程。
自然語言處理(Natural Language Processing):是計算機科學的一個分支領域,它研究如何實現計算機與人類語言之間的交互。
平台即服務(PaaS:Platform-as-a-Service):為雲計算解決方案提供所有必需的基礎平台的一種服務。
軟件即服務(SaaS:Software-as-a-Service):基於Web的通過瀏覽器使用的一種應用軟件。