基於Hive的對BiliBili用戶信息進行數據分析


用戶表字段信息:

1.查出前1000位用戶的用戶名,關注數和粉絲數。

2.查詢關注數大於100的用戶的用戶名和關注數。

3.查詢粉絲數大於100的用戶的用戶名,粉絲數。

4.查詢id為1000的用戶的用戶名。

5.查詢性別為女的用戶的用戶名。

select name,sex from bilibili_user where sex="'女'";

6.查詢性別為男的用戶的用戶名。

select name,sex from bilibili_user where sex="'男'";

6.查詢性別為保密的用戶的用戶名。

select name,sex from bilibili_user where sex="'保密'";

7.查詢等級為1的用戶的用戶名。

select name from bilibili_user where level=1;

8.查詢等級為6的用戶的用戶名。

select name from bilibili_user where level=6;

9.查看文章觀看量大於5000的用戶名。

select name from bilibili_user where article_view>5000;

10.查看視頻觀看量大於5000的用戶名。

select name from bilibili_user where archive_view>5000;

 總結:我爬取的數據只有5w多條,所以以下分析都是基於5w多條數據進行分析的,並不是b站全部用戶的分析。經過以上查詢,我們可以知道1級的用戶居多,而6級的用戶少的可憐,6級是B站用戶的最高等級。而對於文章閱讀量和視頻觀看量來看,B站視頻被用戶觀看量大於5000的up主的量遠大於文章的,這也是由於B站是個絕大部分輸出的都是視頻的原因。而分析B站用戶的性別時,我們則可以看出絕大部分的用戶都是不希望別人知道自己的性別而設置成保密的。最后在查詢關注數和粉絲數大於100的用戶的時候,我們可以查看知道這兩者的數據量差不多。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM