來python爬蟲中,經常會遇到數據的存儲問題,如果有大量數據,hive存儲是個不錯的選擇。
那么python如何來連接hive呢?網上有各種教程但是都不是很好用,親自測試pyhive可用
要求:可用的hive環境 python3++ hive環境必須要安裝hiveserver2(
HiveServer是一種可選服務,允許遠程客戶端可以使用各種編程語言向Hive提交請求並檢索結果。HiveServer是建立在Apache ThriftTM(http://thrift.apache.org/) 之上的,因此有時會被稱為Thrift Server,這可能會導致混亂,因為新服務HiveServer2也是建立在Thrift之上的.自從引入HiveServer2后,HiveServer也被稱為HiveServer1。
)
下載需求包
pip install sasl pip install thrift pip install thrift-sasl pip install PyHive
連接hive 注意端口 這里是hiveserver2的端口 默認為10000
from pyhive import hive conn = hive.Connection(host='10.8.13.120', port=10000, username='hdfs', database='default') cursor = conn.cursor() cursor.execute('show tables') for result in cursor.fetchall(): print(result)
WINDOS篇 參考 https://ask.hellobi.com/blog/ysfyb/18251
注意 WINDOWS 用pyhive會有問題,且目前無法解決。 所以選擇