本篇文章是洗白種子文件的兄弟篇,也是為了安利一個宅男宅女極好的網站–湯不熱.
Tumblr(中文名:湯博樂)成立於2007年,是目前全球最大的輕博客網站,也是輕博客網站的始祖。Tumblr(湯博樂)是一種介於傳統博客和微博之間的全新媒體形態,既注重表達,又注重社交,而且注重個性化設置,成為當前最受年輕人歡迎的社交網站之一。雅虎公司董事會2013年5月19日決定,以11億美元收購Tumblr。
tumblr是純粹基於興趣的社交網站,產品形態好用只是一個方面,更重要的是,可以只關注自己感興趣的人和博客,而且不必為了維持真實好友關系和自己被期望的網絡形象而去做一些自己不想做的事(比如逃避家長監控)
好了,不裝x,目前國內青年使用Tumblr頻率最高的動機不是為了尋覓上面嘆為觀止的寫真、藝術創造,而是為了解決青春期荷爾蒙沉淀過多問題。Tumblr上面有大量的喜聞樂見的po主,他們經常更新自己的站點,包括一顆賽艇的pic和video。而且,最重要的,到目前為止,GFW還沒有明確的將網站放到黑名單…
當你有了Tumblr博主賬號之后,你可以輕松的訪問獲取他發布的每一條資源分享。然而可能因為服務器的緣故,國內請求受限,速度很慢,好吧,編程改變世界.|
import re
import requests
Res=list()
Res1=list()
outputfile = open('result.txt','w')
blogname=input('plz input the username:')
def func(keys):
for key in keys:
baseurl = 'http://'+blogname.strip()+'.tumblr.com/api/read?type='+key+'&num=50&start=' #pic
start = 0 #start from num zero
while True:
url = baseurl + str(start)
pagecontent = requests.get(url).text
if key=='photo':
result=re.findall('<photo-url .*?>(.*?)</photo-url>',pagecontent)
for item in result:
Res.append(item)
else:
result=re.findall('source src="(.*?)"',pagecontent)
for item in result:
Res1.append(item)
if (len(result) < 50):
break
else:
start += 50
func(('video','photo'))
if Res:
for item in Res:
outputfile.writelines(item+'\n')
if Res1:
for item in Res1:
outputfile.writelines(item+'\n')
outputfile.close()
#dbdnsjzbebhsuiwbdbdjsnd guoyua
運行上面的代碼,輸入正確的站主name,就可以在當前目錄下的result.txt
文件寫入所有的pic和video。
聽過實驗,pic會有很多的重復內容,因為會返回原圖的不同尺寸url,這里我沒有對他進行排重獲取高分辨率,因為我懶。不會告訴你在代碼最后一行不小心留下了潘多拉魔盒.