原文:python3爬蟲再探之EXCEL

在爬取數據之后,數據的保存就成為一個新的問題,一般不太大的的數據存儲到EXCEL就可以了。這里介紹一個python的第三方庫 xlsxwriter. 這個庫的安裝就不介紹了,pip就可以,不用翻牆。這里僅介紹一些簡單常用的命令。 首先,說明一下,xlsxwriter只能寫入數據,不能讀取和修改數據 讀取和修改可以用xlrd和xlwt 。上代碼。 ...

2016-07-09 10:20 0 1652 推薦指數:

查看詳情

爬蟲-Python3 urllib.request獲取頁面數據

使用Python3 urllib.request中的Requests()和urlopen()方法獲取頁面源碼,並用re正則進行正則匹配查找需要的數據。 運行:python forex.py 輸出: Hexun ERUUSD:Cur | Open ...

Mon Jun 05 01:32:00 CST 2017 0 3335
爬蟲實戰(三)———爬取動態加載頁面——selenium

    自學python爬蟲也快半年了,在目前看來,我面臨着三個待解決的爬蟲技術方面的問題:動態加載,多線程並發抓取,模擬登陸。目前正在不斷學習相關知識。下面簡單寫一下用selenium處理動態加載頁面相關的知識。目標——抓取頁面所有的高考錄取分數信息。     對於動態加載,開始的時候是看到 ...

Sat Jul 23 07:01:00 CST 2016 6 21358
motan

前言:上周使用motan是通過group遠程調用超級土豆的服務,但是因為我需要寫一些服務,不得不在本地啟動服務,於是就詳細的自己配置了一次motan。 上一篇博客也說到了,motan主要有3部分組成 ...

Fri Aug 24 18:45:00 CST 2018 1 689
爬蟲實戰(五)———爬取APP數據——超級課程表【一】

    關於爬蟲,開始以為只能爬取網頁數據,后來知道APP也能抓取。於是,在學校利用空閑時間,耗時兩周實現了數據的抓取和簡單的數據分析。     目標,抓取超級課程表XX大學(其實是我們大學啦。。。)學生20000條發帖信息。思路如下:     STEP1:為我們的爬蟲找到入口 ...

Thu Jul 28 20:57:00 CST 2016 1 16766
爬蟲實戰(五)———爬取APP數據——超級課程表【二】——詞頻分析

    上一篇已經將數據抓到手了,那么來分析一下吧。這里是用python簡單處理數據,之后用EXCEL 作圖,沒錯,,,還是EXCEL。其實分析這些數據有更好的工具,比如R。。。不過目前不會啊,就先EXCEL湊活着用吧。     這里一共分析了三個方面:TOP10 word;時間與發帖量的關系 ...

Thu Jul 28 21:29:00 CST 2016 0 1674
爬蟲實戰(五)———爬取APP數據——超級課程表【四】——情感分析

    仔細看的話,會發現之前的詞頻分析並沒有什么卵用。。。文本分析真正的大哥是NLP,不過,這個坑太大,小白不大敢跳。。。不過還是忍不住在坑邊上往下瞅瞅2333. 言歸正傳,今天剛了解到boson公司有python關於自然語言處理的API,於是試着用了一下,官方文檔很不錯,簡單明了。首先是 ...

Fri Jul 29 01:26:00 CST 2016 0 1634
爬蟲實戰(一)——爬取智聯招聘職位信息

  本人呢,算是學統計的,就想着爬一下智聯的統計崗位信息,嗯,崗位很強勢。。。   這里用了requests,bs4進行抓取與解析,數據存入mysql數據庫。代碼比較亂,先湊和着看,有時間整理吧。。。 import requests from bs4 import ...

Sun Jul 10 19:00:00 CST 2016 3 5484
爬蟲實戰(四)———爬取動態加載頁面——請求json

    還是上次的那個網站,就是它.現在嘗試用另一種辦法——直接請求json文件,來獲取要抓取的信息。     第一步,檢查元素,看圖如下:     過濾出JS文件,並找出包含要抓取信息的js ...

Sat Jul 23 08:39:00 CST 2016 2 9908
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM