轉眼間,Excel催化劑推出已經兩周年,在此之際,獻上數據時代最剛需的網頁采集功能,無需苦苦尋覓各種工具,借助Excel催化劑過往數據處理、清洗功能,加上此輪的網頁采集功能,一點不輸於市面上的各種收費性的工具所能達到的效果。一貫地個人完全免費,歡迎參與轉發活動獲取使用權。
主流網頁采集工具概述
可能許多網友們不知道,筆者走向Excel的開發的領域,也是從網抓開始,從一開始的使用VBA簡單寫幾行代碼,獲取到自己所需的內容,到學習使用了幾款網頁采集現成工具,到現在終於自己可以出一款親手打造的最貼心的Excel插件功能。
在筆者接觸過的工具中,有免費的Excel(PowerBI)的PowerQuery和Hack,和收費的火車采集器,火車瀏覽器,八爪魚采集器,碼棧,后羿采集器等。之前在公司的環境下,也購買過部分產品的付費功能體驗過。
實在話,這些產品做出來,也能有不錯的使用體驗,特別是付費后全功能解鎖后。當然若非企業的行為,單單個人為了一點點日常的便利性操作的小范圍的采集工作,而購買一款上述的采集工具,的確有些不划算。
下圖為八爪魚的收費,按訂閱式收費,不買斷。年2000+才能真正用到較完整功能。
下圖是火車瀏覽器的價格,算是買斷版的,不過后續亦有服務費的概念。
不再舉例,一句話總結,網頁爬蟲的領域,的確是眾多企業里的剛需,市場上的產品也多數是收費性質,免費的功能被限制得較為厲害。
同時收費性功能,可能很大部分是指向自動化操作和偏重型的數據直接導入數據庫或直接發布到網站這類采集與發布一條龍的功能。
對於數據分析工作者來說,最要緊的將數據采集到本地作分析,或一般性用戶對企業內業務系統或第3方數據平台數據采集整合等功能,不見得非常貼合。
敢於打破信息不對稱,接受橫向測評的Excel催化劑網頁內容采集功能
對網頁采集方面的功能有興趣的朋友們,可以結合上述提及的主流的采集工具,對其有一定的認識后,再回來看Excel催化劑的功能,有對比更有說服力。
能夠將網頁采集功能做到極致化,並且完全無任何功能限制,免費開放的,只Excel催化劑一家。最要緊的是,人人都可使用的低門檻保證。
五大網頁采集功能全覆蓋,遠勝主流網頁采集工具的單一性功能。
一、模擬瀏覽器訪問方式采集,滿足任何挑剔的反爬蟲策略網站需求
在筆者開發過程中,已經陸續給大家演示過幾大公認最難爬取平台的數據采集,如淘寶搜索頁面采集,公眾號后台數據采集等。
這些互聯網數據大戶,也是眾多價值數據的來源地,對爬蟲的爬取操作防范也是最為嚴苛的,各種異步加載技術,javaScript響應跳轉及需登錄訪問等措施,在模擬瀏覽器方式來訪問,都可逐一攻破,因模擬瀏覽器訪問,已經十分接近人工打開網頁的操作,沒有人敢給人工訪問輕易設防,增加訪問難道,降低用戶體驗度的。
好幾大主流采集工具,亦是順勢而為,采用此種方式來采集數據,但此種方式,采集效率不高是它的一大瓶頸,測試時感覺良好,但真正采集過程中,速度慢,不穩定是一大痛點。
二、使用Http直接提交方式采集,滿足一般性網頁采集的需求
任何事務總是兩面性,前面提及的各大工具的傻瓜式操作低門檻的代價是應用面的不廣,就如同樣一台相機,傻瓜相機拍照肯定比單反相機簡單太多,但深入使用時,單反式的手動調節就顯得非常必要。
在網頁采集方面亦是如此,高級點的用戶,可以自行抓包獲取實際數據網址並批量構造類似網址進行訪問。一次性直達目標,減少干擾。
Http的提交方式,是最為直接,最為快速的網頁采集手段,但對用戶要求也會有所提升。高級用戶更為喜愛。同樣地,局限性在於網站主的各種防范和封鎖,能夠有機會用到時最好,效率最高。
對標主流的采集工具,只剩下火車采集器和火車瀏覽器可滿足,當然免費的PowerQuery和Hack也可以,不過門檻偏高,特別是要考慮到登錄狀態下的采集。
Excel催化劑在支持Http的方式訪問,提供了極其豐富的功能輔助,不止於在提交網址訪問的那一刻的提交信息的靈活配置,更有網址數據的批量生成,采集內容后的數據清洗如文本處理提取或刪除指定內容,二次再提取(非常人性化地提取內容的同時,可將采集網頁全或部分內容做保存,使用自定義函數的方式再提取)
三、強大的文件下載功能
數據除僅顯示在網頁上供采集外,另有大量的數據是直接通過下載的方式提供,這在各種管理后台、數據平台上尤為常見,如內部系統的提交相應條件后下載文件和微信、淘寶等數據后台上提供的詳盡數據分析所需要的底層明細數據,都是通過下載的方式提供的。
數據下載功能,從最為簡單的提供網址即可,到需要登錄狀態下才能下載,再到更復雜的大文件下載穩定性保障等,在Excel催化劑上都能一一解決。使用Http提交方式下載及使用模擬瀏覽器Chrome的方式,足於滿足任何挑剔的下載任務,同時也兼顧了下載的性能及穩定性要求。
相較迅雷等工具批量下載,使用Excel催化劑可以下載同時按映射關系改名,下載鏈接的構造在Excel環境下大量的函數、填充及Excel催化劑已開發的替換功能,笛卡爾積等操作,使用體驗超極棒。
四、獨有的網頁另存為功能,滿足采集排版后的網頁二次加工使用需求
眾多的網頁采集工具,僅限於采集網頁上的內容,將其結構化為數據表結構的數據,有跟蹤Excel催化劑過往推文的都知道,Excel催化劑將自身公眾號的推文全部整理成冊,變為PDF和Word版本的,放到百度雲盤中供下載。
此類的需求,用於滿足對現有網絡世界的碎片化信息的整理,如公眾號文章采集或其他一些僅發布在網絡上的書籍連載,主題連載等內容。
原有網頁上的排版樣式通過網頁另存為的方式得到固化,無需采集回來重新加工排版,方便人的閱讀。並且可滿足采集過程中,將干擾內容進行剪切刪除,留下干凈的內部部分。
如下圖是原網頁的展示
經過剪切后,將無用信息及廣告去除,最后再轉換為PDF格式,方便離線閱讀和整體連貫性閱讀。
五、將網頁轉換為PDF或圖片,滿足離線閱讀需求及查閱
將網頁轉換為PDF或圖片,技術要點在第四點已有講述。相對其他直接轉換的方案,使用第四點的功能將其離線化到本地的html文件,再轉PDF,更為靈活方便,特別是對長網頁和有異步加載的頁面,更能保障采集到的內容完整性。
當然也同樣支持直接使用網址轉換成PDF或圖片。轉換過程,更是能夠多個網頁合並為一個文件,靈活配置,非常好用。
極度友好體驗支持上述五大功能實現
一、所有配置工作在Excel工作表環境完成
縱觀絕大部分的采集工具,就算有再強大的采集能力和防反爬能力,用戶在配置自己想采集的頁面及配置一些文件映射關系和時間延時等操作,不可避免在一些窗體、界面上作配置,其使用效果遠遠不及在Excel上的體驗。
退一步來說,就算提供了導入文件的方式導入數據,也需來回在Excel上加工好數據再返回軟件工具操作界面操作,繁瑣在所難免。
如下圖中左側的網址配置及右側的采集內容配置區,非常友好方便的Excel使用體驗。
二、采集規則模板化,極大方便復用
在第一點工作表環境的配置基礎上,所做的一切配置,都可固化下來,供下次使用。
最要緊的是當同類型的模板再次使用時,復制工作表、單元格的操作將可說是最完美的使用體驗,沒有之一。
三、支持xpath和CssSelector雙模式內容匹配,並可分步化進行,降低匹配邏輯的書寫難度。
一般性的采集工具,雖然有那么丁點的智能識別內容,但面對稍復雜的頁面,還是要有相應的xpath或CssSelector的知識。
在Excel催化劑的方案中,xpath有比網絡上經常提及的xpath helper或fire path更優的方案,讓用戶更低門檻寫出自己所需的xpath或CssSelector表達式。
同時兼容兩種表達式的匹配,熟悉哪個用哪個,非常好用。
四、只需關注一或多的數據結構,極大簡化數據采集的頁面結構分析
在其他采集工具中,需要考慮不同頁面不同的應對策略,如詳情頁、列表頁、搜索頁、首頁等,不同頁面不同的規則適配。
在Excel催化劑的解決方案中,只需關注所需的內容歸屬一端還是多端,類似日常面對訂單表和訂單明細表的關系,一端的數據生成一行記錄,多端的數據生成多行記錄,任何頁面規則適用,極大簡化了頁面匹配規則的編寫。
通過手動調節的操作,不同頁面的采集工作分步進行,充分利用好Excel極度友好的操作界面,復雜事物分解操作,是解決問題的首先之道!
下圖中展示了Excel催化劑規則匹配的靈活之處,字段新增,字段類型分析,元素定位方式等,都能滿足復雜的現實網頁采集的需要。
五、全新的匹配規則分解操作及提供可變的自定義函數方式提取網頁片段核心信息
在第四點的理念下,將復雜的多端或一端的大片段網頁進行拆解,使最終提取的內容在相對簡單的Html代碼基礎上進行提取,如下圖中,多端的關系中,將整個列表頁的一個單元的InnerHtml文本進行存儲。
使用分而治之的理念,在小片段中通過自定義函數,進行所需信息的提取。
一整套的html的DOM對象模型的數據提取函數,整裝待發,應對不種復雜的提取邏輯,相比普通的文本處理函數和正則處理方式,強大太多。
如此強大的網頁采集功能,誰人能駕馭掌握之?
工具越強大,越需要學習成本去掌握它,Excel催化劑的網頁采集功能,要想將其完整掌握並應用出它的威力,需要有基本的html網頁知識,xpath表達式或CssSelector表達式知識,最好能掌握點正則表達式知識,同時兼顧有網頁加載原理,網頁數據抓包知識。
上述這些能力,是每個網頁采集工具能夠用好的必需知識,但Excel催化劑能夠將之門檻拉到最低,對其所需的掌握程度要求最低,即能駕馭住Excel催化劑的網頁采集功能。
因涉及的知識面過廣,同時文字教程較為難以理解掌握,Excel催化劑會在后續同步推出網頁采集功能的視頻教程,在教程中將爬蟲知識和插件的使用結合一起,給大家最低學習成本,產生最大化的產出收益,敬請期待。
如此強大的網頁采集功能,如何可獲取它?
Excel催化劑的老朋友都知道,Excel催化劑曾經的承諾,個人用戶全功能永久性免費使用。這樣的口號一百年不變。
作為一款每個功能都可做到極致化的優秀作品,只需您真誠地認可,並投之真心的喜愛,現在的時代是最好的時代也是最壞的時代。大量的優秀的東西免費甚至開源化,但同時也大量的垃圾信息充斥着大家的視野,以致使發現優秀的東西成為一個門檻,成為一種信息不對稱。
Excel催化劑非常願意將沉淀多年,花費巨大精力開發完成的功能免費化,同時也呼吁關注優秀作品的你加入到傳播的行列。
轉發此文到朋友圈,並附上您真誠的對此功能的點評與期待,調動您的熱情,讓朋友圈為您點贊,完成66個贊,即可免費獲取本功能的激活碼及配置文件,獲得使用權。
因視頻教程成本巨高,無法免費的形式供大家觀看,購買視頻教程的用戶,可豁免轉發朋友圈積贊的門檻,直接可獲得本次網頁采集功能的激活碼及配置文件,獲得使用權。