delphi 用idhttp做web頁面數據抓取注意事項

本文轉載自查看原文 2014-06-02 15:54 2616 delphi/ 網絡爬蟲/ 內存泄露/ idhttp/ 火車頭/ 網頁抓取

這里不討論webbrowse方式了。直接采用indy的 idhttp Get post 可以很方便的獲取網頁數據。

但如果要抓取大量數據程序穩定運行不崩潰就不那么容易了。這幾年也做了不少類似工具總結了幾點好記性不如爛筆頭。

內存泄露獲取頁面文本少不了用到html解析具體到delphi 估計采用mshtml htmltotext 方法的不少，這個方案再大數據量時就會內存溢出導致程序崩潰，而這並不是每個程序員都知道。解決的方案：采用自己的html解析類這里我要感謝武稀松(csdn稱呼) 該類已非常完善不存在內存泄露而且目前還沒遇到解析不了的網頁。
out of memory 。獲取下來的數據我們一般采取tstrings來內存暫存殊不知當數據量達到百萬程序就會吃掉所有內存而報out of memory 解決方案很簡單定時定量存為文件。
線程池。下載我們都希望是越快越好那么很容易就采用多線程方案。再這里我建議采用線程池而不是頻繁的創建銷毀線程。
異常處理。刷網頁數據會越到各種奇葩異常數據這時需要我們過濾編寫健壯代碼已保證程序不over。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 手機web頁面制作時的注意事項 nvue頁面注意事項 Python4Delphi注意事項 Web Api Post注意事項 Web APi之HttpClient注意事項以及建議（四） web api post注意事項移動web注意事項 <<轉>> 頁面重構時的注意事項 Delphi基礎語法的學習筆記和注意事項總結 delphi 創建DLL文件及其調用和注意事項