powershell中的兩只爬蟲


 

--------------------序--------------------

 

(PowerShell中的)兩只爬蟲,兩只爬蟲,跑地快,爬網頁不賴~~~ 一只基於com版的ie,一只基於.net中的WebRequest類,都是老奶奶,不奇怪 。。。 雖然很老了,但爬的也很快 。。。比python簡單。。。

powershell 爬蟲 spider Invoke-RestMethod Invoke-WebRequest

--------------------概述--------------------

 

抓取(爬取)網上信息的腳本程序,俗稱網絡蜘蛛,又名爬蟲。

用vbs或powershell調用ie瀏覽器的com對象,來解析html成為xml對象,從而扣取數據,是一種很老的爬蟲辦法,也很不錯。 這里不多介紹,有感興趣的去搜些vbs,powershell腳本即可。

用vbs或powershell調用.net中的WebRequest類,來解析html成為xml對象,從而扣取數據,是另一種挺好的辦法。

如果你的系統是win8,或者win8以上,或者win7安裝了powershell 4.0,5.0,那么 powershell中自帶了這樣的兩個命令,【Invoke-WebRequest】和【Invoke-RestMethod】。

第一個命令返回的是對象,第二個返回的是(整個網頁)字符串。

這兩個命令有時候會返回亂碼,很長一段時間,我認為,是這個命令有解碼bug,但后來發現,把結果用其自帶的-outfile參數輸出到文件之后,編碼是正確的。 也就是說,其實是我們不知道怎么解碼。只能用寫入磁盤的慢方法。  

powershell 傳教士 原創文章。始於 2016-04-09 允許轉載,但必須保留名字和出處,否則追究法律責任

用這個方法寫爬蟲腳本是最簡單的。寫入磁盤雖然慢了一點點,但基本不影響我們用之爬數據。

 

--------------------正文--------------------

 

用【Invoke-RestMethod】寫爬蟲腳本太簡單了。步驟為:

1 下載文件

2 打開文件,放入大字符串。

3 根據模板匹配字符串,扣出需要的內容。內容可以是行列標准的表格,也可以不是。

關鍵就是做好模板,和使用模板命令ConvertFrom-String。需要注意的是,這個是ps5.0新增命令,對於win7來說,要安裝ps5.0哦。

ConvertFrom-String  命令的詳細用法,請看本人拙作帖子:

ConvertFrom-String 命令研究

http://www.cnblogs.com/piapia/p/5089332.html      

 

--------------------爬蟲欣賞--------------------

 

<#
http://www.xicidaili.com/nn/1
http://haodailiip.com
從web頁扣取代理服務器的ip端口。(只要ip,端口)
invoke-Request 寫入 temp代理001.html,temp代理001.html 讀入字符串,convertfrom-string 扣取數據,寫入代理001.txt
#>

$script:腳本存儲路徑 = Split-Path -Parent   $myinvocation.mycommand.path
$Env:Path+=";$script:腳本存儲路徑;"

$臨時文件名 = "temp代理001.html"
$臨時文件路徑全名 = "$script:腳本存儲路徑\$臨時文件名"

$輸出文件名 = "代理001.txt"
$輸出文件路徑全名 = "$script:腳本存儲路徑\$輸出文件名"

$網址 = 'http://www.xicidaili.com/nn/1'

$模板 = 
@'
    <tr class="odd">
      <td></td>
      <td><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
      <td>{IP地址*:171.34.189.91}</td>
      <td>{端口:8118}</td>
      <td>
        <a href="/2016-04-07/jiangxi">江西</a>
      </td>
      <td>高匿</td>
      <td>HTTP</td>
      <td>
        <div title="1.377秒" class="bar">
          <div class="bar_inner fast" style="width:88%">
            
          </div>
        </div>
      </td>
      <td>
        <div title="0.275秒" class="bar">
          <div class="bar_inner fast" style="width:95%">
            
          </div>
        </div>
      </td>
      <td>16-04-07 01:45</td>
    </tr>
  
    <tr class="">
      <td></td>
      <td><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
      <td>{IP地址*:119.188.94.145}</td>
      <td>80</td>
      <td>
        <a href="/2014-11-02/shandong">山東濟南</a>
      </td>
      <td>高匿</td>
      <td>HTTPS</td>
      <td>
        <div title="6.157秒" class="bar">
          <div class="bar_inner medium" style="width:38%">
            
          </div>
        </div>
      </td>
      <td>
        <div title="0.36秒" class="bar">
          <div class="bar_inner fast" style="width:93%">
            
          </div>
        </div>
      </td>
      <td>16-04-07 01:27</td>
    </tr>
'@


Invoke-RestMethod  -uri $網址 -OutFile $臨時文件路徑全名      #PowerShell 爬蟲步驟1:下載文件 
$臨時文件 = Get-Content  -raw  -LiteralPath  $臨時文件路徑全名      #PowerShell 爬蟲步驟2:打開文件放入大字符串
#powershell 傳教士 2016-04-09 win10測試通過
$結果 = ConvertFrom-String -TemplateContent $模板   -InputObject  $臨時文件      #PowerShell 爬蟲步驟3:根據模板匹配扣出需要的行列標准內容。關鍵就是做好模板。
$結果 | Format-Table -AutoSize  | Tee-Object -Append  -FilePath  $輸出文件路徑全名 


 

--------------------終-------------------- 

 

安裝 powershell 5.1 for win7-sp1-64

1確保你已經安裝了.net 4.5以上。如果沒裝,直接裝.net 4.62即可:

Microsoft .NET Framework 4.62(win10紅石自帶此版本。其他win版本建議立即安裝)

https://www.microsoft.com/zh-cn/download/details.aspx?id=53344

 

Microsoft .NET Framework 4.62 簡體中文語言包

https://www.microsoft.com/zh-cn/download/details.aspx?id=53323

 

2裝ps 5.1:

https://msdn.microsoft.com/en-us/powershell/wmf/5.1/install-configure

 

汝之老家,他就在這個屯,汝是win屯土生土長的人~~~

雖然家里不咋大,卻有bat,有vbs,有powershellllllll

家里養的倆爬蟲,誓要把那蟒蛇(python)擠回linux去~~~

 

引用 轉帖 的 powershell 爬蟲 相關文章:

http://beanxyz.blog.51cto.com/5570417/1784596

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM