Node 爬蟲，批量爬取頭條視頻並保存

本文轉載自查看原文 2018-09-18 13:50 1643 node/ 爬蟲/ 圖片/ crawler/ 視頻/ spider/ NodeJS

項目地址：GitHub

目標網站：西瓜視頻
項目功能：下載頭條號【維辰財經】下的最新20個視頻
姊妹項目：批量下載美女圖集

簡介

一般批量爬取視頻或者圖片的套路是，使用爬蟲獲得文件鏈接集合，然后通過 writeFile 等方法逐個保存文件。然而，頭條的視頻，在需要爬取的 html 文件（服務端渲染輸出）中，無法捕捉視頻鏈接。視頻鏈接是頁面在客戶端渲染時，通過某些 js 文件內的算法或者解密方法，根據視頻的已知 key 或者 hash 值，動態計算出來並添加到 video 標簽的。這也是網站的一種反爬措施。

我們在瀏覽這些頁面時，通過審核元素，可以看到計算后的文件地址。然而在批量下載時，逐個手動的獲取視頻鏈接顯然不可取。開心的是，puppeteer 提供了模擬訪問 Chrome 的功能，使我們可以爬取經過瀏覽器渲染出來的最終頁面。

今日頭條里有很多有意思的頭條號玩家，他們發布了很多視頻在里面。如果大家有批量下載某個頭條號視頻的需求，這個爬蟲就派上用場了。當然，其他視頻站也都大同小異，更改下部分代碼設置就可以使用啦。

項目啟動

命令

npm i
npm start
// 安裝 puppeteer 的過程稍慢，耐心等待。

單個文件下載命令

npm run single
// 在文件 single.js 中設置視頻名稱和 src 即可。

配置文件

 
          // 配置相關
module.exports =  {
  originPath: 'https://www.ixigua.com', // 頁面請求地址
  savePath: 'D:/videoZZ' // 存放路徑
} 
         

 
          // 單個視頻下載設置
const folderName = 'D:/videoLOL'
const fileName = 'S8預選賽TOP5：Haro李青無解操作支配戰局「LOL七周年」'
const videoSrc = 'http://v11-tt.ixigua.com/e2b7cbd320031f6c19890001503a6ca0/5b9fd7bb/video/m/2203ce04dd18e0e426381abfe64ea44f19b115bbe0a000027c1f6e94a77/'

// 初始化方法
const start = async () => {
  method.mkdirSaveFolder(folderName)
  let video = {
    src: videoSrc,
    title: fileName
  }
  downloadVideo(video)
} 
         

技術點

puppeteer

官方API

puppeteer 提供一個高級 API 來控制 Chrome 或者 Chromium。

puppeteer 主要作用：

利用網頁生成 PDF、圖片
爬取SPA應用，並生成預渲染內容（即“SSR” 服務端渲染）
可以從網站抓取內容
自動化表單提交、UI測試、鍵盤輸入等

使用到的 API：

puppeteer.launch() 啟動瀏覽器實例
browser.newPage() 創建一個新頁面
page.goto() 進入指定網頁
page.screenshot() 截圖
page.waitFor() 頁面等待，可以是時間、某個元素、某個函數
page.$eval() 獲取一個指定元素，相當於 document.querySelector
page.$$eval() 獲取某類元素，相當於 document.querySelectorAll
page.$('#id .className') 獲取文檔中的某個元素，操作類似jQuery

代碼示例

 
          const puppeteer = require('puppeteer');
 
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await page.screenshot({path: 'example.png'});
 
  await browser.close();
})(); 
         

視頻文件下載方法

下載視頻主方法

 
          const downloadVideo = async video => {
  // 判斷視頻文件是否已經下載
  if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) {
    await getVideoData(video.src, 'binary').then(fileData => {
      console.log('下載視頻中：', video.title)
      savefileToPath(video.title, fileData).then(res =>
        console.log(`${res}: ${video.title}`)
      )
    })
  } else {
    console.log(`視頻文件已存在：${video.title}`)
  }
} 
         

獲取視頻數據

 
          getVideoData (url, encoding) {
  return new Promise((resolve, reject) => {
    let req = http.get(url, function (res) {
      let result = ''
      encoding && res.setEncoding(encoding)
      res.on('data', function (d) {
        result += d
      })
      res.on('end', function () {
        resolve(result)
      })
      res.on('error', function (e) {
        reject(e)
      })
    })
    req.end()
  })
} 
         

將視頻數據保存到本地

 
          savefileToPath (fileName, fileData) {
  let fileFullName = `${config.savePath}/${fileName}.mp4`
  return new Promise((resolve, reject) => {
    fs.writeFile(fileFullName, fileData, 'binary', function (err) {
      if (err) {
        console.log('savefileToPath error:', err)
      }
      resolve('已下載')
    })
  })
} 
         

爬取結果截圖

說明

此爬蟲僅用於個人學習，如果侵權，即刻刪除！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲（二）爬取今日頭條圖片爬蟲篇-遞歸爬取今日頭條指定用戶一個月內發表的所有文章，視頻，微頭條 Python爬蟲 | 批量爬取今日頭條街拍美圖爬蟲學習之視頻爬取 python爬蟲（爬取視頻）爬蟲——爬取梨視頻 Python 爬蟲實例（2）—— 爬取今日頭條爬蟲實例之爬取今日頭條組圖爬蟲—分析Ajax爬取今日頭條圖片使用python爬蟲,批量爬取抖音app視頻（requests+Fiddler+appium）