R語言爬蟲：爬取包含所有R包的名稱及介紹

本文轉載自查看原文 2018-01-18 15:21 2086 爬蟲

第一種方法

library("rvest")
page <- read_html("https://cran.rstudio.com/web/packages/available_packages_by_name.html")
pkg_table <- page %>% html_table(fill = T)  
class(pkg_table)
# 返回list，這個list應該包含了網頁中的所有table
# 但因為整個網頁就只有一個table，所以我們要找的表格就在第一個list中
pkg_table <- pkg_table %>% as.data.frame()
# 轉化為數據框才能數據進行缺失值處理
head(pkg_table)

第二種方法

pkg_table <- page %>% html_node('table') %>% html_table(fill=TRUE) 
class(pkg_table)
# 返回數據框
# 由於原表格沒有表頭(沒有<th>標簽)，因此數據框使用默認的表頭X1,X2代替
# 使用fill=T，會自動填補行列中的缺失值，比如這里的第一行
dim(pkg_table)
# 刪除缺失值
pkg_table <- pkg_table[complete.cases(pkg_table), ]
# 定義表頭
colnames(pkg_table) <- c("name","title")
head(pkg_table,3)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 R 語言爬蟲之 cnblog博文爬取搜狗疫情數據爬取（R語言）數據爬蟲爬取微博上的個人所有信息爬蟲實戰——Scrapy爬取伯樂在線所有文章 python爬蟲學習-爬取某個網站上的所有圖片爬蟲===爬取王者榮耀所有英雄皮膚圖片 R語言kohonen包主要函數介紹爬蟲之亞馬遜爬取 Python爬蟲爬取豆瓣電影名稱和鏈接，分別存入txt，excel和數據庫 Python新手爬蟲一：爬取影片名稱評分等