項目流程 通過學習強國網站 拉取重要新聞,重要活動,重要會議,重要講話四個模塊的數據和頁面內容。
第一步:創建爬蟲對象news_scrapy,並引入要使用的程序包
其中包括定義要拉取的4個站點的URL。
第二步:獲取每個站點的列表數據 方法名稱__getJsonUrls__
第三步:獲取列表中每個地址的對應URL數據 方法名__getChannelDataById__
第四步:通過URL地址獲取頁面的詳細內容 方法名__getContent__
第五步:把獲取的內容寫入CSV中
最后生成的CSV數據如圖: