面試題(四)爬蟲


一、試列出至少三種目前流行的大型數據庫的名稱:________、_________、__________,其中您最熟悉的是__________,從__________年開始使用。

Oracle,Mysql,SQLServer   Oracle 根據自己情況
答案

二、有表List,並有字段A、B、C,類型都是整數。表中有如下幾條記錄:

A

B

C

2

7

9

5

6

4

3

11

9

現在對該表一次完成以下操作:

  1. 查詢出B和C列的值,要求按B列升序排列
  2. 寫出一條新的記錄,值為{7,9,8}
  3. 查詢C列,要求消除重復的值,按降序排列

寫出完成完成以上操作的標准的SQL語句,並且寫出操作3的結果。

create table List2(A int ,B int,C int)
select B,C from List order by B
insert into List values(7,9,8)
select distinct(C) from List order by 1 desc;
9 8 4
答案

三、請簡要說明視圖的作用

1. 數據庫視圖隱藏了數據的復雜性。
2. 數據庫視圖有利於控制用戶對表中某些列的訪問。
3. 數據庫視圖使用戶查詢變得簡單。
答案

四、列舉您使用過的python網絡爬蟲所用到的網絡數據包(最熟悉的在前):

requests、urllib、urllib2、httplib2
答案

五、列舉您使用過的python網絡爬蟲所用到的解析數據包(最熟悉的在前):

BeautifulSoup、pyquery、Xpath、lxml
答案

六、列舉您使用過的python中的編碼方式(最熟悉的在前):

UTF-8,ASCII,gbk
答案

七、python3.5語言中enumerate的意思是_______________________

對於一個可迭代的(iterable)/可遍歷的對象(如列表、字符串),enumerate將其組成一個索引序列,利用它可以同時獲得索引和值
enumerate多用於在for循環中得到計數
答案

八、99的八進制表示是_______________________

143
答案

九、請舉出三種常用的排序算法

冒泡、選擇、快速
答案

十、列出比較熟悉的爬蟲框架

Scrapy
答案

十一、     用4、 9 、 2、 7四個數字,可以使用+、-、*和/,每個數字使用一次,使表達式的結果為24,表達式是_____________________________

(9+7-4)*2
答案

十二、     對你最有影響的或是您認為最有價值的軟件方面的幾本書是?

十三、     您最熟悉的Unix環境是_____________.Unix下查詢環境變量的命令是________,查詢腳本定時任務的命令是____________________

1 AIX , env  crontab
答案

十四、     寫出在網絡爬蟲爬取數據的過程中,遇到的防爬蟲問題的解決方案

 通過headers反爬蟲:解決策略,偽造headers
 基於用戶行為反爬蟲:動態變化去爬取數據,模擬普通用戶的行為
 基於動態頁面的反爬蟲:跟蹤服務器發送的ajax請求,模擬ajax請求
答案

十五、     閱讀以下Python程序

for i in range(5,0,-1):

      print(i)

請在下面寫出打印結果

5 4 3 2 1
答案

十六、在某系統中一個整數占用兩個八位字節,使用Python按下面的要求編寫完整程序。

    接收從標准輸入中依次輸入的五個數字,將其組合成為一個整數,放入全局變量n中,隨后在標准輸出輸出這個整數。(ord(char)獲取字符ASCII值的函數)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM