昨天被某大牛問了一個問題,為什么SQL參數化查詢可以防止SQL注入,參數化查詢的原理是什么? 結果悶逼了,之前只知道參數化查詢是可以防止SQL注入,但是沒有深究其原理,今天就找一些文章,學習一下,也分享給大家。
以下引用知乎大神們的回答:
原理是采用了預編譯的方法,先將SQL語句中可被客戶端控制的參數集進行編譯,生成對應的臨時變量集,再使用對應的設置方法,為臨時變量集里面的元素進行賦值,賦值函數setString(),會對傳入的參數進行強制類型檢查和安全檢查,所以就避免了SQL注入的產生。
最近在深入學習Java,附上一段實現代碼,其他語言把賦值函數的處理封裝起來了,導致用戶不可見,不能了解其中的機理。
import java.sql.PreparedStatement;
String sql = "select * from user where username=? and passwd=?";
ps = conn.PreparedStatement(sql);
ps.setString(1, "admin");
ps.setString(2, "123456");
resultSet = ps.executeQuery();
具體實現代碼參考
Java 的 PreparedStatement (Java Platform SE 7 ) ,其它語言可以對照他的原理進行實現。
參數查詢是數據庫原生提供的能力,而不是
ado.net等數據訪問類庫提供的,后者只是對前者的封裝。我們在程序語言中寫的sql語句和參數對象,送到數據庫時還是語句和參數,並不是有些答案認為的那樣把參數的值轉好義后拼接進語句,最后把語句提給數據庫。要說類庫做了什么“預處理”,大概只是在開發者沒有顯式指定參數的類型和長度時,類庫會根據參數的值自動為其確定合適的類型和長度,僅此而已。這一點用數據庫語句跟蹤工具(如SQL Server Profiler)很容易證實。所以參數化查詢真不關程序語言/類庫多少事。
至於數據庫接到語句和參數后如何處理,我的理解/猜測是,數據庫負責解析查詢語句的子系統將語句轉換/編譯為某種底層的、數據庫執行子系統能executing的語言(好比C#編譯器把C#編譯為IL給CLR跑類似),就這一步,就將本批查詢語句的語義固化成了一套行為動作,這套行為動作正是所謂的“執行計划”,執行計划描述的東西大概是從什么地方取數據、如何處理數據等等,這也是為什么表名、字段名不能參數化的原因,因為這些東西都不確定的話根本沒法生成執行計划。至於參數的值有沒有影響執行計划的生成,是有的,但它影響的是這個值能否命中某個索引、統計信息等性能相關的東西,能的話就生成更優的執行計划(精確指引到某個頁取數據之類),否則走笨方法(如全表掃描),而不會對整套計划的綱領造成影響,這個就是參數化能防注入的原因所在。
簡單總結,參數化能防注入的原因在於,語句是語句,參數是參數,參數的值並不是語句的一部分,數據庫只按語句的語義跑,至於跑的時候是帶一個普通背包還是一個怪物,不會影響行進路線,無非跑的快點與慢點的區別。