推薦
《改善Pthon程序的91個建議》是從基本原則、慣用方法、語法、庫、設計模式、內部機制、開發工具和性能優化8個方面深入探討編寫高質量python代碼的技巧、禁忌和最佳實踐。
讀書就如同和作者對話,閱讀本書可以感覺的到作者是一個實戰經驗豐富的Pythoner,與高手對話受益匪淺。對於一個想要提高自己python代碼的coder來說值得一讀的。
邊讀書邊記錄,把我認為重要的建議記錄下來,20個左右,希望更多人能從中獲益。
引論
建議5:通過適當添加空行使代碼布局更為優雅合理
- 在函數定義或者類定義之間空兩行,類定義與第一個方法之間空一行。pep8規范
- 函數調用時,調用者在上,被調用者在下
- 空格使用:
- 在二元運算 =, 比較 ==, <, >, !=, in, not in, is, is not, 布爾運算 and or not 的左右兩邊應該有空格
- 逗號和分號前不需要使用空格如:推薦:
x, y == y, x
不推薦:x , y = y , x
建議6:編寫函數的4個原則
- 函數設計要盡量短小,嵌套層次不宜過深
- 函數申明應該做到合理,簡單,易於使用。函數名合理,參數不宜過多。
- 函數參數設計應該考慮向下兼容。通過添加默認參數來實現。
- 一個函數只做一件事,盡量保證函數語句粒度的一致性。
建議7: 將常量集中到一個文件
- 通過命名風格來題型使用者該變量代表的意義為常量。如常量名為所有字母大寫
- 通過自定義的類實現常量功能。實現
命名全部大寫
和值一旦綁定便不可再修改
這兩個條件
編程慣用法
建議9:數據交換值的時候不推薦使用中間變量
使用x, y = y, x
的方式交換變量值比使用中間值更加高效
該方式本質上是使用了元組的打包功能
建議10: 充分利用 Lazy evaluation 的特性
Lazy evaluation 就是延遲計算
或者惰性計算
, 指僅僅在真正需要執行的時候才計算表達式的值。優點有如下:
- 避免不必要的計算,帶來性能上的提升
- 節省空間,使得無限循環的數據結構成為可能。
建議16: 分清 == 與 is的使用場景
is
的作用是比較兩個對象在內存中是否擁有同一塊內存空間,它並不適合用來判斷兩個字符串是否相等。
==
用來檢查兩個對象的值是否相等
基礎語法
建議22:使用with自動關閉資源
在文件操作、線程用鎖等情況下,優先使用 with 替代 try catch。with語句使用更加簡潔
建議24:遵循異常處理的幾點基本原則
- 注意異常的粒度,不推薦在try中放入過多的代碼。
- 謹慎使用單獨的except語句處理所有異常,最好能定位具體的異常
- 注意異常捕獲的順序,在合適的層次處理異常
- 使用更為友好的異常信息,遵守異常參數的規范。
建議25:避免finally中可能發生的陷阱
當try塊中發生異常的時候,如果在except語句中找不到對應的異常處理,異常處理會被臨時保存起來,當finally執行完畢的時候,臨時保存的異常將會再次被拋出,但如果finally語句中產生了新的異常或者執行了return或者break語句,那么臨時保存的異常就會丟失,從而導致異常屏蔽。
不推薦在finally中使用return語句進行返回
建議27:連接字符串應優先使用join而不是+
join的效率更高。join是將最后的結果算好之后,申請內存,一次完成
+
是不斷開辟新的空間,將原理的字符串和現在的一起搬到空間中。效率會低很多
建議28:格式化字符串時盡量使用format而不是%
- format方式在使用較%操作符更加靈活
- format可以方便地作為參數傳遞
- 官方文檔宣稱 % 最終會被 format替代
- %方法在某些特殊情況下使用時需要特別小心
建議32:警惕默認參數潛在的問題
多個函數調用時,使用同一個默認參數,如果參數是列表,會導致多個函數公用一個列表
庫
建議39:使用Counter進行計數統計
技術統計,統計某一項出現的次數。可以使用不同的數據結構來實現。
- 使用dict
- 使用defaultdict
- 使用set 和list
優雅的方式:
使用collections包中的Counter,這是python自帶模塊,用來統計容器中個元素出現的次數。
使用工具輔助項目開發
建議76:使用Pylint檢查代碼風格
Pylint始於2003年,是一個代碼分析工具,用於檢查python代碼中的錯誤,查找不符合代碼編碼規范的代碼以及潛在的問題。支持不同的OS平台,如windows、linux、osx等。其特性如下:
- 代碼風格審查。以Guido van Rossum的PEP8為標准
- 代碼錯誤檢查。未被實現的接口,方法缺少對應的參數
- 發現重復已經設計不合理的代碼
- 高度的可配置化和可定制化
- 支持各種IDE和編輯器集成
- 能夠基於python代碼生成UML圖
- 能夠與Hudson、Jenkins等持續集成工具相結合支持自動代碼評審
性能剖析與優化
建議84:掌握循環優化的基本技巧
- 減少循環內部的計算
- 使用計算表達式替換循環
- 循環中盡量引用局部變量:命名空間中局部變量優先搜索
- 關注內層嵌套循環。在多層嵌套循環中,重點關注內層嵌套循環。
建議85:使用生成器提高效率
- 生成器提供了一種更為便利的產生迭代器的方式,用戶一般不需要自己實現__iter__和next方法,它默認返回一個迭代器
- 代碼更為簡介,優雅
- 充分利用了延遲評估的特性,僅在需要的時候才產生對應的元素,而不是一次生成所有的元素。從而節省了內存空間,提高了效率,理論上無限循環成為可能,而不會導致MenoryError。在大數據處理的情況下尤為重要
- 使得協同程序更加容易實現。
建議86:使用不同的數據結構優化性能
- list對象經常有數量的巨變,膨脹和收縮很頻繁,那么應當考慮使用deque
- 在使用list的過程中,需要時刻保持列表的有序性,可以使用標准庫bisect實現
- heapq模塊,將一個序列容器轉化程一個堆
建議87 充分利用set的優勢
set
是通過Hash算法實現的無序不重復的元素集。
使用set的場景:
- 涉及到求list交集、並集或者差集問題可以轉換程set操作
- 在對list頻繁查找的情況,也可以換成set
建議89:使用線程池提高效率
線程的生命周期分為5個狀態:創建、就緒、運行、阻塞、終止。自線程創建到終止,線程便不斷在運行、就緒、阻塞這三個狀態之間轉換直銷毀。真正占有CPU的只有運行、創建、銷毀這仨個狀態。
一個線程的運行時間可以由此分為三個部分:
- 線程的啟動時間
- 線程的運行時間
- 線程的銷毀時間
在多線程處理的情景中,如果線程不能夠被重用,就意味着每次創建都需要經過啟動、銷毀、運行這三個過程。這必然會增加系統的相應時間,降低效率。如何提高線程運行的效率呢?線程池
實現創建多個能夠執行任務的線程放入線程池,所需要執行的任務通常被安排在隊列中。通常情況下,需要處理的任務比線程數目要多,線程執行完當前任務后,會從隊列中取下一個任務,直到所有的任務已經完成。
由於線程池預先被創建並放入線程池中,同時處理完當前任務之后並不是銷毀而是被安排處理下一個任務,因此能夠避免多次創建線程,從而節省線程創建和銷毀的開銷,帶來更好的性能和系統穩定性。
線程池技術適合處理突發性大量請求或者需要大量線程來完成任務,但任務實際處理時間較短的應用場景,它能有效避免由於系統中創建線程過多而導致的系統性能負荷過大,響應過慢等問題。
建議90: 使用C/C++模塊擴展提高性能
建議91: 使用Cython編寫擴展模塊
附錄完整91個建議
1:引論
建議1、理解Pythonic概念—-詳見Python中的《Python之禪》
建議2、編寫Pythonic代碼
建議3:理解Python與C的不同之處,比如縮進與{},單引號雙引號,三元操作符?,Switch-Case語句等。
建議4:在代碼中適當添加注釋
建議5:適當添加空行使代碼布局更加合理
建議6:編寫函數的4個原則
建議7:將常量集中在一個文件,且常量名盡量使用全大寫字母
2:編程慣用法
建議8:利用assert語句來發現問題,但要注意,斷言assert會影響效率
建議9:數據交換值時不推薦使用臨時變量,而是直接a, b = b, a
建議10:充分利用惰性計算(Lazy evaluation)的特性,從而避免不必要的計算
建議11:理解枚舉替代實現的缺陷(最新版Python中已經加入了枚舉特性)
建議12:不推薦使用type來進行類型檢查,因為有些時候type的結果並不一定可靠。如果有需求,建議使用isinstance函數來代替
建議13:盡量將變量轉化為浮點類型后再做除法(Python3以后不用考慮)
建議14:警惕eval()函數的安全漏洞,有點類似於SQL注入
建議15:使用enumerate()同時獲取序列迭代的索引和值
建議16:分清==和is的適用場景,特別是在比較字符串等不可變類型變量時(詳見評論)
建議17:盡量使用Unicode。在Python2中編碼是很讓人頭痛的一件事,但Python3就不用過多考慮了
建議18:構建合理的包層次來管理Module
3:基礎用法
建議19:有節制的使用from…import語句,防止污染命名空間
建議20:優先使用absolute import來導入模塊(Python3中已經移除了relative import)
建議21:i+=1不等於++i,在Python中,++i前邊的加號僅表示正,不表示操作
建議22:習慣使用with自動關閉資源,特別是在文件讀寫中
建議23:使用else子句簡化循環(異常處理)
建議24:遵循異常處理的幾點基本原則
建議25:避免finally中可能發生的陷阱
建議26:深入理解None,正確判斷對象是否為空。Python中下列數據會判斷為空:
建議27:連接字符串應優先使用join函數,而不是+操作
建議28:格式化字符串時盡量使用.format函數,而不是%形式
建議29:區別對待可變對象和不可變對象,特別是作為函數參數時
建議30:[], {}和():一致的容器初始化形式。使用列表解析可以使代碼更清晰,同時效率更高
建議31:函數傳參數,既不是傳值也不是傳引用,而是傳對象或者說對象的引用
建議32:警惕默認參數潛在的問題,特別是當默認參數為可變對象時
建議33:函數中慎用變長參數*args和**kargs
建議34:深入理解str()和repr()的區別
建議35:分清靜態方法staticmethod和類方法classmethod的使用場景
4:庫
建議36:掌握字符串的基本用法
建議37:按需選擇sort()和sorted()函數
建議38:使用copy模塊深拷貝對象,區分淺拷貝(shallow copy)和深拷貝(deep copy)
建議39:使用Counter進行計數統計,Counter是字典類的子類,在collections模塊中
建議40:深入掌握ConfigParse
建議41:使用argparse模塊處理命令行參數
建議42:使用pandas處理大型CSV文件
建議43:使用ElementTree解析XML
建議44:理解模塊pickle的優劣
建議45:序列化的另一個選擇JSON模塊:load和dump操作
建議46:使用traceback獲取棧信息
建議47:使用logging記錄日志信息
建議48:使用threading模塊編寫多線程程序
建議49:使用Queue模塊使多線程編程更安全
5:設計模式
建議50:利用模塊實現單例模式
建議51:用mixin模式讓程序更加靈活
建議52:用發布-訂閱模式實現松耦合
建議53:用狀態模式美化代碼
6:內部機制
建議54:理解build-in對象
建議55:__init__()
不是構造方法,理解__new__()
與它之間的區別
建議56:理解變量的查找機制,即作用域
建議57:為什么需要self參數
建議58:理解MRO(方法解析順序)與多繼承
建議59:理解描述符機制
建議60:區別__getattr__()與__getattribute__()方法之間的區別
建議61:使用更安全的property
建議62:掌握元類metaclass
建議63:熟悉Python對象協議
建議64:利用操作符重載實現中綴語法
建議65:熟悉Python的迭代器協議
建議66:熟悉Python的生成器
建議67:基於生成器的協程和greenlet,理解協程、多線程、多進程之間的區別
建議68:理解GIL的局限性
建議69:對象的管理和垃圾回收
7:使用工具輔助項目開發
建議70:從PyPI安裝第三方包
建議71:使用pip和yolk安裝、管理包
建議72:做paster創建包
建議73:理解單元測試的概念
建議74:為包編寫單元測試
建議75:利用測試驅動開發(TDD)提高代碼的可測性
建議76:使用Pylint檢查代碼風格
建議77:進行高效的代碼審查
建議78:將包發布到PyPI
8:性能剖析與優化
建議79:了解代碼優化的基本原則
建議80:借助性能優化工具
建議81:利用cProfile定位性能瓶頸
建議82:使用memory_profiler和objgraph剖析內存使用
建議83:努力降低算法復雜度
建議84:掌握循環優化的基本技巧
建議85:使用生成器提高效率
建議86:使用不同的數據結構優化性能
建議87:充分利用set的優勢
建議88:使用multiprocessing模塊克服GIL缺陷
建議89:使用線程池提高效率
建議90:使用C/C++模塊擴展提高性能
建議91:使用Cythonb編寫擴展模塊