小試牛刀的簡易成語接龍。
思路——
1、網上下載成語字典的txt版本
2、通過python進行處理得到格式化的成語,並整理成字典(python字典查找速度快)
3、python程序,查找 用戶輸入的最后一個字和字典里首字一致的,放入列表,並通過random進行隨機選擇,然后輸出
字典整理部分:轉換成字典
file = open(r'D:\Desktop\zidian.txt').readlines() f = open(r'D:\Desktop\zidian3.txt','w') x={} num = 0 for i in file: print i[2:10] x[num] = i[2:10] f.write("'%s':u'%s',\n"%(num,i[2:10])) num+=1 f.close()
轉換成字典——類似格式
chengyu = {
'0':u'阿黨比周',
'1':u'阿平絕倒',
'2':u'阿權膴仕',
'3':u'阿時趨俗',
'4':u'阿世媚俗',
'5':u'阿世取容'……}
判斷部分:通過input獲取成語,然后截取最后一個字,在字典中尋找該字開頭的成語,並輸出。加入try,except,防止找不到成語的錯誤。(字典不全,只有20000+數據)
while 1: list = [] s =raw_input('請輸入成語:') ns = s.decode('gbk')[-1:] try: for i in chengyu.values(): ni = i[:1] if ns == ni: list.append(i) print u'接龍:',len(list),random.choice(list) except: print u'接龍:是在下輸了'
效果圖:沒有進行優化處理,沒有判斷用戶輸入是否輸入正確成語。
程序比較簡易,主要困難在於編碼的轉換,困惑了很久。
1、判斷字是否相等的時候,如果編碼格式不一致,是不能比較的,會發生錯誤。str是gbk編碼,先解碼成unicode,然后在進行比較。
2、如果不知道編碼,可使用isinstance(s, unicode)判斷,或者import chardet,然后用chardet.detect(TestData)查詢格式(偶然看到關於編碼,這里有比較好的說明http://www.cnblogs.com/drsnow/p/7017129.html)
3、先解碼s.decode('gbk')[-1:],和s[-1:].decode('gbk')是不一樣的效果,前者是對的,后者也會出錯