讀取csv文件:
1 import csv 2 #打開文件,用with打開可以不用去特意關閉file了,python3不支持file()打開文件,只能用open() 3 with open("XXX.csv","r",encoding="utf-8") as csvfile: 4 #讀取csv文件,返回的是迭代類型 5 read = csv.reader(csvfile) 6 for i in read: 7 print(i)
存為csv文件:
1 import csv 2 with open("XXX.csv","w",newline="") as datacsv: 3 #dialect為打開csv文件的方式,默認是excel,delimiter="\t"參數指寫入的時候的分隔符 4 csvwriter = csv.writer(datacsv,dialect = ("excel")) 5 #csv文件插入一行數據,把下面列表中的每一項放入一個單元格(可以用循環插入多行) 6 csvwriter.writerow(["A","B","C","D"])
說明:csv模塊還有DictReader和DictWriter可以用來讀寫,返回的是字典的類型,不過這兩個方法我沒用過,有興趣的可以自己看看。
jieba分詞
1分詞
jieba.cut
方法接受三個輸入參數: 需要分詞的字符串;cut_all 參數用來控制是否采用全模式;HMM 參數用來控制是否使用 HMM 模型jieba.cut_for_search
方法接受兩個參數:需要分詞的字符串;是否使用 HMM 模型。該方法適合用於搜索引擎構建倒排索引的分詞,粒度比較細- 待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8
jieba.cut
以及jieba.cut_for_search
返回的結構都是一個可迭代的 generator,可以使用 for 循環來獲得分詞后得到的每一個詞語(unicode),或者用jieba.lcut
以及jieba.lcut_for_search
直接返回 listjieba.Tokenizer(dictionary=DEFAULT_DICT)
新建自定義分詞器,可用於同時使用不同詞典。jieba.dt
為默認分詞器,所有全局分詞相關函數都是該分詞器的映射。
1 # encoding=utf-8 2 import jieba 3 4 seg_list = jieba.cut("我來到北京清華大學", cut_all=True) 5 print("Full Mode: " + "/ ".join(seg_list)) # 全模式 6 7 seg_list = jieba.cut("我來到北京清華大學", cut_all=False) 8 print("Default Mode: " + "/ ".join(seg_list)) # 精確模式 9 10 seg_list = jieba.cut("他來到了網易杭研大廈") # 默認是精確模式 11 print(", ".join(seg_list)) 12 13 seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,后在日本京都大學深造") # 搜索引擎模式 14 print(", ".join(seg_list))