excel部分字段相同模糊匹配

本文轉載自查看原文 2021-07-09 17:24 999 excel/ 數據分析

一、提出問題
你要么獲取一批數據，然后根據它提問，或者先提問，然后根據問題收集數據。在這兩種情況下，好的問題可以幫助你將精力集中在數據的相關部分，並幫助你得出有洞察力的分析。

二、理解數據

1、理解各字段的意思，如果有英文可修改成中文更易理解。

2、在數據清洗前復制一份保存，將CSV文件另存為xlsx類型保存。

3、Excel有四種數據了類型：

（1）文本型：中、英文、混合文本、符號和字符串形成存儲的數值（123）
（2）數值型：數值、科學計數法、時間、日期和貨幣.....
（3）邏輯性：TRUE和FALSE
（4）錯誤值：#NAME?、#N/A、#DIV/0、#REF!、#VALUE!、#NUM!、#NULL! 三、數據清洗 1.選擇子集
不需要的列可以隱藏，不要刪除。需要用到隱藏子集的操作：格式--隱藏和取消隱藏或者選擇取消隱藏的行/列，右鍵點取消隱藏。 2.列名重命名
雙擊列名字段進行修改。 3.刪除重復數據項
操作：數據---刪除重復項---取消全選---選擇需要檢查的列---確定。選擇數據集中的唯一編號列。 4.缺失值處理
單擊唯一編號列，右下角查看該數據集的總行數。依次點擊其他列。缺失值數據 = 唯一編號列總數 - 其他列總數。 缺失值處理的4種方法
，根據情況靈活使用：
（1）通過人工手動補全：缺失值很少的情況下。
定位缺失值操作：開始---查找和選擇---定位條件---空值---輸入填充的值---同時按住Ctrl+Enter，填充到其他空白單元格。
（2）刪除缺失的數據：字段缺失數據超過50%，缺失過多就沒有意義，考慮刪除。
（3）用平均值代替缺失值：計算該列的平均值代替。
（4）用統計模型計算出的值去代替缺失值。 5.一致化處理
（1）分列一致化：列中有多個標簽（企業服務，數據服務），需要分列處理，分列功能會覆蓋掉右列單元格，所以我們先要復制這一列到最后一個空白列的地方，再進行分列操作。
分列操作：選中該列---數據---分列---分隔符號---下一步---取消Tab鍵，選擇其他（本例中用逗號，）---下一步---確定。
（2）插入幾個數據清洗常用函數：
①篩選列數據信息：IF(COUNT(FIND({關鍵字1,關鍵字2},單元格)),"是","否") 篩選單元格中的關鍵字，有則顯示是，沒有則顯示否。
②平均數AVERAGE(A1:A3)，
③查找函數Find(要查找的字符串，字符串所在單元格位置)，
④數據抽取Left/Right(字符串所在單元格位置，從左/右開始到XX位置進行截取，從第幾個位置開始截取[默認為1])，Mid(字符串所在單元格位置，開始位置，截取長度)，
⑤統計單元格長度函數Len(A1)。
（3）錯誤值處理
用復制粘貼為數值將以字符串形式存儲的數字轉化為純數值。
使用函數查找字符串要注意字符串的大小寫，不匹配會報錯。
善於利用查找替換功能，去除多余的字或轉換大小寫。“以上”--->“”；k --> K 6.數據排序
排序操作：開始---排序和降序---降序/自定義排序---擴展選定區域。 7.異常值處理
過大或過小，在實際中不可能存在的數據。如年齡：120歲，-1歲，薪資：1000萬.... 四、構建模型
1.數據透視表：Ctrl+A選擇整個數據表，插入---數據透視表。
（1）數據透視表有四個區域：篩選器，列，行，值。
（2）數據透視表的幾個常用功能：
①將所需字段拖入透視表的區域，篩選器和值區域可同時拖入多個字段。
②值字段設置：值---右鍵---值字段設置---總和/計數/
③排序：單擊行標簽/列標簽---右鍵---升序/降序。
④值匯總方式：單擊值標簽---值匯總依據---求和/計數/平均值/最大值/最小值....
⑤值顯示方式：單擊值標簽---值顯示方式---總計的百分比/列匯總的百分比/行匯總的百分比...
2.分析工具庫：數據分析
安裝數據分析功能：文件---選項---excel加載表>轉到---分析工具庫。
如何應用？數據---數據分析---描述統計，接着操作如下：

![900a1bdc5af572d05086c6beb26e2cbf.png](https://img-
blog.csdnimg.cn/img_convert/900a1bdc5af572d05086c6beb26e2cbf.png)

3.多表關聯查詢：vlookup函數
（1）精確查找和近似查找（模糊查找）的區別。
①精確查找是指從第一行開始往最后一行逐個查找。一找到匹配項就停止查詢，所以返回找到的第一個值。
②當你要近似查找的時候，它就會苦逼地查遍所有的數據，返回的是最后一個匹配到的值。
（2）在使用vlookup函數時，在很多情況下使用的是精確匹配，而在進行分組時需要用模糊匹配，所以這里要輸入“1”來進行模糊匹配。分組時要注意三要素：閾值，分組名稱，區域范圍。
（3）Excel設置了快捷鍵F4幫助用戶迅速切換相對引用、絕對引用和混合引用。步驟如下：
①選定包含該公式的單元格；
②在編輯欄中選擇要更改的公式內容，並按 F4 鍵；
③以引用單元格A1為例，每次按 F4 鍵時，Excel會依次在以下組合間切換：按一次F4是絕對引用按兩次、三次F4是混合引用按四次F4是相對引用。
（4）使用這個函數過程中，如果出現錯誤標識“#N/A”，一般是3個原因導致：
①第2個參數：查找范圍里第一列的值必須是要查找的值。比如這個案例里第2個參數選定的的范圍里第一列是姓名，是要查找值的列。
②數據存在空格，此時可以嵌套使用TRIM函數將空格批量刪除。
③數據類型或格式不一致，此時將數據類型或格式轉為一致即可。 六、得出結論
根據數據透視表的數據分析得出結論。

在這里插入圖片描述

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 以某些字段開頭匹配模糊查詢 thinkphp中的多字段模糊匹配兩表關聯字段模糊匹配查詢兩個表，字段模糊匹配 SQL模糊查詢同時匹配多個字段多字段模糊匹配 -->搜索功能（mysql原生語句實現） excel多列匹配，即怎么根據相同的可能標題讀取數值 mysql 實行模糊查詢一個輸入值匹配多個字段和多個輸入值匹配一個字段 mySql一個字段的值模糊匹配多表多列的查詢 MySql 正則表達式，實現多個字段匹配多個like模糊查詢