hive中select中DISTINCT的技巧和使用


hive中select中DISTINCT的技巧和使用 單表的唯一查詢用:distinct 多表的唯一查詢用:group by 在使用MySQL時,有時需要查詢出某個字段不重復的記錄,雖然mysql提供有distinct這個關鍵字來過濾掉多余的重復記錄只保留一條,但往往只用它來返回不重復記錄的條數,而不是用它來返回不重復記錄的所有值。其原因是distinct只能返回它的目標字段,而無法返回其它字段,用distinct不能解決的話,我只有用二重循環查詢來解決,而這樣對於一個數據量非常大的站來說,無疑是會直接影響到效率的。 下面先來看看例子: 表的結構如下: id name 1 a 2 b 3 c 4 c 5 b 基本的表的結構大概這樣,這只是一個簡單的例子,實際的多表查詢等等情況會復雜得多。 比如我想用一條語句查詢得到name不重復的所有數據,那就必須使用distinct去掉多余的重復記錄。 select distinct name from table 得到的結果是: name a b c 好像達到效果了,可是,我想要得到的是id值呢?改一下查詢語句吧: select distinct name, id from table 結果會是: id name 1 a 2 b 3 c 4 c 5 b distinct怎么沒起作用?作用其實是起了,不過他同時作用了兩個字段,也就是必須得id與name都相同的才會被排除。 我們再改改查詢語句: select id, distinct name from table 很遺憾,除了錯誤信息你什么也得不到,distinct必須放在開頭。難到不能把distinct放到where條件里?試試,照樣報錯。 試了半天其他能想到的方法也不行,最后在mysql手冊里找到一個用法,用group_concat(distinct name)配合group by name實現了我所需要的功能,興奮,天佑我也,趕快試試。 報錯,郁悶! 連mysql手冊也跟我過不去,先給了我希望,然后又把我推向失望。 再仔細一查,group_concat函數是4.1支持,暈,我4.0的。沒辦法,升級,升完級一試,成功。 終於搞定了,不過這樣一來,又必須要求客戶也升級了。 突然靈機一閃,既然可以使用group_concat函數,那其它函數能行嗎? 趕緊用count函數一試,成功,費了這么多工夫,原來就這么簡單。 現在將完整語句放出: select *, count(distinct name) from table group by name 結果: id name count(distinct name) 1 a 1 2 b 1 3 c 1 最后一項是多余的,不用管就行了,目的達到。 原來mysql這么笨,輕輕一下就把他騙過去了,現在拿出來希望大家不要被這問題折騰。 再順便說一句,group by 必須放在 order by 和 limit之前,不然會報錯。 說一下group by的實際例子: $sql = 'select DISTINCT n.nid,tn.tid,n.title,n.created,ni.thumbpath from {term_node} tn INNER JOIN {node} n ON n.nid=tn.nid INNER JOIN {node_images} ni ON ni.nid=n.nid where tn.tid IN('.implode(',', $tids).') ORDER BY n.nid DESC'; $res = db_query($sql); $t_data = array(); while($r = db_fetch_array($res)) { print_r($r); } 用這個查詢語句的時候,總會出現兩個相同nid的情況,比如下面的結果 Array ( [created] => 1215331278 [nid] => 1603 [tid] => 32 [title] => 夏日婚禮綠色沁飲DIY [thumbpath] => files/node_images/home-77.1_tn.jpg ) Array ( [created] => 1215331278 [nid] => 1603 [tid] => 32 [title] => 夏日婚禮綠色沁飲DIY [thumbpath] => files/node_images/003_primary_tn.jpg ) 上面用了DISTINCT也不管用,其實是管用了,但是我想查詢結構里nid是唯一的。 最后用了group by $sql = 'select n.nid,tn.tid,n.title,n.created,ni.thumbpath from {term_node} tn INNER JOIN {node} n ON n.nid=tn.nid INNER JOIN {node_images} ni ON ni.nid=n.nid where tn.tid IN('.implode(',', $tids).') GROUP BY n.nid DESC'; $res = db_query($sql); $t_data = array(); while($r = db_fetch_array($res)) { print_r($r); } 我就得到了nid是唯一的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM