廣告倒排索引架構與優化

本文轉載自查看原文 2019-09-15 19:21 332 kafka

在廣告系統中倒排索引起着至關重要的作用，當請求過來時，需要根據定向信息從倒排索引中匹配合適的廣告。我們的倒排索引采用的是ElasticSearch（后面簡稱ES），考慮點是社區活躍，相關采集、可視化、監控以及報警等組件比較完善，同時ES基於java開發，所以調優和二次開發相對方便

先看下我們的倒排索引的架構圖

file

這個架構設計成如上圖這樣，經過了下面的思考與迭代

單點與穩定性問題

采用多節點部署

其中 A builder和 B builder都是兩個節點，一個主和一個備，他們通過爭搶鎖（用zookeeper實現）來決定誰是主

多個節點會帶來數據不一致問題

file

查詢數據庫獲取最新數據（訂單和創意更新頻率低，所以對數據庫壓力不大）

索引查詢與重建索引問題與優化

壓測ES QPS不高、CPU負載高、YGC頻繁、索引重建索引耗時長

我們分別從查詢和重建兩個方向來看

查詢

file

而我們的場景是請求量大，索引小（100M以內），所以把主分片調整為1，副本調整為節點數-1，這樣能保證每個節點都存儲所有索引，這樣只會有一次io操作，如下圖所示

file

ES(lucencu) 串行讀取所有segment

索引更新會使segment數量增加，es對segment的查詢是串行的，所以我們采用每分鍾定時用 _forcemerge將segment降為1
熱點方法排查發現JSON反序列化占50%cpu

禁用source只采用field存儲必要字段
指定查詢偏向本機節點

設置preference:_local

重建

后記

我們采用的方案，有些並不符合業界常用和推薦的方式，但是符合我們自己的業務，所以方案一定要適合自己團隊的業務，沒有最好的方案，只有更適合的方案

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Elasticsearch之-倒排索引為什么需要倒排索引什么是倒排索引？ mongodb倒排索引正排索引與倒排索引正排索引與倒排索引倒排索引(inverted index) 倒排索引原理和實現 MapReduce實戰--倒排索引 ES倒排索引原理