圖像檢索(image retrieval)- 3 - Visual Search at Pinterest(Amazon) - 1 - 論文學習


 

Visual Search at Pinterest

 

ABSTRACT

我們證明,隨着分布式計算平台(如Amazon Web Services)和開源工具的可用,一個小型工程團隊可以利用廣泛可用的工具構建、啟動和維護一個具有成本效益的大規模可視化搜索系統。我們還通過在Pinterest上的一組完整的現場實驗證明,通過視覺搜索提供的內容推薦可以提高用戶的參與度。通過分享我們的實現細節和從零開始推出一個商業視覺搜索引擎的經驗,我們希望視覺搜索能更廣泛地融入到今天的商業應用程序中。

 

1. INTRODUCTION

視覺搜索,或基於內容的圖像檢索[5],是一個活躍的研究領域,部分原因是由於在線照片的爆炸性增長和搜索引擎的流行。谷歌Goggles,谷歌Similar Images和Amazon Flow都是商業視覺搜索系統的例子。盡管在構建web-scale可視化搜索系統方面已經取得了重大進展,但很少有publication描述在商業應用程序上部署的端到端架構。這一方面是由於現實世界中可視化搜索系統的復雜性,另一方面是出於保持核心搜索技術的商業考慮。

在Pinterest上部署商業視覺搜索系統時,我們面臨兩個主要挑戰。首先,作為一家初創公司,我們需要控制人力和計算資源上的開發成本。例如,隨着大量且持續增長的圖像集合的出現,特征計算會變得昂貴,而工程師們也會不斷試驗部署新特征,因此對我們的系統來說,既可擴展又具有成本效益是至關重要的。其次,一個商業應用程序的成功是通過它給用戶帶來的好處(例如,提高用戶參與度)與開發和維護成本的關系來衡量的。因此,我們的開發進度需要經常通過實時用戶流量的A /B實驗來驗證。

在本文中,我們描述了基於這兩個挑戰部署商業視覺搜索系統的方法。我們作出了兩大貢獻。

我們的第一個貢獻是利用廣泛可用的工具,展示我們可擴展且成本有效的可視化搜索實現,這對於一個小型工程團隊來說是可行的。第2.1節描述了我們使用Pinterest中豐富的元數據(metadata)來加速和提高目標檢測和定位的准確性的簡單而實用的方法。通過將多類目標檢測這一困難(且計算代價高昂)的任務解耦為類別分類,然后再進行每類目標檢測,我們只需要在包含目標的高概率圖像上運行(代價高昂的)目標檢測器即可。第2.2節介紹了使用Amazon Web Services遞增地添加或更新圖像特征的分布式管道,這避免了對未更改的圖像特征進行重新計算。章節2.3展示了我們基於廣泛可用的工具構建的分布式索引和搜索基礎設施。

我們的第二個貢獻是分享了在兩個產品應用程序中部署我們的視覺搜索基礎設施的結果:即Related Pins(第3節)和Similar Looks(第4節)。對於每一個應用程序,我們使用特定應用程序的數據集來評估每個視覺搜索組件(即相似性檢測的對象檢測、特征表征)的有效性。在部署端到端系統之后,我們使用A/B測試來衡量在實時流量中用戶的參與度。

Related Pins(圖2)是一個基於用戶當前正在查看的Pin推薦Pins的功能。這些推薦主要是從用戶、公告板和Pins的“管理圖(curation graph)”中產生的。然而,會導致一個長尾的不太受歡迎的別針一直不被推薦。通過使用視覺搜索,我們為Pinterest上幾乎所有的Pins生成推薦。我們的第二個應用程序,Similar Looks(圖1)是我們專門為時尚Pins做的查找實驗。它允許用戶從感興趣的區域(例如一個包或一雙鞋)中選擇一個視覺查詢,並識別出其他視覺上相似的Pins來供用戶探索或尋找。不使用整個圖像,而是計算查詢中的局部對象(即圖中的包或鞋)與數據庫圖像之間的視覺相似性。據我們所知,這是在一個普遍部署的視覺搜索系統中第一個公開的用在在目標檢測/定位上的研究。

我們的實驗證明:

1)通過將目標檢測/定位方法與元數據相結合,可以得到非常低的false positive rate(少於1%)與良好的檢測率

2)使用來自VGG[21][3]的特征表征顯著改善了Pinterest基准數據集的視覺搜索准確性

3)我們觀察到當視覺檢索被用於Related Pins和Similar Looks應用時,顯著提升了用戶參與度

 

2. VISUAL SEARCH ARCHITECTURE AT PINTEREST

Pinterest是一個視覺書簽工具,幫助用戶發現和保存創意。用戶將圖片釘在公告板上,公告板是一個包含特定主題進行的收藏。這個人工策划的user-board-graph包含關於圖像及其彼此語義關系的豐富信息集。例如,當一個圖像被固定到一個公告板上,它意味着會生成一個在新公告板和該圖像出現的所有其他公告板之間的“curatorial鏈接”。元數據(比如圖像注釋)可以通過這些鏈接傳播,從而形成對圖像、圖像公告板和用戶的豐富描述。

由於圖片是每個pin的焦點,視覺特征在為用戶尋找有趣的、令人激動的和相關的內容方面發揮了很大的作用。在本節中,我們將描述一個視覺搜索系統的端到端實現,該系統將在Pinterest上索引數十億張圖片。我們致力於開發一個真實世界的視覺搜索系統,以平衡成本約束和快速原型的需求。我們描述了1)我們從圖像中提取的特征,2)我們的分布式和增量特征提取的基礎設施,3)我們的實時視覺搜索服務。

2.1 Image Representation and Features

我們從圖像中提取各種特征,包括局部特征和從深度卷積網絡的中間層激活中提取的“深度特征”。深層特征來源於基於AlexNet[14]和VGG[21]架構的卷積神經網絡(CNNs)。我們使用了來自fc6和fc8層的特征表征。對這些特征進行二值化以提高表示效率,並利用漢明距離進行比較。我們使用開源的Caffe[11]在多gpu機器上對我們的CNNs進行訓練和推斷。

該系統還可以從圖像中提取顯著的顏色特征。首先檢測圖像的顯著區域[24,4],然后應用k-means對顯著像素的Lab像素值聚類來計算顯著色彩。聚類中心和權重作為圖像的顏色特征存儲。

 

Two-step Object Detection and Localization

一個與Pinterest特別相關的特征是某些對象類的出現,比如包、鞋、手表、裙子和太陽鏡。我們采用了兩步檢測的方法,利用Pinterest圖像上豐富的弱文本標簽。由於圖像被多次固定在許多公告板上,聚合的pin描述和公告板標題提供了大量關於圖像的文本信息。Pinterest的文本處理管道從原始文本中為圖片提取相關注釋,生成與每張圖片相關的短語。

我們使用這些注釋來確定運行哪個對象檢測器。在圖1中,我們首先確定圖像可能包含包和鞋子,然后對這些對象類應用視覺對象檢測器。首先進行類別分類,我們只需要在有着高先驗似然匹配的圖像上運行目標檢測器,減少了計算成本和誤報。(即首先進行類別分類,發現該圖片對應的包和鞋子的類別概率比較高,然后再將其輸入到包和鞋子對應的對象檢測器中去分別檢測包和鞋子的位置,得到邊界框

我們最初的對象檢測方法是對級聯變形的基於部分的模型[7]的高度優化實現。該檢測器為每個檢測到的對象輸出一個邊界框,從中提取對象的視覺描述符。我們最近的工作重點是研究基於目標檢測器[8,9,6]的深度學習的可行性和性能,其作為我們兩步檢測/定位流水線的一部分。

我們在第4節的實驗結果顯示,我們的系統獲得了一個非常低的false positive rate(小於1%)結果,這對我們的應用至關重要。這種兩步方法也使我們能夠將其他信號納入類別分類中。同時使用文本和視覺信號進行目標檢測和定位被廣泛使用[2][1][12]在Web圖像檢索和分類中。

 

Click Prediction

當用戶在Pinterest上瀏覽時,他們可以通過點擊查看全屏(“close-up”)來與pin互動,然后接着點擊到內容的外部來源(a click-through)。對於每一幅圖像,我們根據其視覺特征預測特寫率(close-up rate,CUR)和點擊率(click-through rate,CTR)。我們訓練了一個CNN來學習從圖像到用戶打開特寫視圖或點擊內容的概率的映射。CUR和CTR對於搜索排名、推薦系統和廣告定位等應用程序都很有幫助,因為我們經常需要知道哪些圖片的視覺內容更有可能得到用戶的關注。

最近,CNNs已經成為許多涉及視覺輸入的語義預測任務的主要方法,包括分類[15,14,22,3,20,13]、檢測[8,9,6]和分割[17]。訓練一個完整的CNN來學習好的表征是非常耗時的,並且需要非常大的數據語料庫。我們通過保留為其他計算機視覺任務訓練的模型的低水平視覺表征,將轉移學習應用到我們的模型中。網絡的高水平層根據我們的特定任務進行了微調。(其實就是固定CNN網絡的前面一部分參數,只微調更改后面的參數,如fc層的參數)這節省了大量的訓練時間,並利用了從比目標任務大得多的語料庫中學習到的視覺特征。我們使用Caffe來執行這個遷移學習。

圖4描述了我們基於CNN方法的receiver operating characteristic (ROC) 曲線,與基於“傳統”計算機視覺管道的基線進行比較:即一個基於單詞金字塔直方圖(PHOW)的二值標簽訓練的SVM,它在像Caltech-101這樣的對象識別數據集上表現良好。我們基於CNN的方法的性能優於PHOW-SVM基線,並且從端到端對CNN進行微調也能顯著提高性能。在檢測上傳至Pinterest的淫穢圖片的任務中也采用了類似的方法,效果良好。

說明使用CNN進行特征抽取的效果好

 

 

2.2 Incremental Fingerprinting Service

我們的大多數視覺應用程序依賴於擁有完整的圖像特性集合,並以適於批量處理的格式存儲。保持這些數據的最新是一個挑戰;由於我們的集合包含超過10億張單獨的圖像,因此關鍵是要不斷地更新特征集,並盡可能避免不必要的重新計算。

我們建立了一個名為增量指紋服務(Incremental Fingerprinting Service)的系統,它使用Amazon EC2上的workers集群計算所有Pinterest圖像的圖像特征。它在兩種主要變化場景下逐步更新特征集合:即新圖片上傳到Pinterest,以及特征演化(由工程師對特征進行添加/修改)。

我們的方法是將圖像集合按上傳日期分組,並為每種特征類型(全局deep、局部local、深度deep特征)的每個版本(全局、局部、深度特性)維護一個單獨的特征存儲。特征批量存儲在Amazon S3上,按特征類型、版本和日期組織。當數據完全更新時,每個特征存儲包含所有的epochs。在每次運行時,系統會檢測每個特征缺少的epoch,並將作業放入一個分布式隊列中填充這些epoch。

該存儲方案支持以下增量更新。每一天,當一個新的帶有當天單獨上傳內容的epoch被添加到我們的收藏,我們將產生這個日期缺失的特征。由於舊圖像不改變,它們的特征不重新計算。如果用於生成特征的算法或參數被修改,或者如果添加了一個新特征,則啟動一個新特征存儲,並為該特征計算所有epoch。未更改的特性不受影響。

我們將這些特征復制成各種形式,以便其他作業更方便地訪問:特征被合並成包含圖像所有可用特征的指紋fingerprint,指紋被復制到分片、排序的文件中,以便通過圖像簽名(MD5哈希)進行隨機訪問。這些連接的指紋文件定期re-materialized,但只需對每幅圖像進行一次昂貴的特征計算。

增量指紋更新過程的流程圖如圖5所示。它由五個主要jods組成:

  • job(1)編譯新上傳的圖像的簽名列表,並按日期將其分組成epochs(一個epoch中包含的是某個日期中多張圖的簽名)。我們隨機將每個epoch分成大約20萬張圖像的有序分片shards,以限制最終指紋文件的大小(即再將一個epoch分成更小的shards單元)。
  • Job(2)標識每個特征存儲中缺失的epochs(即通過圖像指紋去查那個圖像的特征不在特征存儲中,不在則缺失,要計算),並將jobs(即需要計算特征的圖像)排隊到PinLater(類似於Amazon SQS的分布式隊列服務)中。這些jobs將分片shards細分為“工作塊(work chunks)”(分得更細),調整為每個塊大約需要30分鍾來計算。
  • Job(3)運行在自動啟動的EC2實例集群上(計算特征),根據更新的大小進行縮放。可以使用Spot實例;如果一個實例被終止,它的job將在另一個worker上重新調度。每個工作塊的輸出被保存到S3中,並最終重新組合成與原始分片shards對應的特征文件。
  • Job(4)將單個特征shards(因為一張圖可能會計算得到很多類型的特征,如deep、local、global和color等特征)合並成一個統一的指紋,包含每幅圖像的所有可用特征
  • Job(5)將所有epochs合並為有序、分片的HFile格式,允許隨機訪問。(即計算完缺失的圖像特征后,將其存放到特征存儲中來訪問)

使用一個由幾百台32核機器組成的集群,對所有圖像上所有可用特征的初始計算花費了一天多一點的時間,並生成大約5 TB的特征數據。在穩定狀態下,增量處理新圖像的要求只有大約5台機器。

 

講的是怎么存儲更新特征的

 

2.3 Search Infrastructure

在Pinterest,有幾個分布式視覺搜索系統的用例。一個用例是探索外觀相似的產品(Pinterest Similar Looks),其他的包括near-duplicate檢測和內容推薦。在所有這些應用程序中,可以通過構建在上一節生成的visualjoin之上的分布式索引來計算視覺相似結果。由於每個用例都有不同的性能和成本需求集,因此我們的基礎設施被設計為靈活且可重新配置的。搜索基礎結構的流程圖如圖6所示。

 

(這部分是說明當輸入一個查詢圖像時,怎么使用存儲的特征對查詢圖像查找相似圖像,其實就是使用兩種索引進行兩層查找得到top k的候選集,然后再用原數據metadata進行重排序,然后將多個機器的結果合並起來就得到最中的推薦結果)

第一步,我們使用Hadoop從visualjoin創建分布式圖像索引。通過使用doc-ID分片,每台機器都包含與整個圖像集合的一個子集相關聯的索引(和特性)。使用兩種類型的索引:第一種是磁盤存儲(和部分內存緩存)token索引,以矢量量化特性(例如視覺詞匯表)作為鍵(這是使用特征計算得到的),和圖像doc-id哈希作為發布列表。這類似於基於文本的圖像檢索系統,只是文本被視覺token所替代。第二種是內存緩存特性,包括視覺和元數據,比如圖像注釋和從user-board-image圖中計算出的“topic vector主題向量”。第一部分用於快速(但不精確)查找,第二部分用於更精確(但較慢)的排序細化

每台機器都運行一個葉排序器(Leaf ranker),它首先根據索引計算k近鄰,然后根據附加的元數據(如注釋)計算查詢圖像和每個最優候選圖像之間的分數,從而對最優候選圖像重新排序。在某些情況下,葉排序器跳過token索引,直接使用近似KNN的variations(如[18])從特征樹索引中檢索k-近鄰圖像。駐留在另一台機器上的根排序器(root ranker)將從每個葉排序器中檢索K個top結果,它們將結果合並並返回給用戶。為了處理我們的實時特征提取器生成的新指紋,我們有一個在線版本的視覺搜索管道,在那里會發生非常類似的過程。然而,對於在線版本,給定的指紋是在預先生成的索引上查詢的。

 

3. APPLICATION 1: RELATED PINS

Pinterest視覺搜索產品線的首批應用之一是一個名為Related Pins的推薦產品,該產品可以在用戶瀏覽Pin時推薦用戶可能感興趣的其他圖片。傳統上,我們使用用戶管理的image-to-board關系和基於內容的信號來生成這些推薦。然而,這種方法的一個問題是,計算這些推薦是一個離線的過程,假設了image-to-board的關系肯定已經被策划,但是對於我們不太受歡迎的Pins或新創建的Pins來說,其image-to-board的關系可能並沒有被創建。因此,Pinterest上6%的圖片很少或根本沒有推薦。對於這些圖像,我們使用前面描述的視覺搜索管道,根據視覺信號生成Visual Related Pins,如圖7所示。

 

Visual Related Pins產品的第一步是使用從所有已有的Pinterest圖像構建的本地token索引來檢測我們是否有與查詢圖像近似重復的圖像(去重)。具體來說,給定一個查詢圖像,系統將返回一組圖像,這些圖像是同一圖像的變體,但經過調整(如調整大小、裁剪、旋轉、翻譯、添加、刪除和修改可視內容的較小部分)而改變。由於結果圖像看起來與查詢圖像相同,因此它們的推薦很可能與查詢圖像相關。然而,在大多數情況下,我們發現要么沒有檢測到近似重復的圖像,要么近似重復的圖像沒有足夠的推薦。因此,我們將大部分注意力集中在檢索基於深度特征的索引生成的可視化搜索結果上。(說明本地token索引沒有什么用)

 

Static Evaluation of Search Relevance

我們最初的Visual Related Pins實驗在搜索基礎設施中利使用了來自原始版本和微調版本的AlexNet模型。然而,最近成功的更深的用於分類的CNN架構使我們能從各種CNN模型中研究特征集的性能。

在進行可視化搜索的評估時,我們使用與圖像關聯的圖像注釋作為相關性的代理。除了人工評估之外,這種方法通常用於視覺搜索系統[19]的離線評估。在這項工作中,我們使用與每個圖像相關聯的頂部文本查詢作為測試注釋。我們使用Pinterest Search對每1000個查詢檢索3000張圖像,生成一個大約160萬張獨特圖像的數據集。我們用生成圖像的查詢來標記每個圖像(說明某個圖像是因為某個query得到的)。如果兩個圖像label相同,則假設視覺搜索結果與查詢圖像相關。(得到的是測試集)

利用該評價數據集,我們計算出了幾個特征集的precision@k度量:原始的AlexNet第6層全連接特征(fc6),經過Pinterest產品數據訓練的微調AlexNet模型的fc6特征,GoogLeNet(“loss3”層輸出),以及16層VGG網絡[3]的fc6特征。我們還研究了將上述low-level特征的得分與分類器層的輸出向量(語義特征)的得分相結合。表1顯示了使用low-level特征進行最近鄰搜索的這些模型的p@5和p@10性能,以及可視化搜索服務的平均延遲(包括查詢圖像的特征提取和檢索)。當使用 16層VGG模型的FC6特性時,我們觀察到評估數據集的精度有了實質性的提高,並且應用程序有了可接受的延遲。

 

 

 

Live Experiments

在我們的實驗中,我們建立了一個檢測帶有少量推薦的新Pins的系統,並對我們的視覺搜索系統進行查詢,並將結果存儲在HBase中,以供Pin 特寫(close-up)時使用。

在視覺搜索系統的基礎上,我們為本實驗做了一個改進,增加了一個結果元數據一致性閾值,以降低召回率為代價提高了搜索精度。這一點很重要,因為我們擔心,向用戶提供糟糕的推薦會對該用戶在Pinterest上的參與度產生持久影響。這一點尤其值得關注,因為我們在查看新創建的pin時提供了視覺推薦,而這種行為在新加入的用戶中經常發生。因此,我們選擇降低召回率,如果這意味着能提高相關性。

我們最初將實驗應用到Pinterest中符合條件的10%的live流量中。我們認為當用戶查看一個沒有足夠推薦的Pin的close-up時,我們認為用戶是有資格的,並觸發了用戶進入一個treatment,該組能夠使用得到的視覺搜索結果替換Related Pins部分(其實就是將推薦結果放在了相應位置);或者觸發進入一個control組,該組不對實驗進行更改。在這個實驗中,我們測量的是Related Pins部分中總repins的變化,repinning是用戶添加一張圖到他們的收藏的這個動作。我們選擇衡量repins是因為它是我們用來測量參與度的首要指標之一。

經過3個月的實驗,可見在Related Pins產品中Related Pins的總repins增加了2%,如圖8所示。

 

 

 

4. APPLICATION 2: SIMILAR LOOKS

Pinterest上最受歡迎的類別之一是女性時尚。然而,在這類產品中,很大一部分pin無法引導用戶體驗購物體驗,因此不具有可操作性。要讓這些Pins具有可操作性,有兩個挑戰:1)許多pins都標注了比如“街頭時尚”服裝的編輯shots,這些照片通常鏈接到一個網站,但對圖片中所展示的物品沒有什么額外信息;2)Pin圖像通常包含多個對象(例如,一個女人走在街上,帶着一個豹紋包,黑色的靴子,太陽鏡,破舊的牛仔褲,等等)一個用戶看着Pin可能有興趣了解更多的手袋,而另一個用戶可能想買太陽鏡。

用戶研究顯示,這是一種常見的用戶挫折感,我們的數據表明,相對於其他類別,用戶更不可能點擊進入女性時尚Pin的外部網站。

為了解決這個問題,我們構建了一個名為“Similar Looks”的產品,該產品對時尚對象進行了定位和分類(圖9)。我們使用目標識別來檢測Pin圖像中的產品,如包、鞋、褲子和手表。從這些對象中,我們提取視覺和語義特征來生成產品推薦(“Similar Looks”)。如果Pin中的對象上有一個紅點,用戶就會通過它發現相應的推薦(參見圖1)。單擊紅點將加載視覺上類似對象的Pins(例如,其他視覺上類似的藍色連衣裙)。

 

Related Work

將視覺搜索應用到“soft goods”已經在學術界和工業界進行了探索。像.com,谷歌Shopping和Zappos(亞馬遜旗下)就是一些著名的計算機視覺時尚推薦應用。百度和阿里巴巴最近也推出了視覺搜索系統,解決了類似的問題。也有越來越多的基於視覺的時尚推薦研究[23,16,10]。我們的方法展示了基於對象的視覺搜索系統在數千萬Pinterest用戶上的可行性,並展示了圍繞這些檢測到的對象的交互式搜索體驗。

 

Static Evaluation of Object Localization

評估Similar Looks產品的第一步是研究對象定位和檢測能力。我們選擇關注時尚對象,是因為上述業務需求,因為“soft goods”往往有獨特的視覺形狀(例如短褲、包、眼鏡)。

我們從Pinterest的女性時尚類別中隨機抽取一組圖片,通過在圖片上畫一個矩形剪裁,手工標注9個類別(鞋子、衣服、眼鏡、包、手表、褲子、短褲、比基尼、earnings)中的2399個時尚物品,從而收集我們的評估數據集。我們觀察到,鞋子、包、裙子和褲子是我們評估數據集中的四個最大類別。表2顯示了時裝對象的分布以及基於文本的過濾器、基於圖像的檢測和兩者的組合方法(在對象檢測之前應用文本過濾器)的檢測精度。

 

 

如前所述,基於文本的方法將手工制作的規則(例如正則表達式)應用到與圖像相關的Pinterest元數據(我們將其視為弱標簽)。例如,注釋為“spring fashion, tote with flowers”的圖像將被歸類為“bag”,如果圖像包含一個“bag”對象框標簽,則被認為是一個積極的樣本。在基於圖像的評估中,我們計算預測對象邊界框與同類型標記對象邊界框的交集,當交集和並集比大於0.3時,視為正匹配。

表2表明,單獨使用文本注釋過濾器和對象定位都不足以完成我們的檢測任務,因為它們的false positive rate相對較高,分別為6.7%和2.5%。毫不奇怪,兩種方法的結合顯著地降低了我們的false positive rate到1%以下。

具體來說,我們發現對於像“glasses”這樣的類,文本注釋是不夠的,而基於圖像的分類則更出色(因為眼鏡具有獨特的視覺形狀)。對於其他類,比如“dress”,這種情況被逆轉了(我們的服裝檢測器的false positive rate很高,為12.3%,這是由於該類的遮擋和樣式的高差異,並且發現添加文本過濾器后,顯著提高了結果)。除了減少我們需要用目標分類器去fingerprint的圖像數量外,對於幾個對象類(鞋、包、褲子),我們觀察到文本預過濾對於實現可接受的false positive rate(1%或更少)是至關重要的。

 

Live Experiments

我們的系統從一個Pinterest圖片子集中識別出超過8000萬“可點擊”的對象(即可以放紅點的對象)。一個可點擊的紅點被放置在被檢測的物體上。一旦用戶點擊了這個點,我們的視覺搜索系統就會檢索到一個在視覺上與對象最相似的Pins集合。我們向Pinterest的一小部分live流量使用了該系統,並收集了一個月的用戶參與度指標,比如CTR。具體來說,我們研究了紅點的點擊率,視覺搜索結果的點擊率,並且比較了帶有已有的Related Pin推薦的Similar Looks結果的參與度。

如圖10所示,平均有12%的用戶在某一天點擊了一個點。這些用戶繼續點擊平均0.55個Similar Looks結果。雖然這些數據令人鼓舞,當我們比較在pin close-up中的所有相關內容的參與度時(即對在treatment組的Related Pin和Similar Looks結果的參與度求和;而僅關聯control組的pin參與度),Similar Looks實際上減少了pin close-up上4%的總參與度。當這些新的努力消退后,我們看到紅點上的CTR逐漸下降,穩定在10%左右。

為了獨立於引入新用戶行為(學習去點擊“object dots”)而產生的偏差來測試Similar Looks結果的相關性,我們設計了一個實驗,將Similar Looks結果直接混合到現有的Related Pins產品中(用於包含檢測的對象的Pins)。這給了我們一種方法來直接衡量用戶是否認為我們的視覺上相似的推薦與我們的非視覺上的推薦相關。在我們檢測到物體的Pins上,這個實驗將Related Pins的整體參與度(repins和close-up)提高了5%。盡管我們為這個實驗設置了一個初始靜態混合比例(即一個用於三個產品結果的視覺相似結果),但該比例會根據用戶單擊數據進行調整。

 

5. CONCLUSION AND FUTURE WORK

我們證明,隨着分布式計算平台(如Amazon Web Services)和開源工具的可用,少數工程師或學術實驗室可以使用非專有工具的組合來構建大規模的可視化搜索系統。本文提出了我們的端到端可視化搜索管道,包括增量特征更新和兩步目標檢測和定位方法,提高了搜索精度,降低了開發和部署成本。我們的live產品實驗表明,視覺搜索功能可以提高用戶的參與度。

我們計划在以下方面進一步完善我們的制度。首先,我們感興趣的是研究基於CNN的目標檢測方法在實時視覺搜索系統中的性能和效率。其次,我們希望利用Pinterest的“管理圖”來增強視覺搜索的相關性。最后,我們想要實驗視覺搜索的替代交互界面。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM