[論文筆記] Crowdsourced Databases: Query Processing with People (CIDR, 2011)

本文轉載自查看原文 2012-03-26 10:52 3507 mturk/ crowdsourcing/ qurk/ human computation/ 論文筆記

Time: 1.5 hours
Timespan: Mar 24 – Mar 26, 2012
Adam Marcus, Eugene Wu, Samuel Madden, Robert C. Miller: Crowdsourced Databases: Query Processing with People. CIDR 2011: 211-214 (Fifth Biennial Conference on Innovative Data Systems Research)

作者Adam Marcus是MIT CSAIL實驗室(Haystack項目就是這個實驗室的)的研究生。這篇四頁的短文提出了一個概念原型Qurk：具有類似SQL的查詢系統，具體任務經分解、包裝后發布到MTurk上。文中對Qurk的描述："a novel query system for managing these workflows, allowing MTurk-style processing of relational databases"。以下是論文內容：

1. 針對這樣的一個系統，(S1)提出了一些問題：
(1) relation operations(比如等值連接) 在該系統中對等的操作怎么定義？
(2) 對於一個給定的任務，應該產生多少個HIT為宜？（比如對於一個排序的操作，可以只產生一個HIT，要求在這個HIT中對所有的項進行排序；也可以產生多個HIT，分別排序，但最后需要有merge的機制）
(3) 查詢空間太大時，如果進行采樣查詢？
(4) 如何定價？

2. (S2)中提出了幾個"Motivating Examples"
(1) 給定：一組公司名稱列表
      要求返回：這些公司的CEO和聯系方式的列表
(2) 給定：一組災難中難民的照片，另一組家人提供的照片
     要求返回：匹配的照片對
(3) 給定：一組信息
      要求返回：區分這些信息表達的情況（比如”正面”還是”負面”）
(4) 給定：一組產品的列表
     要求返回：根據Amazon上的review，對這些產品進行排名。

3. (S3)中給出了系統設計的概念圖

Executor用來產生供人類執行的任務列表。
Task Manager維護了一個任務的Queue，這些任務對應HIT。
Task Cache緩存已執行過的任務。
HIT Compiler用來生成供最終用戶查看的HIT的HTML頁面；可通過MTurk API與MTurk交互。

4. (S4)中舉了一下查詢語句的例子，如下：

5. (S6)中提出了一些優化的方向，包括: Runtime Priceing, Input Sampling, Batch Predicates, Operator Implementations, Join Heuristics, Task Result Cache, Model Training。
優化時會有一些導向，如：maxCost, minConfidence, maxLatency等。

6. 本文介紹了Qurk系統的概念，全文都很好懂。相關可關注的內容：
(1) embedding turkers as editors into a word processing system (To appear: Soylent. In UIST, New York, NY, USA,2010.)
(2) Crowdflower: provides an API to make developing HITs and finding cheating turkers easier. http://crowdflower.com/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文筆記：（CVPR2019）PointWeb: Enhancing Local Neighborhood Features for Point Cloud Processing ACGAN 論文筆記 MMoE論文筆記 ResNet論文筆記論文筆記：dropout 論文筆記:SRCNN CycleGan論文筆記 Louvain 論文筆記論文筆記：DeepCF 論文筆記：RankIQA