es.nodes.wan.only (default false)
此模式下(=true ),連接器將禁用發現,並且僅在所有操作(包括讀取和寫入)期間通過聲明的es.nodes進行連接。在此模式下,性能會受到很大影響
es.index.read.missing.as.empty(default no)
yes:允許讀取不存在的索引(並返回空數據集);no:不允許,讀到時拋出異常
es.batch.size.bytes
(default 1mb)
使用bulk API批量寫入的大小(字節),此設置是針對每個任務實例的,運行時乘以正在運行的Hadoop任務的總數
es.batch.size.entries
(default 1000)
使用bulk API進行批寫的大小(以條目數計)(0表示禁用),此設置是針對每個任務實例的,運行時乘以正在運行的Hadoop任務的總數
es.batch.write.refresh
(default true)
是否在大容量更新完成后調用索引刷新。只有在執行了整個寫操作(意味着執行了多個大容量更新)之后才會調用此函數。
es.batch.write.retry.count
(default 3)
ES過載且數據被拒絕的情況下,給定批的重試次數(負值代表無限次,可能產生副作用)
es.batch.write.retry.wait
(default 10s)
批量拒絕導致的批寫入重試之間的等待時間。
es.ser.reader.value.class(默認值取決於使用的庫)
用於將JSON轉換為對象的ValueReader實現的名稱。這是由框架根據使用的庫(Map/Reduce、Hive、Pig等)設置的。
es.ser.writer.value.class(默認值取決於使用的庫)
用於將對象轉換為JSON的ValueWriter實現的名稱。這是由框架根據使用的庫(Map/Reduce、Hive、Pig等)設置的。
es.http.timeout(默認1m)
Elasticsearch的HTTP/REST連接超時。
es.http.retries(默認3)
建立(斷開的)http連接的重試次數。每次與Elasticsearch節點的對話都會應用重試。一旦重試次數用完,連接將自動重新分配到下一個可用的Elasticsearch節點(基於es.nodes的聲明,然后是發現的節點(如果啟用)。
es.scroll.keepalive(默認10m)
查詢請求之間滾動結果的最長持續時間。
es.scroll.size(默認值50)
每個請求返回的結果/項目數。
es.scroll.limit(默認值-1)
每個滾動條返回的結果/項目總數。負值表示應返回所有匹配的文檔。請注意,這適用於通常綁定到某個作業任務的每個滾動。因此,返回的文檔總數是LIMIT*number_of_SCROLLS(或TASKS)
es.action.heart.beat.lead(默認15秒)
在Elasticsearch-hadoop通知Hadoop任務仍在運行,防止任務重新啟動之前,任務超時的引導時間。
es.index.auto.create
(default yes)
將數據寫入Elasticsearch或失敗時,elasticsearch-hadoop是否應創建索引(如果缺少索引)。
es.index.read.missing.as.empty (default no)
elasticsearch-hadoop是否允許讀取不存在的索引(並返回空數據集)或不允許(並引發異常)
es.field.read.empty.as.null (default yes)
elasticsearch-hadoop是否將空字段視為null。 通常不需要此設置(因為elasticsearch-hadoop已經處理了null情況),但是可以啟用此設置,以便更輕松地處理尚未清除的文本字段。
es.field.read.validate.presence (default warn)
為了幫助找出從Hadoop查詢數據時可能出現的錯誤(這會導致返回錯誤的數據),elasticsearch-hadoop可以執行驗證以發現缺失的字段和潛在的錯別字。 可能的值為:
ignore:沒有執行驗證
warn:如果驗證失敗,則會記錄一條警告消息
strict:如果缺少字段,則會引發異常,從而停止工作