Gumbel-Softmax Trick和Gumbel分布
之前看MADDPG論文的時候,作者提到在離散的信息交流環境中,使用了Gumbel-Softmax estimator。於是去搜了一下,發現該技巧應用甚廣,如深度學習中的各種GAN、強化學習中的A2 ...
之前看MADDPG論文的時候,作者提到在離散的信息交流環境中,使用了Gumbel-Softmax estimator。於是去搜了一下,發現該技巧應用甚廣,如深度學習中的各種GAN、強化學習中的A2 ...