原文:论文笔记——Deep Model Compression Distilling Knowledge from Noisy Teachers

论文地址:https: arxiv.org abs . 主要思想 这篇文章就是用teacher student模型,用一个teacher模型来训练一个student模型,同时对teacher模型的输出结果加以噪声,然后来模拟多个teacher,这也是一种正则化的方法。 . teacher输出的结果加噪声以后,然后和student的输出结果计算L loss,作为student网络的反馈。 . 加噪声 ...

2017-10-12 00:22 0 1387 推荐指数:

查看详情

论文笔记Deep Residual Learning

之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记。在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域,在一定程度上缓解了这种问题。不过,当网络的层数急剧增加时,BP 算法中导数的累乘效应还是很容易 ...

Sun Jan 07 22:35:00 CST 2018 3 4048
Efficient Knowledge Graph Accuracy Evaluation 论文笔记

前言 这篇论文主要讲的是知识图谱正确率的评估,将知识图谱的正确率定义为知识图谱中三元组表述正确的比例。如果要计算知识图谱的正确率,可以用人力一一标注是否正确,计算比例。但是实际上,知识图谱往往很大,不可能耗费这么多的人力去标注,所以一般使用抽样检测的方法。这就好像调查一批商品合格率一样,不可能 ...

Mon Aug 03 01:38:00 CST 2020 4 375
论文笔记 Context-Aware Attentive Knowledge Tracing

摘要 这篇文章提出了AKT模型, 使用了单调性注意力机制, 考虑过去的做题记录来决策未来的做题结果, 另外使用了Rasch 模型来正则化习题和概念的嵌入。 AKT方法 1上下文感知表示和知识检索 ...

Sun Mar 07 01:17:00 CST 2021 0 368
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM