fastai · arnaujc91 · Oct 25, 2020 · Nov 3, 2020 · Nov 5, 2020
@@ -61,21 +61,21 @@ def reset(self):
     def _do_nothing(self): pass
 
 # Cell
-class EmbeddingDropout(Module):
-    "Apply dropout with probability `embed_p` to an embedding layer `emb`."
-
-    def __init__(self, emb, embed_p):
-        self.emb,self.embed_p = emb,embed_p
+class EmbeddingDropout(nn.Embedding):
+    "Apply dropout with probability `embed_p` to an embedding layer."
+    def __init__(self, *args, embed_p, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.embed_p = embed_p
 
     def forward(self, words, scale=None):
         if self.training and self.embed_p != 0:
-            size = (self.emb.weight.size(0),1)
-            mask = dropout_mask(self.emb.weight.data, size, self.embed_p)
-            masked_embed = self.emb.weight * mask
-        else: masked_embed = self.emb.weight
+            size = (self.weight.size(0),1)
+            mask = dropout_mask(self.weight.data, size, self.embed_p)
+            masked_embed = self.weight * mask
+        else: masked_embed = self.weight
         if scale: masked_embed.mul_(scale)
-        return F.embedding(words, masked_embed, ifnone(self.emb.padding_idx, -1), self.emb.max_norm,
-                           self.emb.norm_type, self.emb.scale_grad_by_freq, self.emb.sparse)
+        return F.embedding(words, masked_embed, ifnone(self.padding_idx, -1), self.max_norm,
+                       self.norm_type, self.scale_grad_by_freq, self.sparse)
 
 # Cell
 class AWD_LSTM(Module):
@@ -87,11 +87,11 @@ def __init__(self, vocab_sz, emb_sz, n_hid, n_layers, pad_token=1, hidden_p=0.2,
         store_attr('emb_sz,n_hid,n_layers,pad_token')
         self.bs = 1
         self.n_dir = 2 if bidir else 1
-        self.encoder = nn.Embedding(vocab_sz, emb_sz, padding_idx=pad_token)
-        self.encoder_dp = EmbeddingDropout(self.encoder, embed_p)
+        self.encoder = EmbeddingDropout(vocab_sz, emb_sz, embed_p=embed_p, padding_idx=pad_token)
+        self.encoder_dp = self.encoder
+        self.encoder.weight.data.uniform_(-self.initrange, self.initrange)
         self.rnns = nn.ModuleList([self._one_rnn(emb_sz if l == 0 else n_hid, (n_hid if l != n_layers - 1 else emb_sz)//self.n_dir,
                                                  bidir, weight_p, l) for l in range(n_layers)])
-        self.encoder.weight.data.uniform_(-self.initrange, self.initrange)
         self.input_dp = RNNDropout(input_p)
         self.hidden_dps = nn.ModuleList([RNNDropout(hidden_p) for l in range(n_layers)])
         self.reset()
@@ -139,7 +139,7 @@ def reset(self):
 def awd_lstm_lm_split(model):
     "Split a RNN `model` in groups for differential learning rates."
     groups = [nn.Sequential(rnn, dp) for rnn, dp in zip(model[0].rnns, model[0].hidden_dps)]
-    groups = L(groups + [nn.Sequential(model[0].encoder, model[0].encoder_dp, model[1])])
+    groups = L(groups + [nn.Sequential(model[0].encoder, model[0].encoder, model[1])])
     return groups.map(params)
 
 # Cell
@@ -149,7 +149,7 @@ def awd_lstm_lm_split(model):
 # Cell
 def awd_lstm_clas_split(model):
     "Split a RNN `model` in groups for differential learning rates."
-    groups = [nn.Sequential(model[0].module.encoder, model[0].module.encoder_dp)]
+    groups = [nn.Sequential(model[0].module.encoder, model[0].module.encoder)]
     groups += [nn.Sequential(rnn, dp) for rnn, dp in zip(model[0].module.rnns, model[0].module.hidden_dps)]
     groups = L(groups + [model[1]])
     return groups.map(params)

@@ -210,21 +210,21 @@
    "outputs": [],
    "source": [
     "#export\n",
-    "class EmbeddingDropout(Module):\n",
-    "    \"Apply dropout with probability `embed_p` to an embedding layer `emb`.\"\n",
-    "\n",
-    "    def __init__(self, emb, embed_p):\n",
-    "        self.emb,self.embed_p = emb,embed_p\n",
+    "class EmbeddingDropout(nn.Embedding):\n",
+    "    \"Apply dropout with probability `embed_p` to an embedding layer.\"\n",
+    "    def __init__(self, *args, embed_p, **kwargs):\n",
+    "        super().__init__(*args, **kwargs)\n",
+    "        self.embed_p = embed_p\n",
     "\n",
     "    def forward(self, words, scale=None):\n",
     "        if self.training and self.embed_p != 0:\n",
-    "            size = (self.emb.weight.size(0),1)\n",
-    "            mask = dropout_mask(self.emb.weight.data, size, self.embed_p)\n",
-    "            masked_embed = self.emb.weight * mask\n",
-    "        else: masked_embed = self.emb.weight\n",
+    "            size = (self.weight.size(0),1)\n",
+    "            mask = dropout_mask(self.weight.data, size, self.embed_p)\n",
+    "            masked_embed = self.weight * mask\n",
+    "        else: masked_embed = self.weight\n",
     "        if scale: masked_embed.mul_(scale)\n",
-    "        return F.embedding(words, masked_embed, ifnone(self.emb.padding_idx, -1), self.emb.max_norm,\n",
-    "                           self.emb.norm_type, self.emb.scale_grad_by_freq, self.emb.sparse)"
+    "        return F.embedding(words, masked_embed, ifnone(self.padding_idx, -1), self.max_norm,\n",
+    "                       self.norm_type, self.scale_grad_by_freq, self.sparse)"
    ]
   },
   {
@@ -233,10 +233,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "enc = nn.Embedding(10, 7, padding_idx=1)\n",
-    "enc_dp = EmbeddingDropout(enc, 0.5)\n",
+    "enc = EmbeddingDropout(10, 7, embed_p=0.5, padding_idx=1)\n",
     "tst_inp = torch.randint(0,10,(8,))\n",
-    "tst_out = enc_dp(tst_inp)\n",
+    "tst_out = enc(tst_inp)\n",
     "for i in range(8):\n",
     "    assert (tst_out[i]==0).all() or torch.allclose(tst_out[i], 2*enc.weight[tst_inp[i]])"
    ]
@@ -257,11 +256,11 @@
     "        store_attr('emb_sz,n_hid,n_layers,pad_token')\n",
     "        self.bs = 1\n",
     "        self.n_dir = 2 if bidir else 1\n",
-    "        self.encoder = nn.Embedding(vocab_sz, emb_sz, padding_idx=pad_token)\n",
-    "        self.encoder_dp = EmbeddingDropout(self.encoder, embed_p)\n",
+    "        self.encoder = EmbeddingDropout(vocab_sz, emb_sz, embed_p=embed_p, padding_idx=pad_token)\n",
+    "        self.encoder_dp = self.encoder\n",
+    "        self.encoder.weight.data.uniform_(-self.initrange, self.initrange)\n",
     "        self.rnns = nn.ModuleList([self._one_rnn(emb_sz if l == 0 else n_hid, (n_hid if l != n_layers - 1 else emb_sz)//self.n_dir,\n",
     "                                                 bidir, weight_p, l) for l in range(n_layers)])\n",
-    "        self.encoder.weight.data.uniform_(-self.initrange, self.initrange)\n",
     "        self.input_dp = RNNDropout(input_p)\n",
     "        self.hidden_dps = nn.ModuleList([RNNDropout(hidden_p) for l in range(n_layers)])\n",
     "        self.reset()\n",
@@ -382,7 +381,7 @@
     "def awd_lstm_lm_split(model):\n",
     "    \"Split a RNN `model` in groups for differential learning rates.\"\n",
     "    groups = [nn.Sequential(rnn, dp) for rnn, dp in zip(model[0].rnns, model[0].hidden_dps)]\n",
-    "    groups = L(groups + [nn.Sequential(model[0].encoder, model[0].encoder_dp, model[1])])\n",
+    "    groups = L(groups + [nn.Sequential(model[0].encoder, model[0].encoder, model[1])])\n",
     "    return groups.map(params)"
    ]
   },
@@ -406,7 +405,7 @@
     "#export\n",
     "def awd_lstm_clas_split(model):\n",
     "    \"Split a RNN `model` in groups for differential learning rates.\"\n",
-    "    groups = [nn.Sequential(model[0].module.encoder, model[0].module.encoder_dp)]\n",
+    "    groups = [nn.Sequential(model[0].module.encoder, model[0].module.encoder)]\n",
     "    groups += [nn.Sequential(rnn, dp) for rnn, dp in zip(model[0].module.rnns, model[0].module.hidden_dps)]\n",
     "    groups = L(groups + [model[1]])\n",
     "    return groups.map(params)"