pytorch nn.Embedding


pytorch nn.Embedding
class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False)

num_embeddings (int) - 嵌入字典的大小

embedding_dim (int) - 每個嵌入向量的大小

padding_idx (int, optional) - 如果提供的話,輸出遇到此下標時用零填充

max_norm (float, optional) - 如果提供的話,會重新歸一化詞嵌入,使它們的范數小於提供的值

norm_type (float, optional) - 對於max_norm選項計算p范數時的p

scale_grad_by_freq (boolean, optional) - 如果提供的話,會根據字典中單詞頻率縮放梯度

weight weight (Tensor) -形狀為(num_embeddings, embedding_dim)的模塊中可學習的權值

輸入: LongTensor (N, W), N = mini-batch, W = 每個mini-batch中提取的下標數
輸出: (N, W, embedding_dim)

加載預訓練模型
self.embed = nn.Embedding(vocab_size, embedding_dim)
self.embed.weight.data.copy_(torch.from_numpy(pretrained_embeddings))


1
2
3
4
embed = nn.Embedding.from_pretrained(feat)
1
加載glove
先將glove向量轉換成Word2vec向量。然后使用gensim庫導入。

'''轉換向量過程'''
from gensim.test.utils import datapath, get_tmpfile
from gensim.models import KeyedVectors
# 已有的glove詞向量
glove_file = datapath('test_glove.txt')
# 指定轉化為word2vec格式后文件的位置
tmp_file = get_tmpfile("test_word2vec.txt")
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_file, tmp_file)

‘’‘’導入向量‘’‘’
# 加載轉化后的文件
wvmodel = KeyedVectors.load_word2vec_format(tmp_file)
# 使用gensim載入word2vec詞向量

vocab_size = len(vocab) + 1
embed_size = 100
weight = torch.zeros(vocab_size+1, embed_size)

for i in range(len(wvmodel.index2word)):
try:
index = word_to_idx[wvmodel.index2word[i]]
except:
continue
weight[index, :] = torch.from_numpy(wvmodel.get_vector(
idx_to_word[word_to_idx[wvmodel.index2word[i]]]))

 

#embed
embedding = nn.Embedding.from_pretrained(weight)

 

 

---------------------
作者:昕晴
來源:CSDN
原文:https://blog.csdn.net/qq_40210472/article/details/88995433
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM