分类算法sentence句子编码的时候，没理解到mask处理逻辑 #158

cwqJim2023 · 2023-11-14T08:54:29Z

提问时请尽可能提供如下信息：

基本信息

你使用的操作系统:
你使用的Python版本:
你使用的Pytorch版本:
你使用的bert4torch版本:
你加载的预训练模型:

核心代码

# 请在此处贴上你的核心代码

def collate_fn(batch):
batch_token_ids, batch_segment_ids, batch_labels = [], [], []
for text, label in batch:
token_ids, segment_ids = tokenizer.encode(text, maxlen=maxlen)
batch_token_ids.append(token_ids)
batch_segment_ids.append(segment_ids)
batch_labels.append([label])

batch_token_ids = torch.tensor(sequence_padding(batch_token_ids), dtype=torch.long, device=device)
batch_segment_ids = torch.tensor(sequence_padding(batch_segment_ids), dtype=torch.long, device=device)
batch_labels = torch.tensor(batch_labels, dtype=torch.long, device=device)
return [batch_token_ids, batch_segment_ids], batch_labels.flatten()

加载数据集

train_dataloader = DataLoader(MyDataset(['E:/data/corpus/sentence_classification/sentiment/sentiment.train.data']), batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
valid_dataloader = DataLoader(MyDataset(['E:/data/corpus/sentence_classification/sentiment/sentiment.valid.data']), batch_size=batch_size, collate_fn=collate_fn)
test_dataloader = DataLoader(MyDataset(['E:/data/corpus/sentence_classification/sentiment/sentiment.test.data']), batch_size=batch_size, collate_fn=collate_fn)

请问 token_ids, segment_ids = tokenizer.encode(text, maxlen=maxlen)，mask部分是怎么处理的？

输出信息

# 请在此处贴上你的调试输出

自我尝试

此处请贴上你的自我尝试过程

The text was updated successfully, but these errors were encountered:

Tongjilibo · 2023-11-14T09:07:58Z

mask是在框架内部处理的，默认是0，如果你的config.json文件，或者你在build_transformer_model()时候传入pad_token_id，则按照该token_id自行计算attention_mask

cwqJim2023 changed the title ~~分类算法sentence句子编码的时候，没看到maskbufe~~ 分类算法sentence句子编码的时候，没理解到mask处理逻辑 Nov 14, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

分类算法sentence句子编码的时候，没理解到mask处理逻辑 #158

分类算法sentence句子编码的时候，没理解到mask处理逻辑 #158

cwqJim2023 commented Nov 14, 2023

Tongjilibo commented Nov 14, 2023

分类算法sentence句子编码的时候，没理解到mask处理逻辑 #158

分类算法sentence句子编码的时候，没理解到mask处理逻辑 #158

Comments

cwqJim2023 commented Nov 14, 2023

基本信息

核心代码

加载数据集

输出信息

自我尝试

Tongjilibo commented Nov 14, 2023