【PyTorch深度学习-龙龙老师】-测试版202112个等长(单词数量为 5)的句子序列可以表示为 shape 为[2,5,3] 的 3 维张量,其中 2 表示句子个数,5 表示单词数量,3 表示单词向量的长度。我们通过 IMDB 数据集来演示如何表示句子,代码如下: In [46]: # 自动加载 IMDB 电影评价数据集 from torchtext import data, datasets # 需要先安装 torchtext 库 # fix_length=80) LABEL = data.LabelField(dtype=torch.float) # 自动下载、加载、切割 IMDB 数据集 train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) print('len of train data:', len(train_data)) # 打印训练集句子数量 过规定长度的部分单词。以 IMDB 数据集的加载为例,我们来演示如何将不等长的句子变 换为等长结构,代码如下: 待替换!!! In [30]: total_words = 10000 # 设定词汇量大小 max_review_len = 80 # 最大句子长度 embedding_len = 100 # 词向量长度 # 加载 IMDB 数据集 (x_train, y_train)0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0组成,其中包含 从IMDb下载的25000个电影评论。在这两个数据集中,“积极”和“消极”标签的数量相同,表示不同的情感 极性。 import os import torch from torch import nn from d2l import torch as d2l 15.1.1 读取数据集 首先,下载并提取路径../data/aclImdb中的IMDb评论数据集。 #@save db', 'aclImdb') 接下来,读取训练和测试数据集。每个样本都是一个评论及其标签:1表示“积极”,0表示“消极”。 #@save def read_imdb(data_dir, is_train): """读取IMDb评论数据集文本序列和标签""" data, labels = [], [] for label in ('pos', 'neg'): folder_name = append(review) labels.append(1 if label == 'pos' else 0) return data, labels train_data = read_imdb(data_dir, is_train=True) print('训练集数目:', len(train_data[0])) for x, y in zip(train_data[0][:3],0 码力 | 797 页 | 29.45 MB | 1 年前3
共 2 条
- 1













