IMDB 电影评论情感分类数据集
作者:互联网
官网 下载地址
(1)keras
数据集来自 IMDB 的 25,000 条电影评论,以情绪(正面/负面)标记。评论已经过预处理,并编码为词索引(整数)的序列表示。为了方便起见,将词按数据集中出现的频率进行索引,例如整数 3 编码数据中第三个最频繁的词。这允许快速筛选操作,例如:「只考虑前 10,000 个最常用的词,但排除前 20 个最常见的词」。(引用keras中文文档)
作为惯例,0 不代表特定的单词,而是被用于编码任何未知单词。
from keras.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
numpy.ndarray格式
>>> x_train.shape
(25000,)
>>> x_test.shape
(25000,)
>>> type(x_train)
numpy.ndarray
(2)datasets
from datasets import load_dataset
raw_datasets = load_dataset("imdb")
DatasetDict({
train: Dataset({
features: ['text', 'label'],
num_rows: 25000
})
test: Dataset({
features: ['text', 'label'],
num_rows: 25000
})
unsupervised: Dataset({
features: ['text', 'label'],
num_rows: 50000
})
})
标签:datasets,num,情感,train,评论,test,IMDB,imdb,25000 来源: https://blog.csdn.net/Elvira521yan/article/details/122041515