其他分享
首页 > 其他分享> > 处理文本数据(上):词袋

处理文本数据(上):词袋

作者:互联网

我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。
第三种类型的特征:文本

1、用字符串表示的数据类型

文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。

字符串特征有时可以表示分类变量。在查看数据之前,我们无法知道如何处理一个字符串特征。

⭐四种类型的字符串数据:

2、示例应用:电影评论的情感分析

作为本章的一个运行示例,我们将使用由斯坦福研究员 Andrew Maas 收集的 IMDb (Internet Movie Database,互联网电影数据库)网站的电影评论数据集。

数据集链接:http://ai.stanford.edu/~amaas/data/sentiment/

这个数据集包含评论文本,还有一个标签,用于表示该评论是 “正面的”(positive)还是 “负面的” (negative)。

IMDb 网站本身包含从 1 到 10 的打分。为了简化建模,这些评论打分被归纳为一个二分类数据集,评分大于等于 7 的评论被标记为 “正面的”,评分小于等于 4 的评论被标记为 “负面的”,中性评论没有包含在数据集中。

将数据解压之后,数据集包括两个独立文件夹中的文本文件,一个是训练数据,一个是测试数据。每个文件夹又都有两个子文件夹,一个叫作 pos,一个叫作 neg。

pos 文件夹包含所有正面的评论,每条评论都是一个单独的文本文件,neg 文件夹与之类似。scikit-learn 中有一个辅助函数可以加载用这种文件夹结构保存的文件,其中每个子文件夹对应于一个标签,这个函数叫作 load_files。我们首先将 load_files 函数应用于训练数据:

  from sklearn.datasets import load_files
  from sklearn.model_selection import train_test_split


  reviews_train = load_files("../../datasets/aclImdb/train/")
  # load_files 返回一个 Bunch 对象,其中包含训练文本和训练标签

  #加载数据
  text_train,y_train = reviews_train.data,reviews_train.target

  #查看数据
  print("type of text_train: {}".format(type(text_train)))
  print("length of text_train: {}".format(len(text_train)))
  print("text_train[6]:\n{}".format(text_train[6]))

  '''
  ```
  type of text_train: <class 'list'>
  length of text_train: 25000
  text_train[6]:
  b"This movie has a special way of telling the story, at first i found it rather odd as it jumped through time and I had no idea whats happening.<br /><br />Anyway the story line was although simple, but still very real and touching. You met someone the first time, you fell in love completely, but broke up at last and promoted a deadly agony. Who hasn't go through this? but we will never forget this kind of pain in our life. <br /><br />I would say i am rather touched as two actor has shown great performance in showing the love between the characters. I just wish that the story could be a happy ending."
  ```
  '''

标签:format,处理,text,词袋,print,train,test,文本,数据
来源: https://www.cnblogs.com/caolanying/p/16339865.html