编程语言
首页 > 编程语言> > Python3 Keras分词器Tokenizer

Python3 Keras分词器Tokenizer

作者:互联网

import keras.preprocessing.sequence
from keras.preprocessing.text import Tokenizer
samples = ['我 爱 你 无畏 人海的 拥挤','用尽 余生的 力气 只为 找到 你','你']
# 创建分词器实例
# split 默认字符为空格
tokenizer = Tokenizer()
tokenizer.fit_on_texts(samples)
# word_counts:字典形式  出现过多少次
print(tokenizer.word_counts)
# word_docs: 字典
print(tokenizer.word_docs)
one_hot_results = tokenizer.texts_to_matrix(samples)
print(one_hot_results)
# 获得单词索引
word_index = tokenizer.word_index
print(word_index)
#document_count: 整数    几个字符串
print(tokenizer.document_count)
print('Found %s.'% len(word_index))
print(tokenizer.texts_to_sequences(["我 爱 你 无畏 人海的 拥挤"]))
print(keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences(["我 爱 你 无畏 人海的 拥挤"]),maxlen=20))

截图:

 

标签:index,word,Tokenizer,tokenizer,texts,分词器,sequences,print,Python3
来源: https://www.cnblogs.com/kuangmeng/p/15362430.html