编程语言
首页 > 编程语言> > python-使用索引列表有效填充NumPy数组

python-使用索引列表有效填充NumPy数组

作者:互联网

我知道如何在joblib中执行并行循环,该循环返回结果列表.

但是,是否可以并行填充预定义的numpy矩阵?

想象一下以下最小示例矩阵和数据:

column_data = ['a', 'b', 'c', 'd', 'e', 'f', 'x']
data = [['a', 'b', 'c'],
        ['d', 'c'],
        ['e', 'f', 'd', 'x']]
x = np.zeros((len(data), len(column_data))

请注意,column_data已排序且是唯一的.数据是列表的列表,而不是矩形矩阵.

循环:

for row in range(len(data)):
    for column in data[row]:
        x[row][column_data.index(column)] = 1

是否可以并行处理此循环?没有并行化,填充70,000 x 10,000矩阵的速度非常慢.

解决方法:

这是一种几乎矢量化的方法-

lens = [len(item) for item in data]    
A = np.concatenate((column_data,np.concatenate(data)))
_,idx = np.unique(A,return_inverse=True)

R = np.repeat(np.arange(len(lens)),lens)
C = idx[len(column_data):]

out = np.zeros((len(data), len(column_data)))    
out[R,C] = 1

这是另一个

lens = [len(item) for item in data]
R = np.repeat(np.arange(len(lens)),lens)
C = np.searchsorted(column_data,np.concatenate(data))

out = np.zeros((len(data), len(column_data)))
out[R,C] = 1

标签:vectorization,parallel-processing,joblib,python,numpy
来源: https://codeday.me/bug/20191119/2037351.html