Python扩展在操作大型列表时会创建无效指针
作者:互联网
我设法为python列表实现了Fisher-Yates shuffle函数,作为习惯于扩展python的练习.它适用于相对较小的列表,除非我多次运行该函数.
每当列表大小超过100时,我就会遇到各种内存问题:
>>>import evosutil
>>> a=[i for i in range(100)]
>>> evosutil.shuffle(a)
>>> a
[52, 66, 0, 58, 41, 18, 50, 37, 81, 43, 74, 49, 90, 20, 63, 32, 89, 60, 2, 44, 3, 80, 15, 24, 22, 69, 86, 31, 56, 68, 34, 13, 38, 26, 14, 91, 73, 79, 39, 65, 5, 75, 84, 55, 7, 53, 93, 42, 40, 9, 51, 82, 29, 30, 99, 64, 33, 97, 27, 11, 6, 67, 16, 94, 95, 62, 57, 17, 78, 77, 71, 98, 72, 8, 88, 36, 85, 59, 21, 96, 23, 46, 10, 12, 48, 83, 4, 92, 45, 54, 1, 25, 19, 70, 35, 61, 47, 28, 87, 76]
>>> (Ctrl-D)
*** Error in `python3': free(): invalid next size (fast): 0x083fe680 ***
或者,当尝试在包含1000个元素的列表上操作时:
*** Error in `python3': munmap_chunk(): invalid pointer: 0x083ff0e0 ***
要么,
Segmentation fault (core dumped)
这是产生错误的模块的代码:
inline void _List_SwapItems(PyObject* list, Py_ssize_t i1, Py_ssize_t i2){
PyObject* tmp=PyList_GetItem(list, i2);
PyList_SetItem(list, i2, PyList_GetItem(list, i1));
PyList_SetItem(list, i1, tmp);
}
//Naive Fisher–Yates shuffle
static PyObject* shuffle(PyObject* self, PyObject* args){
PyObject* list;
PyArg_ParseTuple(args,"O", &list);
unsigned seed = std::chrono::system_clock::now().time_since_epoch().count();
std::minstd_rand0 rand(seed);
Py_ssize_t size = PyList_Size(list);
for(int i=0; i<size;++i){
int randIndex = rand()%size;
_List_SwapItems(list, randIndex, i);
}
Py_RETURN_NONE;
}
我觉得我应该能够用free()或Py_DECREF()来解决这个问题,但是我没有看到.我不认为我正在创造任何物体,只是移动它们.那么内存问题来自哪里?
解决方法:
在将它们传递给PyList_SetItem()之前,您需要Py_XINCREF()两个对象.进一步,抓住i1 == i2的特殊情况:
inline void _List_SwapItems(PyObject* list, Py_ssize_t i1, Py_ssize_t i2){
if (i1 == i2) {
return;
}
PyObject* obj1=PyList_GetItem(list, i1);
PyObject* obj2=PyList_GetItem(list, i2);
Py_XINCREF(obj1);
Py_XINCREF(obj2);
PyList_SetItem(list, i2, obj1);
PyList_SetItem(list, i1, obj2);
}
PyList_GetItem()返回一个借用的引用,即它不会返回它返回的对象.如果您没有保留任何其他引用,则引用计数将为1(因为它仅从列表中引用).当你调用PyList_SetItem(list,i2,…)时,列表Py_XDECREF()是先前存储在i2中的对象(你保存在tmp中).此时,refcount达到0并释放对象.哎呦.
类似地,您不能只调用PyList_SetItem(list,i,PyList_GetItem()),因为SetItem会窃取您传递给它的引用.你不拥有引用,但是,“旧”列表可以.所以你在这里也需要一个Py_XINCREF.
有关详细信息,请参阅list API documentation.
作为进一步的建议,您可以考虑不直接针对Python扩展API进行编程.完成所有操作需要大量代码,并且难以保持引用更正.到目前为止,还有多种其他方法可以将Python与C或C进行交互. CFFI似乎是Python生态系统将标准化的低级接口.但是,SIP和SWIG可能会为C提供更好的支持.有关SIP示例,请参阅this answer.
标签:python,c,python-3-x,python-c-extension,python-c-api 来源: https://codeday.me/bug/20190824/1710476.html