首页 > TAG信息列表 > pytables
PyTables学习 (数据保存形式,对象树结构)
参考自http://www.pytables.org/usersguide/introduction.html PyTables的主要目的是提供一个好的操作HDF5文件的方法。 HDF文件是分层数据格式(Hierarchical Data Format)的简称。数据主要由组(Groups)和数据集(Datasets)组成。其中,组的作用类似于文件夹,用于包含数据集或者其他解决tables(pytables)的安装问题
pip安装了pandas之后如果未能安装tables,之后使用pandas会报错,之后安装pytables的话如果用pip安装,如果之前未安装过 Microsoft vc++工具就会报如下错误 raise distutils.errors.DistutilsPlatformError( distutils.errors.DistutilsPlatformError: Microsoft Visual C++ 14.0python-Pytables HDF5 ImportError无法打开共享的对象文件
在IPython中的Ubuntu 13.04中导入PyTables时出现以下错误: In [1]: from tables import * --------------------------------------------------------------------------- ImportError Traceback (most recent call last) <ipython-input-1-4c3ea36在同一Python进程中同时使用h5py和pytables
HDF5交互的两个主要Python库是h5py和pytables.他们在一起玩的不好,尤其是在窗户上 >>> import tables >>> import h5py ImportError: DLL load failed >>> import h5py >>> import tables # works fine 我需要在同一个应用程序中同时使用它们,但是导入每个库时都无法从两个库python-PyTables中的此错误是什么?
我正在通过python中的pandas使用pytables.我正在尝试使用pandas.read_hdf()加载文件,但出现此讨厌的错误.我希望我不会丢失我的1.1场不可替代的数据.保存过程中没有看到任何错误.一切似乎都正常. 有人可以解释这个错误在说什么吗? 另外,有什么办法可以恢复吗? HDF5ExtError: HDF5 er在python中将数组存储到持久内存的有效方法
假设我们有一个这样的长一维数组,其中包含数百万个元素: [0,1,1,1,1,2,1,1,1,1,1,1,1,… ,, 1,2,2,2,2,2,2,2,2,4,4,4 ,4,4,4,4,4,4,4,3,4,1,1,1,1,1] 如果只有一个重复元素,我们可以使用稀疏数组,但是由于它可以是任何类型的整数值(或一组名义元素),所以这没有我想像的窍门(或者我python-通过PyTables或PyHDF将大文本文件“读入” hdf5?
我正在尝试使用SciPy进行一些统计,但是我的输入数据集非常大(〜1.9GB),并且为dbf格式. 该文件足够大,当我尝试使用genfromtxt创建数组时,Numpy会返回错误消息. (我有3GB的ram,但正在运行win32). 即: Traceback (most recent call last): File "<pyshell#5>", line 1, in <modulepython-同时使用pandas和PyTables(3.1.1),重新打开一个已经打开的文件
我同时使用了pandas和pytables(3.1.1).问题是我已经用pytables打开了HDF5文件,并且当我尝试用熊猫创建新的HDF5Store时 hdf5store = HDFStore(...) 我收到以下错误: File "/home/travis/virtualenv/python2.7_with_system_site_packages/local/lib/python2.7/site-packages/panpython-以小块创建非常大的NUMPY数组(PyTables与numpy.memmap)
关于SO的问题似乎很多,但是它们并不能完全回答我的问题.我认为这对于计算科学家来说是一个非常普遍的用例,因此我提出了一个新问题. 题: 我从文件中读取了几个小的numpy数组(每个数组约10 MB),并对它们进行了一些处理.我想创建一个更大的数组(〜1 TB),其中数组中的每个维度都包含这python-PyTables熊猫选择问题
我有一个结构如下的HDF5(PyTables)文件: /<User>/<API Key> ex: /Dan/A4N5 /Dan/B8P0 /Dave/D3Y7 每个表的结构都类似,其中sessionID和时间存储在纪元中: sessionID time 0 3ODE3Nzll 1467590400 1 lMGVkMDc4 1467590400 2 jNzIzNmY1 1467590400 ... 我希望Ppython – Pandas pytable:如何指定MultiIndex元素的min_itemsize
我将pandas数据帧存储为包含MultiIndex的pytable. MultiIndex的第一级是对应于userID的字符串.现在,大多数userID长度为13个字符,但其中一些长度为15个字符.当我追加包含long userID的记录时,pytables会引发错误,因为它需要13个字符的字段. ValueError('Trying to store a string使用chunksize保存到新的HDFStore中迭代HDFStore
我将所有数据都放入了HDFStore(是的!),但是如何将它从中获取… 我在我的HDFStore中保存了6个DataFrames作为frame_table.这些表中的每一个都如下所示,但长度不同(日期是朱利安日期). >>> a = store.select('var1') >>> a.head() var1 x_coor y_coor datepython – PyTables问题 – 迭代表的子集时的结果不同
我是PyTables的新手,我正在考虑使用它处理基于代理的建模仿真生成的数据并存储在HDF5中.我正在使用39 MB的测试文件,并且遇到了一些奇怪的问题.这是表格的布局: /example/agt_coords (Table(2000000,)) '' description := { "agent": Int32Col(shape=(), dflt=0, pos=0),python – 使用HDF5和Pandas通过Chunking读取数据
当在内存中查询数据形成CSV的子集时,我总是这样做: df = pd.read_csv('data.csv', chunksize=10**3) chunk1 = df.get_chunk() chunk1 = chunk1[chunk1['Col1'] > someval] for chunk in df: chunk1.append(chunk[chunk['Col1'] >someval]) 我最近开始使用HDF如果追加失败,如何有效地重建pandas hdfstore表
我正在使用pandas中的hdfstore来处理正在进行的迭代过程中的数据帧.在每次迭代中,我追加到hdfstore中的表.这是一个玩具示例: import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string import ascii_letters alphanum=np.arraypython – 使用PyTables存储图像和元数据
我正在使用PyTables将一些图像存储为Array和CArray数据类型.对于这些图像中的每一个,我还想存储一些基本元数据(例如,EXIF数据). 我可以设想一些存储这些数据格式的方法,从为每个Array / CArray存储元数据和AttributeSet类到为所有元数据使用Table. 我的问题是:如果我希望能够从最终python – 是在PyTables中添加列来创建新表和副本的唯一方法吗?
我正在寻找一种可以处理存储在磁盘上的异构数据的持久数据存储解决方案. PyTables似乎是一个显而易见的选择,但我可以找到关于如何添加新列的唯一信息是一个教程示例.本教程让用户创建一个添加了列的新表,将旧表复制到新表中,最后删除旧表.这似乎是一个巨大的痛苦.这是怎么做的? 如python – Pandas _Dataadata DataFrame持久性错误
我终于想出了如何使用DataFrame中的_metadata,一切正常,除了我无法坚持它,如hdf5或json.我知道它有效,因为我复制框架和_metadata属性复制“非_metadata”属性不. 例 df = pandas.DataFrame #make up a frame to your liking pandas.DataFrame._metadata = ["testmeta"] df.testmepython – PyTables线程安全吗?
我试图将Python线程模块与PyTables一起使用.有人能告诉我PyTabes是否是线程安全的吗?我得到一些错误,它似乎与线程有关. 谢谢, 标记解决方法:来自PyTables常见问题解答:http://www.pytables.org/moin/FAQ 它说并发读取是安全的,但并发写入甚至是带有读取器线程的单个写入器可能是个坏python – Pandas – 检索HDF5列和内存使用情况
我有一个简单的问题,我不禁感到我错过了一些明显的东西. 我已经从源表(SQL Server)读取数据并创建了一个HDF5文件来通过以下方式存储数据: output.to_hdf(‘h5name’,’df’,format =’table’,data_columns = True,append = True,complib =’blosc’,min_itemsize = 10) 数据集约为python – 在numexpr中限制子表达式
如何使用numexpr有效表达以下内容? z = min(x-y, 1.0) / (x+y) 这里,x和y是一些相同形状的大型NumPy数组. 换句话说,我试图将x-y限制为1.0,然后再除以x y. 我想使用单个numexpr表达式来做到这一点(x和y很大,我不想不止一次迭代它们).解决方法:也许这样的事情可行吗? In [11]: impopython – 在pytables中优化复杂的table.where()查询?
我有一个非常大的数据库 – 我正在使用一个350米行的子集,但最终它将是大约3b行.我的全部目标是在这个数据库上优化特定类型的查询,但代价是除了内存以外的所有内容.我正在使用的db文件在PyTables版本2.3.1上使用blosc在1级压缩(我可以更新,如果这会有帮助的话).每行有十三个条目