data-analysis

首页 > TAG信息列表 > data-analysis

在Python3 Pandas中读取/导入CSV文件时出现编码问题

我正在尝试使用熊猫读取电影镜头数据集：http://files.grouplens.org/datasets/movielens/ml-100k/. 我正在使用Python 3.4版,并且正在按照“ http://www.gregreda.com/2013/10/26/using-pandas-on-the-movielens-dataset/”中给出的教程进行操作. 当我尝试使用此处提到的代码读取u.i

python-如何从熊猫数据框中提取列表或字典中的非NA值

我有这样的df df AAA BBB CCC 0 4 10 100 1 5 20 50 2 6 30 -30 3 7 40 -50 df_mask = pd.DataFrame({‘AAA’：[真] * 4,’BBB’：[假] * 4,’CCC’：[真,假] * 2}) 和df.where(df_mask)是 AAA BBB CCC 0 4 NaN 100.0 1 5 NaN NaN 2 6 NaN -

python-熊猫：切片在分层索引上没有副本

我想在层次结构索引的特定级别上修改某些行的DataFrame条目.这是一个典型的例子： >>> index = pd.MultiIndex.from_arrays([['a','a', 'b', 'b'], [1,2,1,2]], ... names=['first', 'second']) >

底图/项目的Pandas错误,用于地图绘制

我在下面运行了Python代码,该代码是“用于数据分析的Python”一书中的“绘制地图：可视化海地地震危机数据”示例.第242-246页该代码应该创建海地的情节地图,但是出现以下错误： Traceback (most recent call last): File "Haiti.py", line 74, in <module> x, y = m(cat_data.

mysql-连接两个表而不会丢失相关值

我有两个表,分别代表客户产品及其竞争对手产品的数据库： tmp_match-from_product_id和to_product_id分别表示客户产品和竞争对手产品之间的匹配. tmp_price_history-显示每个日期每个产品的价格. 我正在尝试编写一个查询,该查询将列出表tmp_price_history中的所有日期.对于每个日期,

在Python中使用熊猫在两个DataFrame之间进行值匹配

嗨,我有两个像下面的DataFrames DF1 Alpha | Numeric | Special and | 1 | @ or | 2 | # lol ok | 4 | & DF2 with single column Content boy or girl school @ morn pyc LoL ok student Chandra 我想搜

python – 如何更改pandas数据帧中的单个索引值？

energy.loc['Republic of Korea'] 我想将“韩国”指数的价值改为“韩国”. 但是数据框太大,无法更改每个索引值.我如何仅更改此单个值？解决方法:你想做这样的事情： as_list = df.index.tolist() idx = as_list.index('Republic of Korea') as_list[idx] = 'South Korea' df.index

python – 在pandas中按多个条件分组

我有一个像这样的pandas数据结构： >>> df Benny Daniel Doris Eric Jack Zoe Age 75 30 95 25 28 23 Salary 2000 9000 100000 10000 12000 20000 我想找到几个不同组的平均年龄和工资,其中每个组都是列的子集,它们可能

python – Pandas将每一行与数据框中的所有行进行比较,并将结果保存在每行的列表中

我尝试通过fuzzywuzzy.fuzzy.partial_ratio()> = 85将每一行与pandas DF中的所有行进行比较,并在列表中为每一行写入结果. in: df = pd.DataFrame( {'id':[1, 2, 3, 4, 5, 6], 'name':['dog', 'cat', 'mad cat', 'good dog', 'bad dog&#

python – 如何在ecmwf文件上读取日期和时间

我在netcdf文件中有全局数据集.数据文件的时间信息是： <type 'netCDF4._netCDF4.Variable'> int32 time(time) units: hours since 1900-01-01 00:00:0.0 long_name: time calendar: gregorian unlimited dimensions: time current shape = (5875,) filling off 当我

Python,ROOT和MINUIT集成？

我是高能粒子物理系的一名谦虚的研究生.由于对C/C++毫无根据的厌恶以及对python的热爱,我到目前为止已经使用python进行数据分析(只是简单的事情)并且即将尝试支持针对ROOT库的python脚本,特别是使用MINUIT一些参数最小化. 除了询问是否有人对这些安装和使用有任何提示,我想知道是

python – 计算pandas DataFrame中列对的减法

我使用大尺寸(48K行,最多数十列)DataFrames.在他们操纵的某个时刻,我需要对列值进行成对减法,我想知道是否有更有效的方法来做到这一点而不是我正在做的那个(见下文). 我目前的代码： # Matrix is the pandas DataFrame containing all the data comparison_df = pandas.DataFrame

python – 从时间序列图中对值进行求和/堆栈的算法,其中数据点在时间上不匹配

我有一个图形/分析问题我无法理解.我可以做一个蛮力,但它太慢了,也许有人有更好的主意,或知道或快速的python库？我有2个时间序列数据集(x,y),我想聚合(随后绘图).问题是系列中的x值不匹配,我真的不想诉诸于将值复制到时间箱中. 所以,鉴于这两个系列： S1: (1;100) (5;100) (10;100)

是否可以在Python中执行glmm？

是否可以在Python中执行glmm(如SPSS中的GENLINMIXED分析)？我是statsmodels的忠实粉丝,但这个库似乎不支持glmm …有没有其他选择？ -编辑- 决定用R和r2py来做… def RunAnalyseMLMlogit(dataset, outcomevars, meeneemvars, randintercept, randslope): from rpy2.robjects imp

Python和Pandas – dp.Series int32和int64之间的区别

我开始学习python,numpy和panda,我有一个非常基本的问题,关于大小. 请参阅下一个代码块： 1.长度：6,dtype：int64 # create a Series from a dict pd.Series({key: value for key, value in zip('abcdef', range(6))}) 与 2.长度：6,dtype：int32 # but why does this generate a smaller

python – Pandas根据项值返回索引和列名

我试图根据项值返回列名和索引. 我有这样的事情：所以,让我今天尝试返回值为>的所有值的索引和列名称. 0.75. for date, row in df.iterrows(): for item in row: if item > .75: print index, row 我希望这可以归还“交通和抢劫”.但是,这会返回所有值.

python – 组合两个添加相应值的pandas数据帧

我有两个这样的数据帧： df1 = pd.DataFrame({'A': [1,0,3], 'B':[0,0,1], 'C':[0,2,2]}, index =['a','b','c']) df2 = pd.DataFrame({'A': [0,0], 'B':[2,1]}, index =['a','c'

linux – AWK在两个单独的文件中比较两列

我想比较两个文件,并做这样的事情：如果第一个文件中的第5列等于第二个文件中的第5列,我想打印第一个文件中的整行.那可能吗？我搜索了这个问题,但无法找到解决方案:( 文件由制表符分隔,我试过这样的事情： zcat file1.txt.gz file2.txt.gz | awk -F'\t' 'NR==FNR{a[$5];next}$5 in a {p

python – 如何计算点击率

这是一个例子,我有这个数据; datetime keyword COUNT 0 2016-01-05 a_click 100 1 2016-01-05 a_pv 200 2 2016-01-05 b_pv 150 3 2016-01-05 b_click 90 4 2016-01-05 c_pv 120 5 2016-01-05 c_click 90 我想将其转换为这些数据 datetim