首页 > TAG信息列表 > data-science
累积条件计数
我有以下数据框. df = pd.DataFrame( { "drive": [1,1,2,2,2,3,3,3,4,4,4,5,5,6,6,7,7], "team": ['home','home','away','away','away','home','home','homepython-Keras MLP分类器不学习
我有这样的数据 有29列,其中我必须预测winPlacePerc(数据帧的最末端)在1(高perc)到0(低perc)之间 在29列25中,数字数据3是ID(对象)1是类别 我删除了所有Id列(因为它们都是唯一的),并且还将categorical(matchType)数据编码为一种热编码 完成所有这些操作后,我剩下41列(热一遍) 这曲线拟合拟合高度相关的数据的问题
对于我的学士学位论文,我正在一个项目中进行数据拟合.问题有点复杂,但是我尝试在此处将问题最小化: 我们有三个数据点(几乎没有理论数据可用),但是这些点是高度相关的. 如上图所示,使用curve_fit拟合这些点,我们得到了可怕的拟合结果. (可以通过手动更改拟合参数来轻松提高拟合度).python-RepeatedKFold实际上是什么意思?
假设n_repeats = 5,折叠数为3(n_splits = 3). 这是否意味着验证者正在为我们的估算器/模型创建3折以使用每一折(例如KFold的用途),然后将该过程重复5次? 这意味着我们的模型将总共使用5 x 3 = 15倍?解决方法:是的,您基本上可以通过循环调用KFolds.split()n_repeats次来达到相同的效果我在参数调整(cv)时的平均测试分数为什么比保持测试集(RandomForestClassifier)低?
我正在使用RandomizedSearchCV(sklearn)进行超参数调整,并在训练集上进行了3倍交叉验证.之后,我要检查测试集的分数(准确性,recall_weighted,cohen_kappa).令人惊讶的是,它总是比我的RandomizedSearchCV的best_score属性高一些. 首先,我要执行分层数据,将其分成70/30个训练和测试集将否定文本转换为python中的文本
我有很多包含单词的数据 “不好”,例如“不好”.我想将“不好”转换为“不好”(没有空格). 如何转换数据中的所有“非”字符,消除**“非”字符后的空格. 例如在此列表中 >我不漂亮`->我并不美丽>她当老师不好->她当老师不好>如果我选择A,我认为这是一个不错的决定—>如果我选择A,我numpy获取每列的dtype
我需要获取每个列的类型以正确对其进行预处理. 目前,我通过以下方法执行此操作: import pandas as pd # input is of type List[List[any]] # but has one type (int, float, str, bool) per column df = pd.DataFrame(input, columns=key_labels) column_types = dict(df.dtypespython-Clojure使用scipy和numpy
有什么好方法可以从clojure调用python,作为使用scipy,numpy,scikit-learn等进行数据科学的一种方法. 我知道clojure的实现是在python而不是java上运行的,但这对我不起作用,因为我还需要在项目中调用java库.我也了解Jython,但我不知道将这种方法与Clojure结合使用的一种干净方法. 我python-使用dtype float64创建熊猫数据框会更改其条目的最后一位(相当大的数字)
我试图创建如下的熊猫数据框 import pandas as pd import numpy as np pd.set_option('precision', 20) a = pd.DataFrame([10212764634169927, 10212764634169927, 10212764634169927], columns=['counts'], dtype=np.float64) 返回为: counts 0 1021python-ValueError:以10为底的int()的无效文字:’196.41′
我不明白为什么它适用于不同的情况,但不适用于这种情况. 基本上,有位先生帮助我改善了HERE,改进了我的代码以刮除天气,效果很好.然后,我尝试执行相同的操作以刮除范围标记中的ETH值< span class =“ text-large2” data-currency-value =“” $196.01< / span>.因此,我在代码中遵循javascript-随机播放JS数组
说我有一个像这样的数组: const alphabet = ['a', 'b', 'c', 'd']; 这代表4个政治候选人和一个等级选择投票,其中候选人a是第一选择,候选人b是第二选择,依此类推. 我想将其随机排列成一堆随机顺序,但是在这种情况下,我希望a以大约60%的价格出现在第一位,b以20%的概率出现在第二位,而python – Scikit-learn的LabelBinarizer与OneHotEncoder
两者有什么区别?似乎两者都创建了新列,其数量等于要素中唯一类别的数量.然后,他们根据数据点的类别为数据点分配0和1.解决方法:使用LabelEncoder,OneHotEncoder,LabelBinarizer对数组进行编码的简单示例如下所示. 我看到OneHotEncoder首先需要整数编码形式的数据转换成各自的编码,而python – Spark MLib决策树:功能标签的概率?
我可以设法显示我的标签的总概率,例如在显示我的决策树之后,我有一个表: Total Predictions : 65% impressions 30% clicks 5% conversions 但我的问题是通过功能(按节点)查找概率(或计数),例如: if feature1 > 5 if feature2 < 10 Predict Impressionspython – pandas数据帧上的分位数规范化
简单来说,如何在Python中对大型Pandas数据帧(可能是2,000,000行)应用分位数归一化? PS.我知道有一个名为rpy2的包可以在子进程中运行R,在R中使用分位数标准化.但事实是当我使用如下数据集时,R无法计算正确的结果: 5.690386092696389541e-05,2.051450375415418849e-05,1.963190184049如何在python中的sklearn中使用gridsearchcv进行特征选择
我正在使用递归特征消除和交叉验证(rfecv)作为随机森林分类器的特征选择器,如下所示. X = df[[my_features]] #all my features y = df['gold_standard'] #labels clf = RandomForestClassifier(random_state = 42, class_weight="balanced") rfecv = RFECV(estimator=clf, step=python – 我在哪里调用Keras中的BatchNormalization函数?
如果我想在Keras中使用BatchNormalization函数,那么我是否只需要在开头调用它一次? 我为它阅读了这个文档:http://keras.io/layers/normalization/ 我不知道我应该把它称之为什么.以下是我的代码试图使用它: model = Sequential() keras.layers.normalization.BatchNormalization(eps如何使用scipy的hierchical聚类将聚类分配给新的观察(测试数据)
from scipy.cluster.hierarchy import dendrogram, linkage,fcluster import numpy as np import matplotlib.pyplot as plt # data np.random.seed(4711) # for repeatability of this tutorial a = np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[100,]python – Pandas df.describe() – 如何将值提取到Dataframe中?
我试图做一个朴素的贝叶斯,并在将一些数据加载到Pandas的数据帧后,describe函数捕获我想要的数据.我想从表格的每一列中捕捉均值和标准但我不确定如何做到这一点.我尝试过这样的事情: df.describe([mean]) df.describe(['mean']) df.describe().mean 没有人工作.我能够在R中用类似java – 在Spark中从类别列表创建一个热编码向量
如果我的数据包含5个类别(A,B,C,D,E)和客户数据集,其中每个客户可以属于一个,多个或没有类别.我如何获取这样的数据集: id, categories 1 , [A,C] 2 , [B] 3 , [] 4 , [D,E] 并将categories列转换为一个热编码向量,如下所示 id, categories, encoded 1 , [A,C] , [1,0,1,0,0]python – Pandas multiindex dataframe – 从multiindex中的一个索引中选择max
我有一个包含年度和月份多指数的数据框,如下所示 | |Value Year |Month| | 1 | 3 1992 | 2 | 5 | 3 | 8 | ... | ... 1993 | 1 | 2 | ... | ... 我正在尝试选择每年的最大值,并将其放在DF中,如下所示: | Max Year | 1992 | 5Python – Pandas数据操作来计算Gini系数
我有数据集,其形状如下: tconst GreaterEuropean British WestEuropean Italian French Jewish Germanic Nordic Asian GreaterEastAsian Japanese Hispanic GreaterAfrican Africans EastAsian Muslim IndianSubContinent total_ethnicities 0 tt0python – 当我将它设置为300时,为什么keras只执行10个时期?
我正在使用sklearn和Keras的组合与Theano作为后端运行.我正在使用以下代码 – import numpy as np import pandas as pd from pandas import Series, DataFrame import keras from keras.callbacks import EarlyStopping, ModelCheckpoint from keras.constraints import maxnormpython – 使用mxnet CNN模型进行预测
嗨,我是数据科学的新手, 我遵循了本教程https://mxnet.incubator.apache.org/tutorials/nlp/cnn.html,但我对如何使用上述教程生成的训练模型进行单一预测感到困惑.请指导我正确的方向来解决这个问题.谢谢.解决方法:以下是如何使用预训练模型进行预测的教程:https://mxnet.incubatorpython – 使用Keras时如何更改图层中的单位数?
以下代码完全正常.如果我尝试将所有64s更改为128s,那么我会收到有关形状的错误.如果在使用Keras时更改人工神经网络中的层数,是否需要更改输入数据形状?我不这么认为,因为它要求input_dim是正确的. 作品: model = Sequential() model.add(Dense(64, input_dim=14, init='uniform'))python – 从金字塔导入auto_arima时出错
试图使用金字塔的自动arima功能,无处可去. 导入全班: import pyramid stepwise_fit = auto_arima(df.Weighted_Price, start_p=0, start_q=0, max_p=10, max_q=10, m=1, start_P=0, seasonal=True, trace=True, error_action='igno