首页 > TAG信息列表 > data-cleaning

python-基于2个条件用某个数值填充多个NaN值

因此,基本上,我一直在尝试根据另一列填充列的nan值. 比方说,我有一列称为“容纳”(表示某栋房屋可容纳多少人)的列,另一列称为“卧室”. 为了填充这些nan值,我发现,例如,当一间房子有1间卧室时,最常见的容纳值是什么.它返回最常见的值为2.我现在想做的是用2填充对应于一居室房屋的

如何检查MySQL数据库是否仍在使用? #打扫干净

我在这里有个清理的情况,老程序员没清理他的用完的数据库.用户. 虽然某些数据库仍由外部站点(在其他ftp服务器上)使用,但是某些数据库已过时,并且使系统混乱. My question is: How can I figure out wich databases (& users) are still in use by other websites? (without ch

python-处理熊猫中的稀疏类别-用“其他”替换不在顶级类别中的所有内容

清理数据时,我经常遇到以下常见问题 还有一些更常见的类别(比如说十大电影流派),还有很多其他稀疏的类别.例如,此处通常的做法是将稀疏类型组合为“其他”. 稀疏类别不多时轻松完成: # Join bungalows as they are sparse classes into 1 df.property_type.replace(['Terraced bung

python-如何从自定义值创建DataFrame

我正在阅读一个文本文件,每一行都有多个值.我正在根据需求使用函数解析来解析它们. def parse(line): ...... ...... return line[0],line[2],line[5] 我想创建一个数据框,每行为一行,三个调整后的值为列 df = pd.DataFrame() with open('data.txt') as f: for

python – 如何记录熊猫跳过的坏行

我正在阅读带有pandas的CSV文件 error_bad_lines=False 遇到错误的线路时会打印警告.但是,我想保留所有不良行号的记录,以便输入另一个程序.这样做有简单的方法吗? 我想过用一个迭代文件 chunksize=1 并捕获应该为遇到的每条坏线抛出的CParserError.当我这样做虽然没有为坏线引