首页 > 其他分享> > dplyr五个核心函数:filter()筛选行 arrange()排列行 select()选择列 mutate()基于现有变量创建新变量列 summarise()计算摘要统计量
dplyr五个核心函数:filter()筛选行 arrange()排列行 select()选择列 mutate()基于现有变量创建新变量列 summarise()计算摘要统计量
作者:互联网
%>% 管道函数读"then",即然后
- 把左边值发送到右边的表达式,并作为右边表达式函数的第一个参数。
- 当操作多个数据集或函数时,使用%>%会更方便,更逻辑性。如计算cran上可用函数包的数量:
-
- contrib.url
-
dplyr五个核心函数:
- filter()筛选行
- arrange()排列行
- select()选择列
- mutate()基于现有变量创建新变量列
- summarise()计算摘要统计量。
上面五个函数搭配group_by()可以对每个变量水平操作,高效解决数据框转换。
他们都是生成新数据框,不改变原数据。通用的参数结构:
- 第一个参数是数据框,待处理的数据集
- 变量名(不带引号),描述怎么处理
函数:
- filter()函数筛选符合条件的观测行。
-
-
- 常用到比较运算符 == != > >= < <= 搭配逻辑运算符 & | ! 。
-
- filter()多个condition时,表示“与”的关系,筛选同时满足这些条件的行。如flights%>% filter(dep_delay>120.arr_delay<=120)
- x %in% y 表示x被包含于y,返回True.
- flights %>%filter(month==11 |month==12) ,等同于flights %>%filter(month %in% c(11,12))
- between(x,left.right) 判断x是否落在 [left,right]区间内 。flights %>% filter(between(month,11,12))
- 注意出现无理数时,计算机会存储为有限位数。因此在这无理数基础上进一步计算、做判断时会False.在比较时需要用near()来比较是否近似相等。
-
标签:mutate,11,dplyr,变量,month,filter,flights,函数 来源: https://www.cnblogs.com/koujiaodahan/p/15671405.html