澳门永利娱乐总站链式操作,replace指的是能不能再一次抽取

一连来驾驭dplyr中的其余有用函数

R包 hadley大神之作, 速度快,简洁,链式操作

 

  1. 数量集类型转换
    tbl_df()
    在利用dplyr处理前,指出将数据集转换为tbl对象

  2. 行筛选
    filter() slice()按指定逻辑条件筛选出符合需要的子集合,接济条件构成

    slice(data,2L) 等价于 filter(data,row_number()==2L)
    filter(data, condition)

  3. 排序
    arrange() 默许为升序排列 desc()

    arrange(data,col1,col2,…)
    arrange(data,desc(col))

  4. 变量选取
    select() 用列名来选取子集合
    筛选变量特殊格局 start_with, end_with, contains, matches, one_of,
    num_range, everything

  5. 重命名
    rename()

  6. 变形
    对已有列举办演算后添加为新列
    mutate()新结果+老结果
    transmute() 新结果

  7. 去重
    distinct()

  8. 汇总
    summarise()
    mean, sd, max, min, n数, n_distinct重后行数,first last

  9. 采样
    sample_n()随机抽取指定数量的样本
    sample_frac()随机抽取指定百分比的样书
    默认无放回抽取,replacement=TRUE 为可放回抽样

  10. 分组
    group_by()

  11. 连接join
    inner_join(table1,table2,by = , )
    left_join()
    right_join()
    full_join()
    semi_join()
    anti_join()

  12. 汇集操作set
    intersect(x,y) 交集
    union(x,y) 并集, 去重
    union_all(x,y) 并集,不去重
    setdiff(x,y) 差集
    setequal(x,y) 判断是或不是等于

  13. 规格语句
    if_else(condition, true, false)

  14. case when

    case_when(condition1~result1,
    condition2~result2)

1、sample()

目的是足以从一个多少框中,随机抽取一些行,然后组成新的数据框。

sample_n(tbl, size, replace = FALSE, weight = NULL, .env =
parent.frame())

sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env =
parent.frame())

从参数来看,sample输入数据是tbl格式,size代表抽取的个数,replace指的是是不是再一次抽取,weight指的是抽取比重。

另外,sample_frac是根据比例举办抽样。

上面来看些实际的事例

sample_n(mtcars, 10)

澳门永利娱乐总站 1

sample_n(mtcars, 20, replace = TRUE)

澳门永利娱乐总站 2

sample_n(group_by(mtcars,cyl), 3)

澳门永利娱乐总站 3

对数据分组后,再拓展抽样是依据每组个抽取size个数的数码开展取样。

sample_frac(mtcars, 0.1)

澳门永利娱乐总站 4

表示从数量从随机抽取1%的多寡。

 

2、对多个数据集进行操作的函数 

intersect(x, y, …)

union(x, y, …)

union_all(x, y, …)

setdiff(x, y, …)

setequal(x, y, …)

intersect
用于求多少个函数的交集部分数据,union求并集部分数据,union_all求八个数据集的合集,

setdiff求多少个数据集差别部分,setequal判别七个数据集是不是一律

上面来看些实际的例证

mtcars$model <- rownames(mtcars)
first <- mtcars[1:20, ]
second <- mtcars[10:32, ]

first 数据集打印结果 

澳门永利娱乐总站 5

 

second数据集打印结果 

澳门永利娱乐总站 6

intersect(first, second)

澳门永利娱乐总站 7

union(first, second)

澳门永利娱乐总站 8

setdiff(first, second)

澳门永利娱乐总站 9

setdiff(second, first)

澳门永利娱乐总站 10

 那里值得注意的是,setdiff(first, second) 和 setdiff(second,
first)的结果是分化的。

setequal(mtcars, mtcars[32:1, ])

TRUE  

  

3、slice()

根据具体数额所在行举行抽取数据,即定向抽取数据。

slice(.data, …)

下边来看些实际的例证

slice(mtcars, 1L)

澳门永利娱乐总站 11

抽取第一行数据

slice(mtcars, n())

澳门永利娱乐总站 12

抽取最终一行数据

slice(mtcars, 25:n())

澳门永利娱乐总站 13

抽取第25行到最终一行数据

slice(group_by(mtcars, cyl), 1:2)

澳门永利娱乐总站 14

按照cyl分组后,每组抽取前两行数据

自然以上各组数据的抽取也可以用filter函数举办落到实处

filter(mtcars, row_number() == 1L)
filter(mtcars, row_number() == n())
filter(mtcars, between(row_number(), 5, n()))

  

3、tally()

用来统计数据行数

tally(x, wt, sort = FALSE)

count(x, …, wt = NULL, sort = FALSE)

直接根据实例来观望这一个多少个函数的分别

tally(mtcars)

澳门永利娱乐总站 15

间接再次回到mtcars总行数。

count(mtcars)

澳门永利娱乐总站 16

也是回去mtcars总行数 

tally(mtcars,cyl)

 澳门永利娱乐总站 17

回到cyl列所有数据求和后的结果

count(mtcars,cyl)

澳门永利娱乐总站 18

归来每个cyl并计算每个值得个数。

tally(group_by(mtcars,cyl))

澳门永利娱乐总站 19

与地方count(mtcars,cyl)的功效一样。

tally(group_by(mtcars,cyl),mpg)

 澳门永利娱乐总站 20

依照cyl分组后,对mpg进行求和

count(group_by(mtcars,cyl),mpg)

澳门永利娱乐总站 21

进行反复分组总括。 

相关文章