我必须将数据帧从当前格式转换为新格式(见下图或结构)。我不知道我怎样才能做到这一点。我希望每个ID有一年,从2013年到2018年(因此每个ID有6行,每年一行)。日期是居住在该地址的日期(进入日期)和离开该地址的日期(结束日期)。因此,每个ID和年份都给出了他们居住的zipcode和城市。ID(每年)居住的地方应该是他们在那一年居住的时间最长的地方。我已经将截止日期设置为2018年12月31日,如果他们仍然住在那里(这里用NA显示)。下面是一张图片和前3行。希望你们能帮我!
当前格式:
新格式:
>
城市(北美、纽约、纽约、纽约、洛杉矶、洛杉矶、迈阿密)
见下面的链接
这里有一种方法。
首先,为每个位置创建从开始日期到结束日期的日期间隔。使用map2
和unest
您将为每年创建额外的行。
由于您希望包含该日历年天数最多的位置信息,因此可以查看两个间隔之间的重叠:一个间隔是日历年,第二个间隔是输入日期
到结束日期
。对于每一年,您可以通过<代码> max(星期) <代码> >筛选器> />(或确保每年一个地址,按周降序排列,<代码>切片(1)< /代码>或用最新<代码> TiDyr < /代码>考虑<代码> SLICEXMAX )。这将保留间隔之间存在最大周数持续时间重叠的行。
最终的complete
将确保您在2013-2018年的所有年份都有行。
library(tidyverse)
library(lubridate)
df %>%
mutate(ENTRY_END_INT = interval(ENTRY_DATE, END_DATE),
YEAR = map2(year(ENTRY_DATE), year(END_DATE), seq)) %>%
unnest(YEAR) %>%
mutate(YEAR_INT = interval(as.Date(paste0(YEAR, '-01-01')), as.Date(paste0(YEAR, '-12-31'))),
WEEKS = as.duration(intersect(ENTRY_END_INT, YEAR_INT))) %>%
group_by(ID, YEAR) %>%
arrange(desc(WEEKS)) %>%
slice(1) %>%
group_by(ID) %>%
complete(YEAR = seq(2013, 2018, 1)) %>%
arrange(ID, YEAR) %>%
select(-c(ENTRY_DATE, END_DATE, ENTRY_END_INT, YEAR_INT, WEEKS))
输出
# A tibble: 14 x 4
# Groups: ID [2]
ID YEAR ZIPCODE CITY
<dbl> <dbl> <chr> <chr>
1 1 2013 NA NA
2 1 2014 1234AB NEWYORK
3 1 2015 1234AB NEWYORK
4 1 2016 1234AB NEWYORK
5 1 2017 5678CD LA
6 1 2018 5678CD LA
7 2 2011 9012EF MIAMI
8 2 2012 9012EF MIAMI
9 2 2013 9012EF MIAMI
10 2 2014 9012EF MIAMI
11 2 2015 9012EF MIAMI
12 2 2016 9012EF MIAMI
13 2 2017 9012EF MIAMI
14 2 2018 NA NA
数据
df <- structure(list(ID = c(1, 1, 2), ZIPCODE = c("1234AB", "5678CD",
"9012EF"), CITY = c("NEWYORK", "LA", "MIAMI"), ENTRY_DATE = structure(c(16072,
17238, 15288), class = "Date"), END_DATE = structure(c(17299,
17896, 17415), class = "Date")), class = "data.frame", row.names = c(NA,
-3L))