sql

[sql] user session diff
서비스를 활성화 시키기위해 신규 유저를 유입시키는것은 중요하다. 그리고 신규 유저가 유입했다면 유저의 첫방문 이후 두번째 방문, 세번째 방문을 만들어내는것이 필요하다. 더불어 방문간의 시간차를 줄일수 있다면 더욱 좋겠다. 이런 맥락에서 우리는 이번시간에 유저의 첫 방문(session)에서 두번째 방문까지 걸린 시간을 구해보고자 한다. 순서는 아래와 같이 진행한다. ① 각 세션 발생 순서대로 넘버링 부여 ② 두번째 세션이 존재하는 유저만 필터후, 유저별 두번째 세션과 첫번쨰 세션의 시간차 집계 ③ 시간 차이에 대한 분포 테이블 생성 ① 먼저, 유저의 첫 방문(session)에서 두번째 방문까지 걸린 시간을 계산하기 위해서는 유저별 세션 발생 순서를 구분해줘야하고, 두번째 세션을 만든 유저만 필터링해야한다...

[sql] DAU3
이전시간에는 for문과 변수를 이용해서 90일치의 dau, wau, mau 지표를 계산하는 방법을 알아봤다. 이 방법은 시간이 오래걸린다는 단점이 있었다. for문을 이용해서 90일치의 각 지표를 모두 구하려면 총 270번의 쿼리가 필요했었기 때문이다. 그래서 이번시간에는 이 단점을 극복하고자 cross join을 이용해보고자한다. 순서는 아래와같이 진행한다. ① 일자 테이블 생성 ② 생성한 일자테이블과 session 데이터 cross join 해서 dau, wau, mau 임시 테이블 생성 ③ 생성된 세 지표테이블 join ① 먼저 일자 테이블을 하나 생성한다. postgres에서는 generate_series라는 함수를 사용해서 시작일과 종료일을 기입해주면 일자 배열형태의 칼럼을 쉽게 만들수 있다. ..

[sql] recursive CTE2
https://indistract.tistory.com/70 [sql] recursive CTE 놀랍게도 sql에서는 변수를 지정할수도 있고 재귀적인 쿼리를 작성할 수 있다. 쿼리내에서 지정한 변수를 참조해서 어떤 조건에 도달할때까지 반복적인 loop를 형성하는 것이 가능하다. 이를 이 indistract.tistory.com 위 포스팅에서는 recursive cte를 이용해서 시간 테이블을 만드는 방법을 알아봤었다. 이번에는 recursive cte를 이용해 일자 테이블을 만드는 방법을 알아본다. 테이블을 만드는 원리는 위 포스팅과 동일하며, 아래와 같은 테이블을 만드는 것이 목적이다 ("2023-03-31" 일자까지 출력). 포스팅 내용을 복기해보면, 아래와 같이 재귀 CTE를 사용했었다. ① wit..
[sql] DAU2
이전 포스팅에서는 DAU를 정적으로 구하는 방법을 알아보았고, 이번에는 DAU를 동적으로 구하는 방법을 알아본다. DAU를 동적으로 계산하는 방법은 아래 2가지가 있었는데, 이번 포스팅에서는반복문과 변수를 활용하는 방법에 대해서 쓰겠다 ① 반복문과 변수를 활용해서 insert into ② cross join 목적은 90일치 각각의 DAU, WAU, MAU 를 계산해서 테이블화 하는 것이다. 각 지표들은 각 기준날짜로부터 계산된 DAU, WAU, MAU 이어야한다. 각 일자마다 세 지표가 다르게 계산되어야 하는 것이다. 이는 아래 4단계를 거쳐 완성해보도록 한다. ① 테이블 생성 ② 변수선언 ③ for loop 생성 ④ transaction 처리 ① 먼저 일자와 각 지표들을 담을 테이블은 만들어준다. 테이..

[sql] DAU1
DAU(Daily Active Users) 하루동안 방문한 순수 사용자를 의미한다. 이는 기본적이면서 중요한 메트릭이다. 예를들어, 신규게임을 출시했을때 얼마나 많은 사용자가 하루에 들어왔는지는 중요하다. 게임을 출시하고나서 DAU의 증감률에 따라서 전략을 분석하고, 어떤 마케팅 액션을 취할것인지 의사결정하곤 한다. sql에서도 ga session 데이터를 활용해서 DAU를 구해볼수 있다. 쿼리는 아래와 같이 간단하며 주의할점은 한가지다. session 테이블에서 user id를 헤아리면 중복되는 경우가 존재하기때문에, 고유 user id 값을 카운트해줘야한다. 하나의 유저가 여러개의 세션을 남길수 있기 때문이다. select to_char(date_trunc('day', visit_stime), 'yy..
[sql] recursive CTE
놀랍게도 sql에서는 변수를 지정할수도 있고 재귀적인 쿼리를 작성할 수 있다. 쿼리내에서 지정한 변수를 참조해서 어떤 조건에 도달할때까지 반복적인 loop를 형성하는 것이 가능하다. 이를 이용하면 쿼리로 time table을 생성하는것이 용이한데, 예시로 한번 이해 해보자. hour 0 1 2 .. 22 23 위와 같은 table을 하나 만든다고 가정하자. hour라는 하나의 칼럼을 가진 테이블이며, row에는 0부터 23시까지의 시간을 표현하길 원한다. 단순히 생각하면 아래처럼 0부터 23까지의 값을 union all한 서브쿼리를 만들어볼수도있다. with cte as ( select 0 union all select 1 union all .. select 23 ) 그러나 이는 노동집약적이며 다소 귀찮..

[sql] cross selling
고객들은 하나의 제품만을 구매하기도 하지만, 여러 상품을 한번에 구매하기도 한다. 치약만 구매한 고객이 있는 반면 칫솔을 함께 구매하는 고객이 있고, 아이폰만 구매한 고객이 있는 반면 애플워치도 함께 구매한 고객이 있을 것이다. 이러한 주문 데이터는 DB에 기록되기 마련이며, 이를 잘 활용한다면 다른 고객들이 제품을 구매할때 어떤 다른 제품을 함께 구매하면 좋은지 추천해줄 수 있다. 그리고 이렇게 다른 제품을 추가로 구매하게 하는 것을 교차 판매(cross selling) 이라고 한다. 우리는 교차판매로 매출을 증대시켜 성과금을 받기 위해, cross selling 연관 상품을 추출하는 sql 쿼리를 알아보고자 한다. 이번쿼리는 4가지 단계를 거친다. ① 유저별 주문상품 테이블 생성 ② 유저가 주문한 상..

[sql] 작대비 매출 비교
우리는 기업을 평가할때 매출을 중요 평가 요소 중 하나로 본다. 그러나 매출을 평가할때는 절대적인 매출의 크기보다는 상대적인 매출의 크기가 더 중요하다. 우리는 매출액의 비교를 통해 기업이 성장했는지, 또는 침체기에 있는지 판단하곤한다. 이때, 비교대상도 중요하다. 오늘 매출과 전일자의 매출을 비교할수도있지만, 오늘은 대형 프로모션을 진행했고 어제는 어떠한 프로모션도 없었다면 해당비교는 크게 의미가 없을수도 있다. 각기 다른 맥락속에서 산출된 매출액이기에 비교 대상으로 적절하지 않기 때문이다. 이런점을 고려해서 매출 비교를 할때는 많은 경우 작년 대비 동월 매출 비교를 하곤한다. 작년 동월에는 기업이 비슷한 맥락속에 있었을 것이라 가정하는 것이다. 그래서 이번 게시글에서는 매출 비교의 기본인 작년대비(a..