분류 전체보기

    [sql] recursive CTE

    놀랍게도 sql에서는 변수를 지정할수도 있고 재귀적인 쿼리를 작성할 수 있다. 쿼리내에서 지정한 변수를 참조해서 어떤 조건에 도달할때까지 반복적인 loop를 형성하는 것이 가능하다. 이를 이용하면 쿼리로 time table을 생성하는것이 용이한데, 예시로 한번 이해 해보자. hour 0 1 2 .. 22 23 위와 같은 table을 하나 만든다고 가정하자. hour라는 하나의 칼럼을 가진 테이블이며, row에는 0부터 23시까지의 시간을 표현하길 원한다. 단순히 생각하면 아래처럼 0부터 23까지의 값을 union all한 서브쿼리를 만들어볼수도있다. with cte as ( select 0 union all select 1 union all .. select 23 ) 그러나 이는 노동집약적이며 다소 귀찮..

    [airflow] CustomHook 1

    https://indistract.tistory.com/68 [airflow] CustomOperator airflow에서는 기본적으로 제공해주는 오퍼레이터들이 많다. HTTP 요청을 보내는 SimpleHttpOperator, S3에서 데이터를 읽어와 MySQL 데이터베이스에 쓰는 데 사용되는 S3ToMySqlTransfer, 그리고 AWS S3에서 파일 indistract.tistory.com 위 게시글에서 CustomOperator를 사용해서 각 상황에 맞는 기능을 확장해 새로운 operator를 생성하는법을 배웠다. 커스텀한 operator를 만드는것은 중요하지만 나는 게시글의 마지막에 이런말을 남겼다. 다만, 기존의 오퍼레이터 기능이 충분하다면 굳이 커스텀 오퍼레이터를 만드는것은 비효율이다. 때문..

    [airflow] CustomOperator

    airflow에서는 기본적으로 제공해주는 오퍼레이터들이 많다. HTTP 요청을 보내는 SimpleHttpOperator, S3에서 데이터를 읽어와 MySQL 데이터베이스에 쓰는 데 사용되는 S3ToMySqlTransfer, 그리고 AWS S3에서 파일을 가져와서 사용자 지정 함수를 적용한 후 다시 S3에 저장하는 S3FileTransformOperator 등이 있다. 이런 기본적으로 제공해주는 오퍼레이터도 충분히 훌륭하지만, 상황에 따라서 원하는 기능을 충분히 구현하지 못할수도 있다. 예를들어, 여러 url에 HTTP 요청을 보내고싶다면 SimpleHttpOperator 로는 목적을 충분히 달성하지 못한다. 해당 operator는 하나의 url에 대한 리턴값만 출력하기 때문이다. 이때 사용되는것이 Cus..

    [서평] 퓨처셀프

    대부분의 사람들은 자신의 현재를 기준으로 미래를 바라본다. '지금' 가진것이 무엇이고, '지금' 조건이 무엇인지를 파악한 뒤에 그릴수 있는 괜찮은 미래를 그려본다. 이는 합리적으로 보인다. 그러나 저자 벤저민 하디는 현재를 기준삼아 미래를 바라보지 말라고한다. 그는 반대로, 원하는 것에서 시작해 거꾸로 가라고한다. 목표를 향해 가기보다 목표라는 지점에서 생각하고 행동하라고한다. 이는 행동의 기준을 '현재'에 두는것이아니라 '미래'에 두라는 의미이다. 현재의 조건에서 벗어나서 불가능해 보이는 미래를 생각하라는 말이다. 저자는 10년전의 자신을 생각해보라고한다. 나의 10년전(19살)을 생각해보면, 나는 밴드 음악이 하고 싶었다. 나는 음악을 무척이나 좋아했고 특히 밴드가 좋았다. 그래서 진로를 음악 쪽으로..

    [python] OOP

    코드를 작성하다보면 자신의 코드가 어떻게 구성되어가는지 파악하기 어려울 때가 있다. 코드를 작성하다보면 그 길이가 점점 길어지고 의존관계가 복잡하게 얽히게 되는 경우가 존재하기 때문이다. 이런 상황이 누적된다면 코드 관리가 심히 어렵다. 복잡한 프로젝트를 코딩할때도 단순한 관계를 위지하기 위해서 우리는 OOP (Object Oriented Promramming) , 즉 객체지향 프로그래밍이 필요하다. 나무위키에서는 OOP를 아래처럼 설명한다. 프로그램을 단순히 데이터와 처리 방법으로 나누는 것이 아니라, 프로그램을 수많은 '객체(object)'라는 기본 단위로 나누고 이들의 상호작용으로 서술하는 방식이다. 객체란 '메소드와 변수'를 가지며, 특정 역할을 수행하도록 인간이 정의한, 추상적인 개념이다. 이해..

    [sql] cross selling

    고객들은 하나의 제품만을 구매하기도 하지만, 여러 상품을 한번에 구매하기도 한다. 치약만 구매한 고객이 있는 반면 칫솔을 함께 구매하는 고객이 있고, 아이폰만 구매한 고객이 있는 반면 애플워치도 함께 구매한 고객이 있을 것이다. 이러한 주문 데이터는 DB에 기록되기 마련이며, 이를 잘 활용한다면 다른 고객들이 제품을 구매할때 어떤 다른 제품을 함께 구매하면 좋은지 추천해줄 수 있다. 그리고 이렇게 다른 제품을 추가로 구매하게 하는 것을 교차 판매(cross selling) 이라고 한다. 우리는 교차판매로 매출을 증대시켜 성과금을 받기 위해, cross selling 연관 상품을 추출하는 sql 쿼리를 알아보고자 한다. 이번쿼리는 4가지 단계를 거친다. ① 유저별 주문상품 테이블 생성 ② 유저가 주문한 상..

    [sql] 작대비 매출 비교

    우리는 기업을 평가할때 매출을 중요 평가 요소 중 하나로 본다. 그러나 매출을 평가할때는 절대적인 매출의 크기보다는 상대적인 매출의 크기가 더 중요하다. 우리는 매출액의 비교를 통해 기업이 성장했는지, 또는 침체기에 있는지 판단하곤한다. 이때, 비교대상도 중요하다. 오늘 매출과 전일자의 매출을 비교할수도있지만, 오늘은 대형 프로모션을 진행했고 어제는 어떠한 프로모션도 없었다면 해당비교는 크게 의미가 없을수도 있다. 각기 다른 맥락속에서 산출된 매출액이기에 비교 대상으로 적절하지 않기 때문이다. 이런점을 고려해서 매출 비교를 할때는 많은 경우 작년 대비 동월 매출 비교를 하곤한다. 작년 동월에는 기업이 비슷한 맥락속에 있었을 것이라 가정하는 것이다. 그래서 이번 게시글에서는 매출 비교의 기본인 작년대비(a..

    [airflow] hook

    https://indistract.tistory.com/62 [python] session과 cursor 우리는 python 코드를 이용해서 DB서버와 소통을 해야할 일이 종종있다. 코드를 이용해서 DB에 데이터를 읽거나 쓰려면은 ①session과 ②cursor에 대한 개념을 이해할 필요가 있다. 아래 코드에서 두 indistract.tistory.com 이전 게시글에서는 python 코드를 이용해서 Postgres DB와 소통하는 방법을 알아보았으며, 더불어 session과 cursor개념도 설명했다. 위 게시글의 마지막에 dag도 하나 작성해보았는데, 해당 dag는 치명적인 단점이 2가지 있다. ① DB 연결정보 변경시 관리가 번거롭다는점과 ② DB 연결정보가 코드에 노출된다는 것이다. 게시글의 마지..