목록all (3)
charminseok

AI 모델과 데이터의 버전을 관리할 수 있는게 필요했는데 Data Version Control이란 것이 있었다. git과 거의 비슷하게 사용할 수 있어 git을 사용해 봤다면 어렵지않게 사용가능한 장점이 있다. Data Version Control or DVC is a command line tool and VS Code Extension to help you develop reproducible machine learning projects: Version your data and models. Store them in your cloud storage but keep their version info in your Git repo. Iterate fast with lightweight pipeline..
데이터베이스의 조인연산에는 nested loop join, sort-merge join, hash join 등이 존재합니다. Nested Loop Join 2개 이상의 테이블에서 하나의 집합을 기준으로 순차적으로 상대방 row를 결합하여 원하는 결과를 조합하는 방식입니다. 중첩된 for문을 검색하는 것과 같은 방식입니다. 먼저 선행 테이블의 처리 범위를 하나씩 엑세스하면서 추출된 값으로 연결할 테이블을 조인합니다. 좁은 범위에 유리한 성능을 보여준다. 순차적으로 처리하여 Random Access 위주 후행 테이블에는 조인을 위한 인덱스 생성 필요 선행테이블에 row 수가 많다면 그만큼 반복해서 후행테이블을 검색해야 하기 때문에 성능이 나빠질 것입니다. 테이블 중 row가 적은 쪽을 선행테이블로 설정하는 ..
Events, Streams, and Kafka Topics 카프카를 이해하기 위해선 파티션과 연관된 다음 개념들을 이해해야 한다. Events Event는 과거에 일어났던 사실을 말한다. 불변이며 상태가 변하면서 계속해서 다른 시스템을 옮겨다닌다. Streams 이벤트 스트림은 동작중인 관련된 이벤트를 나타낸다. Topics 이벤트 스트림이 카프카에 들어왔을때, 토픽으로 저장된다. 카프카에서 토픽은 구체화된 이벤트 스트림을 뜻한다. 데이터베이스의 테이블이나 파일 시스템의 폴더처럼, 토픽 그룹은 연관된 이벤트들을 모아서 저장한다. 토픽은 consumer와 producer를 나누는 중요한 개념으로 producer가 메세지를 토픽에 저장(push)하고 comsumer가 토픽에서 메세지를 받아(pull)온다...