Skip to main content

Command Palette

Search for a command to run...

[MLOps] DVC&Dagshub

Updated
1 min read

DVC

DVC는 Data Version Control의 약자로 모델이나 데이터 버전 관리에 사용되는 툴이다.

설치는

pip install dvc

로 진행하고

git과 마찬가지로

dvc init

을 통해 dvc가 버전을 관리할 수 있도록 한다.

dvc init을 진행해주면 .dvc 디렉토리가 생기고 tmp, .gitignore, config 등의 파일과 디렉토리가 생기는 것을 확인할 수 있다.

dvc의 사용법은 git과 거의 같은데

dvc add 'data/data.txt'

을 통해 추적할 파일을 추가할 수 있다. 그런데 dvc add를 수행해주게 되면 .dvc파일이 생성되게 되는데, 위의 경우 data/data.txt.dvc가 생성된다.

내부를 열어보면

outs:
- md5: 0b1ebceb88b6324cafbda936c7500e37
  size: 6
  hash: md5
  path: data.txt

와 같이 생겼다. md5는 해시 키인데, 이 해시 값은 특정 데이터에 매핑된다. 그러니까, 데이터를 변경하고 다시 dvc를 통해 .dvc 파일을 생성해주면 이 해시 값은 변경된다.

이 해시 값들은 루트 디렉토리에 있는 .dvc/cache 안에서도 찾아볼 수 있다.

data/data.txt 파일의 내용을 변경한 후 다시 dvc add 커맨드를 입력해보았다. 그 결과

outs:
- md5: cf1044dbd9d6a2055b7a1f0356a31399
  size: 31
  hash: md5
  path: data.txt

파일이 변경되었기 때문에 해시 값이 달라진 것을 볼 수 있다. 이렇게 달라지는 해시 값들을 기반으로 파일을 트랙킹하고 있다고 볼 수 있다.

4 views

More from this blog

락프리 데이터 구조와 알고리즘

여기서는 락프리 데이터 구조를 설명한다. 락프리(lock-free) 란 배타락을 이용하지 않고 처리를 수행하는 데이터 구조 및 그에 대한 조작 알고리즘을 총칭한다. 왜 락프리인가? 전통적인 동시성 제어 방법인 뮤텍스나 세마포어는 여러 문제점을 가지고 있다: 성능 저하: 락 경합(lock contention)으로 인한 대기 시간 데드락: 여러 스레드가 서로의 락을 기다리는 상황 우선순위 역전: 낮은 우선순위 스레드가 높은 우선순위 스레드를 ...

Jul 27, 20257 min read126

소프트웨어 트랜잭셔널 메모리

소프트웨어 트랜잭셔널 메모리 동시성 프로그래밍에서 공유 자원에 대한 안전한 접근은 항상 중요한 과제다. 전통적으로 뮤텍스 락과 같은 비관적 락(Negative Lock) 방식을 사용해왔다. 이 방식은 크리티컬 섹션에 진입하기 전에 반드시 락을 획득해야 하며, 락을 얻지 못하면 코드 실행 자체가 블록된다. 하지만 이와는 다른 접근 방식이 있다. 바로 낙관적 락(Optimistic Lock) 방식인데, 이는 "일단 실행하고 나중에 검증하자"는 철학...

Jul 20, 202517 min read263

공평한 배타 제어

공평한 배타 제어 여기서는 공평한 배타 제어에 대해 설명한다. 먼저 컨텐션(contention) 이라는 개념을 이해할 필요가 있다. 컨텐션이란 여러 스레드가 동시에 같은 락을 획득하려고 경쟁하는 상황을 말한다. 컨텐션이 높을수록 스레드들이 락을 기다리는 시간이 길어지고 성능이 저하된다. 이러한 컨텐션 상황은 시스템 아키텍처에 따라 더욱 복잡해질 수 있다. 특히 비균일 메모리 접근(Non-Uniform Memory Access, NUMA) 와 같...

Jul 13, 20259 min read21

KernelSnitch[논문 리뷰]

Paper 1. Intro 이 글은 NDSS 2025에서 발표된 KernelSnitch 논문을 소개이다. 이 연구는 커널의 평범한 데이터 구조체들이 가진 본질적인 특성이 어떻게 심각한 보안 취약점이 되는지를 보여준다. 핵심은 이러하다: "데이터 구조체의 크기에 따른 접근 시간 차이를 이용해 커널의 비밀 정보를 유출할 수 있다" 여기서는 커널 힙 포인터 유출에 집중해서 설명한다. 이 공격이 성공하면 KASLR을 우회하고 더 심각한 커널 익스플로...

Jul 11, 20257 min read131

멀티태스크와 액터 모델

멀티태스크 협조적/비협조적 멀티태스크 선점: 프로세스와의 협조 없이 수행하는 컨택스트 스위칭이라고는 하나, 결국 뺏어오는 게 가능하냐의 문제다. 협조적 멀티태스크(비선점형, cooperative): 각각의 프로세스가 자발적으로 컨택스트 스위칭을 수행하는 멀티태스크 방식. 장점: 멀티태스크 매커니즘을 구현하기 쉽다. 단점: 프로세스가 자발적으로 컨텍스트 스위칭을 해야하는데, 만약 버그가 발생하여 프로세스가 무한 루프에 빠지거나 정지하게 되면 그 ...

Jul 6, 20252 min read25
M

MaxLog

35 posts