Nvidia

    SuperPOD 및 BCM 기본

    SuperPOD 및 H100에 대한 기본적인 하드웨어, 네트워크 지식들에 대한 소개그리고 SuperPOD에서 사용하는 Base Command Manager에 대한 기초 지식마지막으로 SuperPOD에서 BCM에 설정되는 Slurm에 대한 정보들까지 모아놓은 개인 발표 자료다.(Copyright 2024. (한준희) all rights reserved.) 해당 자료는 개인이 만든 자료이며, 불법 도용을 금지합니다

    DeepOps로 Slurm 테스트

    ## DeepOps DeepOps는 NVIDIA가 개발한 오픈 소스 프로젝트로, 다양한 인프라와 클러스터에서 딥 러닝 워크로드를 쉽게 배포하고 관리할 수 있도록 설계된 도구 모음입니다. 이 프로젝트는 Kubernetes 및 Slurm과 같은 인기 있는 클러스터 관리 도구를 사용하여 딥 러닝 환경을 자동화하고 표준화하는 데 중점을 둡니다. #### DeepOps Installation #### git clone https://github.com/NVIDIA/deepops.git * Ansible 설치 (python3.8 이상 설치되어 있어야함)  sudo apt update  sudo apt install ansible      ansible --version  # 설치 확인   ~/deepops/scri..

    slurm ~ enroot/pyxis

    # enroot 테스트 Enroot 란 ?  * Enroot Enroot는 경량의 컨테이너 실행 도구입니다. 주로 단일 사용자 환경에서 컨테이너를 실행할 수 있도록 설계되었습니다. Enroot는 단순한 설계로, 도커(Docker) 이미지를 직접 실행할 수 있고, 복잡한 설정 없이 빠르게 컨테이너를 실행할 수 있습니다. SLURM과 함께 사용하면, Enroot는 클러스터의 각 노드에서 컨테이너를 실행하는 데 도움을 줍니다. 주요 기능: 경량성: Enroot는 복잡한 설정 없이 간단하게 컨테이너를 실행할 수 있습니다. 도커 이미지 지원: Enroot는 도커 이미지를 변환하지 않고도 직접 실행할 수 있습니다. 빠른 시작: 빠르게 컨테이너를 시작하고 종료할 수 있습니다. * Pyxis Pyxis는 Enroot를..

    slurm Admin

    # slurm 기초 명령어 다음은 각각의 SLURM 명령어에 대한 간략한 설명입니다: 1. **sinfo**: SLURM 클러스터의 노드와 파티션의 상태 정보를 보여줍니다. 사용 가능한 노드, 파티션, 그리고 각 상태의 세부 사항들을 제공합니다.     2. **squeue**: 클러스터에 제출된 작업 목록을 보여줍니다. 작업의 ID, 상태, 사용자, 실행 시간 등과 같은 정보를 포함합니다. 3. **scancel**: 진행 중이거나 대기 중인 작업을 취소합니다. 특정 작업 ID나 사용자의 모든 작업을 취소할 수 있습니다. 4. **scontrol**: SLURM 리소스와 설정을 관리하고 수정합니다. 노드의 설정을 변경하거나 작업의 우선순위를 조정하는 등의 기능을 수행합니다. 5. **sstat**: 실..

    slurm 설치

    slurm 설치 과정 https://equable-tank-4b0.notion.site/Slurm-db5c8fb0682c4da7838e8e84f4b601fb* 장비 목록 slurm-master2 : 192.168.20.83 slurm-worker1 : 192.168.20.82 slurm-worker2 : 192.168.20.84 ========== 1. ntp 설치 -> VM 간 시간 일치 조정 # master, worker nodes 모두 NTP 설치 sudo apt-get install NTP ========== 2. munge, slurm 유저 생성 -> munge와 slurm 을 위해 각각 계정 필요 # 모든 node에서 UID, GID 일치 sudo adduser -u 1111 munge --d..

    Nvidia Nemo를 이용하여 gemma-7b 모델 사용하기

    https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/gemma/dataprep.html#step-1-download-dataset Data Preparation for SFT and PEFT - NVIDIA DocsThis section provides detailed steps to prepare a packed Sequence-to-Sequence Fine-Tuning (SFT) dataset for Gemma models, using the example of the “dolly” dataset. Although we focus on “dolly”, the methodology should be applicable to any dataset..

    cs231n 8강

    https://www.youtube.com/watch?v=6SlgtELqOWc&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk&index=8 ## CPU vs GPU - CPU (Central Processing Unit) => 더 적은 core 수를 가진다 (좀 더 적은 core 수로 연속적인 일을 처리하는데 CPU가 자주 쓰임) => GPU에 비해 비교적 적은 사이즈로 제작이 되며, RAM에서 메모리를 가져다가 사용하게 된다. => 각 core는 더 빠르며 연속적 처리 (sequential tasks)를 처리하는데 특화되어 있다. - GPU (Graphics Processing Unit) => 수천개의 core 수를 가진다 => 각 core는 더 느리지만 동시에 일을 수행(pa..

    CS231n 7강

    https://www.youtube.com/watch?v=_JB0AO7QxSA&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk&index=7 이번 강의는 사실 영상 강의는 시청하지 않고 아래 블로그들을 참조해서 정리했다... (강의가 이해되지 않음...) https://velog.io/@cha-suyeon/cs231n-7%EA%B0%95-%EC%A0%95%EB%A6%AC-Training-Neural-Networks-II cs231n 7강 정리 - Training Neural Networks II 이번 포스팅은 standford university의 cs231 lecture 7을 공부하고, 강의와 슬라이드를 바탕으로 정리한 글임을 밝힙니다. Reference 💻 유튜브 강의: Lec..