SuperPOD 및 BCM 기본

2024.06.14

SuperPOD 및 H100에 대한 기본적인 하드웨어, 네트워크 지식들에 대한 소개그리고 SuperPOD에서 사용하는 Base Command Manager에 대한 기초 지식마지막으로 SuperPOD에서 BCM에 설정되는 Slurm에 대한 정보들까지 모아놓은 개인 발표 자료다.(Copyright 2024. (한준희) all rights reserved.) 해당 자료는 개인이 만든 자료이며, 불법 도용을 금지합니다

개인 공부

LLM을 이용한 점검유지보수 자동화

2024.06.14

사내 hackerton 참여를 위한 프로젝트아래는 발표 참여했던 PPT 자료이다. https://drive.google.com/drive/folders/1xcrwWLQfvUyWbX5fi6e0V4Qk33vBjwPR?usp=sharing hackerton - Google Drive이 폴더에 파일이 없습니다.이 폴더에 파일을 추가하려면 로그인하세요.drive.google.com https://github.com/HanJunHee727/hackerton GitHub - HanJunHee727/hackertonContribute to HanJunHee727/hackerton development by creating an account on GitHub.github.com logstash~kafka를 연동하여 데..

Nvidia/AI

DeepOps로 Slurm 테스트

2024.05.20

## DeepOps DeepOps는 NVIDIA가 개발한 오픈 소스 프로젝트로, 다양한 인프라와 클러스터에서 딥 러닝 워크로드를 쉽게 배포하고 관리할 수 있도록 설계된 도구 모음입니다. 이 프로젝트는 Kubernetes 및 Slurm과 같은 인기 있는 클러스터 관리 도구를 사용하여 딥 러닝 환경을 자동화하고 표준화하는 데 중점을 둡니다. #### DeepOps Installation #### git clone https://github.com/NVIDIA/deepops.git * Ansible 설치 (python3.8 이상 설치되어 있어야함) sudo apt update sudo apt install ansible ansible --version # 설치 확인 ~/deepops/scri..

Nvidia/AI

slurm ~ enroot/pyxis

2024.05.20

# enroot 테스트 Enroot 란 ? * Enroot Enroot는 경량의 컨테이너 실행 도구입니다. 주로 단일 사용자 환경에서 컨테이너를 실행할 수 있도록 설계되었습니다. Enroot는 단순한 설계로, 도커(Docker) 이미지를 직접 실행할 수 있고, 복잡한 설정 없이 빠르게 컨테이너를 실행할 수 있습니다. SLURM과 함께 사용하면, Enroot는 클러스터의 각 노드에서 컨테이너를 실행하는 데 도움을 줍니다. 주요 기능: 경량성: Enroot는 복잡한 설정 없이 간단하게 컨테이너를 실행할 수 있습니다. 도커 이미지 지원: Enroot는 도커 이미지를 변환하지 않고도 직접 실행할 수 있습니다. 빠른 시작: 빠르게 컨테이너를 시작하고 종료할 수 있습니다. * Pyxis Pyxis는 Enroot를..

Nvidia/AI

slurm Admin

2024.05.20

# slurm 기초 명령어 다음은 각각의 SLURM 명령어에 대한 간략한 설명입니다: 1. **sinfo**: SLURM 클러스터의 노드와 파티션의 상태 정보를 보여줍니다. 사용 가능한 노드, 파티션, 그리고 각 상태의 세부 사항들을 제공합니다. 2. **squeue**: 클러스터에 제출된 작업 목록을 보여줍니다. 작업의 ID, 상태, 사용자, 실행 시간 등과 같은 정보를 포함합니다. 3. **scancel**: 진행 중이거나 대기 중인 작업을 취소합니다. 특정 작업 ID나 사용자의 모든 작업을 취소할 수 있습니다. 4. **scontrol**: SLURM 리소스와 설정을 관리하고 수정합니다. 노드의 설정을 변경하거나 작업의 우선순위를 조정하는 등의 기능을 수행합니다. 5. **sstat**: 실..

Nvidia/AI

slurm 설치

2024.05.20

slurm 설치 과정 https://equable-tank-4b0.notion.site/Slurm-db5c8fb0682c4da7838e8e84f4b601fb* 장비 목록 slurm-master2 : 192.168.20.83 slurm-worker1 : 192.168.20.82 slurm-worker2 : 192.168.20.84 ========== 1. ntp 설치 -> VM 간 시간 일치 조정 # master, worker nodes 모두 NTP 설치 sudo apt-get install NTP ========== 2. munge, slurm 유저 생성 -> munge와 slurm 을 위해 각각 계정 필요 # 모든 node에서 UID, GID 일치 sudo adduser -u 1111 munge --d..

Nvidia/AI

Nvidia Nemo를 이용하여 gemma-7b 모델 사용하기

2024.04.25

https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/gemma/dataprep.html#step-1-download-dataset Data Preparation for SFT and PEFT - NVIDIA DocsThis section provides detailed steps to prepare a packed Sequence-to-Sequence Fine-Tuning (SFT) dataset for Gemma models, using the example of the “dolly” dataset. Although we focus on “dolly”, the methodology should be applicable to any dataset..

Oracle/Weblogic

WLS 10.3.6.0 nodemanager 설정

2024.02.16

1. NodeManager 기동 / 중지 스크립트 # 기동 스크립트 # WLS NodeManager Start Script!! #!/bin/sh ### WebLogic ParaMater ENGINE_HOME= 설정 필요 LOG_HOME= 설정 필요 #FileWriter WLS_USER=`ls -artl | grep ${0##*/} | awk '{print $3}'` ### check User USER=`whoami` if [ "$USER" != ${WLS_USER} ] ; then echo This User is Permission Denied !!! echo If you want to start this Script, you must be [${WLS_USER}] ... exit fi ### c..

전체 글

SuperPOD 및 BCM 기본

LLM을 이용한 점검유지보수 자동화

DeepOps로 Slurm 테스트

slurm ~ enroot/pyxis

slurm Admin

slurm 설치

Nvidia Nemo를 이용하여 gemma-7b 모델 사용하기

WLS 10.3.6.0 nodemanager 설정

티스토리툴바