• Tutorials >
  • PyTorch의 분산 데이터 병렬 처리 - 비디오 튜토리얼
Shortcuts

소개 || DDP란 무엇인가 || 단일 노드 다중-GPU 학습 || 결함 내성 || 다중 노드 학습 || minGPT 학습

PyTorch의 분산 데이터 병렬 처리 - 비디오 튜토리얼

저자: Suraj Subramanian 번역: 송호준

아래 비디오를 보거나 `YouTube <https://www.youtube.com/watch/-K3bZYHYHEA>`__에서도 보실 수 있습니다.

이 비디오 튜토리얼 시리즈는 PyTorch에서 DDP(Distributed Data Parallel)를 사용한 분산 학습에 대해 안내합니다.

이 시리즈는 단순한 비분산 학습 작업에서 시작하여, 클러스터 내 여러 기기들(multiple machines)에서 학습 작업을 배포하는 것으로 마무리됩니다. 이 과정에서 `torchrun <https://pytorch.org/docs/stable/elastic/run.html>`__을 사용한 결함 내성(fault-tolerant) 분산 학습에 대해서도 배우게 될 예정입니다.

이 튜토리얼은 PyTorch에서 모델 학습에 대한 기본적인 이해를 전제로 하고 있습니다.

코드 실행

튜토리얼 코드를 실행하려면 여러 개의 CUDA GPU가 필요합니다. 일반적으로 여러 GPU가 있는 클라우드 인스턴스에서 이를 수행할 수 있으며, 튜토리얼에서는 4개의 GPU가 탑재된 Amazon EC2 P3 인스턴스를 사용합니다.

튜토리얼 코드는 이 `GitHub 저장소 <https://github.com/pytorch/examples/tree/main/distributed/ddp-tutorial-series>`__에 올라와 있습니다. 저장소를 복제하고 함께 진행하세요!

튜토리얼 섹션

  1. 소개 (이 페이지)

  2. DDP란 무엇인가? DDP가 내부적으로 수행하는 작업에 대해 간단히 소개

  3. 단일 노드 멀티-GPU 학습 한 기기에서 여러 GPU를 사용하여 모델을 학습하는 방법

  4. 결함 내성 분산 학습 torchrun을 사용하여 분산 학습 작업을 견고하게 만드는 방법

  5. 다중 노드 학습 여러 기기에서 여러 GPU를 사용하여 모델을 학습하는 방법

  6. DDP를 사용한 GPT 모델 학습 DDP를 사용한 minGPT 모델 학습의 “실제 예시”


더 궁금하시거나 개선할 내용이 있으신가요? 커뮤니티에 참여해보세요!


이 튜토리얼이 어떠셨나요? 평가해주시면 이후 개선에 참고하겠습니다! :)

© Copyright 2018-2024, PyTorch & 파이토치 한국 사용자 모임(PyTorch Korea User Group).

Built with Sphinx using a theme provided by Read the Docs.

PyTorchKorea @ GitHub

파이토치 한국 사용자 모임을 GitHub에서 만나보세요.

GitHub로 이동

한국어 튜토리얼

한국어로 번역 중인 PyTorch 튜토리얼입니다.

튜토리얼로 이동

커뮤니티

다른 사용자들과 의견을 나누고, 도와주세요!

커뮤니티로 이동