참고

Click here to download the full example code

Ray Tune을 사용한 하이퍼파라미터 튜닝¶

하이퍼파라미터 튜닝은 보통의 모델과 매우 정확한 모델간의 차이를 만들어 낼 수 있습니다. 종종 다른 학습률(Learnig rate)을 선택하거나 layer size를 변경하는 것과 같은 간단한 작업만으로도 모델 성능에 큰 영향을 미치기도 합니다.

다행히, 최적의 매개변수 조합을 찾는데 도움이 되는 도구가 있습니다. Ray Tune 은 분산 하이퍼파라미터 튜닝을 위한 업계 표준 도구입니다. Ray Tune은 최신 하이퍼파라미터 검색 알고리즘을 포함하고 TensorBoard 및 기타 분석 라이브러리와 통합되며 기본적으로 Ray 의 분산 기계 학습 엔진 을 통해 학습을 지원합니다.

이 튜토리얼은 Ray Tune을 파이토치 학습 workflow에 통합하는 방법을 알려줍니다. CIFAR10 이미지 분류기를 훈련하기 위해 파이토치 문서에서 이 튜토리얼을 확장할 것입니다.

아래와 같이 약간의 수정만 추가하면 됩니다.

함수에서 데이터 로딩 및 학습 부분을 감싸두고,
일부 네트워크 파라미터를 구성 가능하게 하고,
체크포인트를 추가하고 (선택 사항),
모델 튜닝을 위한 검색 공간을 정의합니다.

이 튜토리얼을 실행하기 위해 아래의 패키지가 설치되어 있는지 확인하세요:

ray[tune]: 배포된 하이퍼파라미터 튜닝 라이브러리
torchvision: 데이터 변형을 위해 필요

설정 / 불러오기¶

필요한 라이브러리들을 불러오는 것(import)으로 시작해보겠습니다:

from functools import partial
import os
import tempfile
from pathlib import Path
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import random_split
import torchvision
import torchvision.transforms as transforms
from ray import tune
from ray import train
from ray.train import Checkpoint, get_checkpoint
from ray.tune.schedulers import ASHAScheduler
import ray.cloudpickle as pickle

대부분의 import들은 파이토치 모델을 빌드하는데 필요합니다. 가장 마지막의 import만이 Ray Tune을 사용하기 위한 것입니다.

Data loaders¶

data loader를 자체 함수로 감싸두고 전역 데이터 디렉토리로 전달합니다. 이런 식으로 서로 다른 실험들 간에 데이터 디렉토리를 공유할 수 있습니다.

def load_data(data_dir="./data"):
    transform = transforms.Compose(
        [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]
    )

    trainset = torchvision.datasets.CIFAR10(
        root=data_dir, train=True, download=True, transform=transform
    )

    testset = torchvision.datasets.CIFAR10(
        root=data_dir, train=False, download=True, transform=transform
    )

    return trainset, testset

구성 가능한 신경망¶

구성 가능한 파라미터만 튜닝이 가능합니다. 이 예시를 통해 fully connected layer 크기를 지정할 수 있습니다:

class Net(nn.Module):
    def __init__(self, l1=120, l2=84):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, l1)
        self.fc2 = nn.Linear(l1, l2)
        self.fc3 = nn.Linear(l2, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = torch.flatten(x, 1)  # 배치(batch) 차원을 제외한 모든 차원을 평탄화(flatten)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

학습 함수¶

흥미를 더해보고자 파이토치 문서의 예제 일부를 변경하여 소개합니다.

학습 스크립트를 train_cifar(config, data_dir=None) 함수로 감싸둡니다. config 매개변수는 학습할 하이퍼파라미터(hyperparameter)를 받습니다. data_dir 은 여러 번의 실행(run) 시 동일한 데이터 소스를 공유할 수 있도록 데이터를 읽고 저장하는 디렉토리를 지정합니다. 또한, checkpoint가 지정되는 경우에는 실행 시작 시점의 모델과 옵티마이저 상태(optimizer state)를 불러올 수 있습니다. 이 튜토리얼의 아래쪽에서 체크포인트(checkpoint)를 지정하는 방법과 체크포인트의 용도에 대한 정보를 확인할 수 있습니다.

net = Net(config["l1"], config["l2"])

checkpoint = get_checkpoint()
if checkpoint:
    with checkpoint.as_directory() as checkpoint_dir:
        data_path = Path(checkpoint_dir) / "data.pkl"
        with open(data_path, "rb") as fp:
            checkpoint_state = pickle.load(fp)
        start_epoch = checkpoint_state["epoch"]
        net.load_state_dict(checkpoint_state["net_state_dict"])
        optimizer.load_state_dict(checkpoint_state["optimizer_state_dict"])
else:
    start_epoch = 0

또한, 옵티마이저의 학습률(learning rate)을 구성할 수 있습니다.

optimizer = optim.SGD(net.parameters(), lr=config["lr"], momentum=0.9)

또한 학습 데이터를 학습 및 검증 세트로 나눕니다. 따라서 데이터의 80%는 모델 학습에 사용하고, 나머지 20%에 대해 유효성 검사 및 손실을 계산합니다. 학습 및 테스트 세트를 반복하는 배치 크기도 구성할 수 있습니다.

DataParallel을 이용한 GPU(다중)지원 추가¶

이미지 분류는 GPU를 사용할 때 이점이 많습니다. 운좋게도 Ray Tune에서 파이토치의 추상화를 계속 사용할 수 있습니다. 따라서 여러 GPU에서 데이터 병렬 훈련을 지원하기 위해 모델을 nn.DataParallel 으로 감쌀 수 있습니다.

device = "cpu"
if torch.cuda.is_available():
    device = "cuda:0"
    if torch.cuda.device_count() > 1:
        net = nn.DataParallel(net)
net.to(device)

device 변수를 사용하여 사용 가능한 GPU가 없을 때도 학습이 가능한지 확인합니다. 파이토치는 다음과 같이 데이터를 GPU메모리에 명시적으로 보내도록 요구합니다.

for i, data in enumerate(trainloader, 0):
    inputs, labels = data
    inputs, labels = inputs.to(device), labels.to(device)

이 코드는 이제 CPU들, 단일 GPU 및 다중 GPU에 대한 학습을 지원합니다. 특히 Ray는 fractional-GPU 도 지원하므로 모델이 GPU 메모리에 적합한 상황에서는 테스트 간에 GPU를 공유할 수 있습니다. 이는 나중에 다룰 것입니다.

Ray Tune으로 통신하기¶

가장 흥미로운 부분은 Ray Tune과의 통신입니다:

checkpoint_data = {
    "epoch": epoch,
    "net_state_dict": net.state_dict(),
    "optimizer_state_dict": optimizer.state_dict(),
}
with tempfile.TemporaryDirectory() as checkpoint_dir:
    data_path = Path(checkpoint_dir) / "data.pkl"
    with open(data_path, "wb") as fp:
        pickle.dump(checkpoint_data, fp)

    checkpoint = Checkpoint.from_directory(checkpoint_dir)
    train.report(
        {"loss": val_loss / val_steps, "accuracy": correct / total},
        checkpoint=checkpoint,
    )

여기서 먼저 체크포인트를 저장한 다음 일부 메트릭을 Ray Tune에 다시 보냅니다. 특히, validation loss와 accuracy를 Ray Tune으로 다시 보냅니다. 그 후 Ray Tune은 이러한 메트릭을 사용하여 최상의 결과를 유도하는 하이퍼파라미터 구성을 결정할 수 있습니다. 이러한 메트릭들은 또한 리소스 낭비를 방지하기 위해 성능이 좋지 않은 실험을 조기에 중지하는 데 사용할 수 있습니다.

체크포인트 저장은 선택사항이지만, Population Based Training 과 같은 고급 스케줄러를 사용하기 위해서는 필요합니다. 또한, 체크포인트를 저장해두면 나중에 학습된 모델을 로드하고 평가 세트(test set)에서 검증할 수 있습니다.

전체 학습 함수¶

전체 예제 코드는 다음과 같습니다.

def train_cifar(config, data_dir=None):
    net = Net(config["l1"], config["l2"])

    device = "cpu"
    if torch.cuda.is_available():
        device = "cuda:0"
        if torch.cuda.device_count() > 1:
            net = nn.DataParallel(net)
    net.to(device)

    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(net.parameters(), lr=config["lr"], momentum=0.9)

    checkpoint = get_checkpoint()
    if checkpoint:
        with checkpoint.as_directory() as checkpoint_dir:
            data_path = Path(checkpoint_dir) / "data.pkl"
            with open(data_path, "rb") as fp:
                checkpoint_state = pickle.load(fp)
            start_epoch = checkpoint_state["epoch"]
            net.load_state_dict(checkpoint_state["net_state_dict"])
            optimizer.load_state_dict(checkpoint_state["optimizer_state_dict"])
    else:
        start_epoch = 0

    trainset, testset = load_data(data_dir)

    test_abs = int(len(trainset) * 0.8)
    train_subset, val_subset = random_split(
        trainset, [test_abs, len(trainset) - test_abs]
    )

    trainloader = torch.utils.data.DataLoader(
        train_subset, batch_size=int(config["batch_size"]), shuffle=True, num_workers=8
    )
    valloader = torch.utils.data.DataLoader(
        val_subset, batch_size=int(config["batch_size"]), shuffle=True, num_workers=8
    )

    for epoch in range(start_epoch, 10):  # loop over the dataset multiple times
        running_loss = 0.0
        epoch_steps = 0
        for i, data in enumerate(trainloader, 0):
            # get the inputs; data is a list of [inputs, labels]
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)

            # zero the parameter gradients
            optimizer.zero_grad()

            # forward + backward + optimize
            outputs = net(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            # print statistics
            running_loss += loss.item()
            epoch_steps += 1
            if i % 2000 == 1999:  # print every 2000 mini-batches
                print(
                    "[%d, %5d] loss: %.3f"
                    % (epoch + 1, i + 1, running_loss / epoch_steps)
                )
                running_loss = 0.0

        # Validation loss
        val_loss = 0.0
        val_steps = 0
        total = 0
        correct = 0
        for i, data in enumerate(valloader, 0):
            with torch.no_grad():
                inputs, labels = data
                inputs, labels = inputs.to(device), labels.to(device)

                outputs = net(inputs)
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()

                loss = criterion(outputs, labels)
                val_loss += loss.cpu().numpy()
                val_steps += 1

        checkpoint_data = {
            "epoch": epoch,
            "net_state_dict": net.state_dict(),
            "optimizer_state_dict": optimizer.state_dict(),
        }
        with tempfile.TemporaryDirectory() as checkpoint_dir:
            data_path = Path(checkpoint_dir) / "data.pkl"
            with open(data_path, "wb") as fp:
                pickle.dump(checkpoint_data, fp)

            checkpoint = Checkpoint.from_directory(checkpoint_dir)
            train.report(
                {"loss": val_loss / val_steps, "accuracy": correct / total},
                checkpoint=checkpoint,
            )

    print("Finished Training")

보다시피, 대부분의 코드는 원본 예제에서 직접 적용되었습니다.

테스트셋 정확도(Test set accuracy)¶

일반적으로 머신러닝 모델의 성능은 모델 학습 시 사용하지 않은 데이터를 테스트셋으로 따로 떼어낸 뒤, 이를 사용하여 테스트합니다. 이러한 테스트셋 또한 함수로 감싸둘 수 있습니다:

def test_accuracy(net, device="cpu"):
    trainset, testset = load_data()

    testloader = torch.utils.data.DataLoader(
        testset, batch_size=4, shuffle=False, num_workers=2
    )

    correct = 0
    total = 0
    with torch.no_grad():
        for data in testloader:
            images, labels = data
            images, labels = images.to(device), labels.to(device)
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    return correct / total

이 함수는 또한 device 파라미터를 요구하므로, test set 평가를 GPU에서 수행할 수 있습니다.

검색 공간 구성¶

마지막으로 Ray Tune의 검색 공간을 정의해야 합니다. 예시는 다음과 같습니다:

config = {
    "l1": tune.choice([2 ** i for i in range(9)]),
    "l2": tune.choice([2 ** i for i in range(9)]),
    "lr": tune.loguniform(1e-4, 1e-1),
    "batch_size": tune.choice([2, 4, 8, 16])
}

tune.choice() 함수는 균일하게 샘플링된 값들의 목록을 입력으로 받습니다. 위 예시에서 l1 및 l2 파라미터는 4와 256 사이의 2의 거듭제곱 값인 4, 8, 16, 32, 64, 128, 256 입니다. lr (학습률)은 0.0001과 0.1 사이에서 균일하게 샘플링 되어야 합니다. 마지막으로, 배치 크기는 2, 4, 8, 16중에서 선택할 수 있습니다.

각 실험에서, Ray Tune은 이제 이러한 검색 공간에서 매개변수 조합을 무작위로 샘플링합니다. 그런 다음 여러 모델을 병렬로 훈련하고 이 중에서 가장 성능이 좋은 모델을 찾습니다. 또한 성능이 좋지 않은 실험을 조기에 종료하는 ASHAScheduler 를 사용합니다.

상수 data_dir 파라미터를 설정하기 위해 functools.partial 로 train_cifar 함수를 감싸둡니다. 또한 각 실험에 사용할 수 있는 자원들(resources)을 Ray Tune에 알릴 수 있습니다.

gpus_per_trial = 2
# ...
result = tune.run(
    partial(train_cifar, data_dir=data_dir),
    resources_per_trial={"cpu": 8, "gpu": gpus_per_trial},
    config=config,
    num_samples=num_samples,
    scheduler=scheduler,
    checkpoint_at_end=True)

파이토치 DataLoader 인스턴스의 num_workers 을 늘리기 위해 CPU 수를 지정하고 사용할 수 있습니다. 각 실험에서 선택한 수의 GPU들은 파이토치에 표시됩니다. 실험들은 요청되지 않은 GPU에 액세스할 수 없으므로 같은 자원들을 사용하는 중복된 실험에 대해 신경쓰지 않아도 됩니다.

부분 GPUs를 지정할 수도 있으므로, gpus_per_trial=0.5 와 같은 것 또한 가능합니다. 이후 각 실험은 GPU를 공유합니다. 사용자는 모델이 여전히 GPU메모리에 적합한지만 확인하면 됩니다.

모델을 훈련시킨 후, 가장 성능이 좋은 모델을 찾고 체크포인트 파일에서 학습된 모델을 로드합니다. 이후 test set 정확도(accuracy)를 얻고 모든 것들을 출력하여 확인할 수 있습니다.

전체 주요 기능은 다음과 같습니다.

def main(num_samples=10, max_num_epochs=10, gpus_per_trial=2):
    data_dir = os.path.abspath("./data")
    load_data(data_dir)
    config = {
        "l1": tune.choice([2**i for i in range(9)]),
        "l2": tune.choice([2**i for i in range(9)]),
        "lr": tune.loguniform(1e-4, 1e-1),
        "batch_size": tune.choice([2, 4, 8, 16]),
    }
    scheduler = ASHAScheduler(
        metric="loss",
        mode="min",
        max_t=max_num_epochs,
        grace_period=1,
        reduction_factor=2,
    )
    result = tune.run(
        partial(train_cifar, data_dir=data_dir),
        resources_per_trial={"cpu": 2, "gpu": gpus_per_trial},
        config=config,
        num_samples=num_samples,
        scheduler=scheduler,
    )

    best_trial = result.get_best_trial("loss", "min", "last")
    print(f"Best trial config: {best_trial.config}")
    print(f"Best trial final validation loss: {best_trial.last_result['loss']}")
    print(f"Best trial final validation accuracy: {best_trial.last_result['accuracy']}")

    best_trained_model = Net(best_trial.config["l1"], best_trial.config["l2"])
    device = "cpu"
    if torch.cuda.is_available():
        device = "cuda:0"
        if gpus_per_trial > 1:
            best_trained_model = nn.DataParallel(best_trained_model)
    best_trained_model.to(device)

    best_checkpoint = result.get_best_checkpoint(trial=best_trial, metric="accuracy", mode="max")
    with best_checkpoint.as_directory() as checkpoint_dir:
        data_path = Path(checkpoint_dir) / "data.pkl"
        with open(data_path, "rb") as fp:
            best_checkpoint_data = pickle.load(fp)

        best_trained_model.load_state_dict(best_checkpoint_data["net_state_dict"])
        test_acc = test_accuracy(best_trained_model, device)
        print("Best trial test set accuracy: {}".format(test_acc))


if __name__ == "__main__":
    # 매 실험당 사용할 GPU 수를 여기에서 변경할 수 있습니다:
    main(num_samples=10, max_num_epochs=10, gpus_per_trial=0)

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to /workspace/tutorials-kr/beginner_source/data/cifar-10-python.tar.gz

  0%|                                                                                          | 0/170498071 [00:00<?, ?it/s]
  0%|                                                                          | 32768/170498071 [00:00<22:22, 126936.83it/s]
  0%|                                                                          | 65536/170498071 [00:00<22:04, 128682.52it/s]
  0%|                                                                          | 98304/170498071 [00:00<21:56, 129450.80it/s]
  0%|                                                                         | 163840/170498071 [00:01<15:41, 180877.48it/s]
  0%|1                                                                        | 360448/170498071 [00:01<07:21, 385227.78it/s]
  0%|2                                                                        | 557056/170498071 [00:01<05:38, 502735.24it/s]
  0%|3                                                                        | 753664/170498071 [00:01<04:53, 577416.41it/s]
  1%|4                                                                        | 983040/170498071 [00:02<04:10, 676297.39it/s]
  1%|5                                                                       | 1212416/170498071 [00:02<03:47, 745295.04it/s]
  1%|6                                                                       | 1474560/170498071 [00:02<03:26, 820482.29it/s]
  1%|7                                                                       | 1736704/170498071 [00:02<03:10, 885787.13it/s]
  1%|8                                                                       | 1998848/170498071 [00:03<03:00, 932564.15it/s]
  1%|9                                                                       | 2293760/170498071 [00:03<02:51, 979851.44it/s]
  2%|#                                                                      | 2588672/170498071 [00:03<02:42, 1036131.87it/s]
  2%|#2                                                                     | 2916352/170498071 [00:03<02:31, 1108855.56it/s]
  2%|#3                                                                     | 3244032/170498071 [00:04<02:27, 1133666.11it/s]
  2%|#5                                                                     | 3604480/170498071 [00:04<02:18, 1202964.87it/s]
  2%|#6                                                                     | 3964928/170498071 [00:04<02:17, 1210794.16it/s]
  3%|#8                                                                     | 4358144/170498071 [00:04<02:09, 1283679.49it/s]
  3%|#9                                                                     | 4751360/170498071 [00:05<02:02, 1353786.89it/s]
  3%|##1                                                                    | 5177344/170498071 [00:05<01:55, 1430100.66it/s]
  3%|##3                                                                    | 5636096/170498071 [00:05<01:49, 1504792.19it/s]
  4%|##5                                                                    | 6094848/170498071 [00:06<01:43, 1596128.45it/s]
  4%|##7                                                                    | 6586368/170498071 [00:06<01:36, 1696488.74it/s]
  4%|##9                                                                    | 7110656/170498071 [00:06<01:30, 1808268.81it/s]
  4%|###1                                                                   | 7634944/170498071 [00:06<01:29, 1823912.60it/s]
  5%|###4                                                                   | 8192000/170498071 [00:07<01:24, 1918995.35it/s]
  5%|###6                                                                   | 8814592/170498071 [00:07<01:17, 2077926.76it/s]
  6%|###9                                                                   | 9437184/170498071 [00:07<01:13, 2193639.94it/s]
  6%|####1                                                                 | 10092544/170498071 [00:07<01:12, 2209321.99it/s]
  6%|####4                                                                 | 10780672/170498071 [00:08<01:07, 2360155.12it/s]
  7%|####7                                                                 | 11501568/170498071 [00:08<01:04, 2449897.97it/s]
  7%|#####                                                                 | 12288000/170498071 [00:08<00:59, 2641395.94it/s]
  8%|#####3                                                                | 13074432/170498071 [00:08<00:56, 2782697.99it/s]
  8%|#####7                                                                | 13926400/170498071 [00:09<00:52, 2957566.22it/s]
  9%|######                                                                | 14811136/170498071 [00:09<00:50, 3099893.91it/s]
  9%|######4                                                               | 15728640/170498071 [00:09<00:47, 3230077.73it/s]
 10%|######8                                                               | 16711680/170498071 [00:09<00:44, 3428222.67it/s]
 10%|#######1                                                              | 17465344/170498071 [00:10<00:38, 4016814.33it/s]
 11%|#######3                                                              | 17956864/170498071 [00:10<00:41, 3637064.94it/s]
 11%|#######7                                                              | 18776064/170498071 [00:10<00:42, 3544540.93it/s]
 12%|########                                                              | 19628032/170498071 [00:10<00:36, 4112121.72it/s]
 12%|########2                                                             | 20086784/170498071 [00:10<00:37, 4037298.31it/s]
 12%|########5                                                             | 20807680/170498071 [00:10<00:34, 4360909.83it/s]
 12%|########7                                                             | 21299200/170498071 [00:10<00:34, 4307160.89it/s]
 13%|########9                                                             | 21757952/170498071 [00:11<00:34, 4345109.16it/s]
 13%|#########1                                                            | 22347776/170498071 [00:11<00:35, 4165315.85it/s]
 13%|#########4                                                            | 22904832/170498071 [00:11<00:34, 4289421.55it/s]
 14%|#########7                                                            | 23658496/170498071 [00:11<00:32, 4551027.31it/s]
 14%|#########9                                                            | 24215552/170498071 [00:11<00:32, 4537865.16it/s]
 15%|##########2                                                           | 25001984/170498071 [00:11<00:28, 5027607.04it/s]
 15%|##########5                                                           | 25624576/170498071 [00:11<00:30, 4819467.49it/s]
 16%|##########8                                                           | 26443776/170498071 [00:12<00:26, 5450236.08it/s]
 16%|###########1                                                          | 27099136/170498071 [00:12<00:27, 5134665.90it/s]
 16%|###########4                                                          | 27951104/170498071 [00:12<00:24, 5789947.77it/s]
 17%|###########7                                                          | 28639232/170498071 [00:12<00:27, 5196798.88it/s]
 18%|############2                                                         | 29851648/170498071 [00:12<00:25, 5572754.24it/s]
 18%|############6                                                         | 30769152/170498071 [00:12<00:22, 6294271.30it/s]
 19%|############9                                                         | 31555584/170498071 [00:12<00:23, 5907654.40it/s]
 19%|#############3                                                        | 32636928/170498071 [00:12<00:19, 7025210.29it/s]
 20%|#############7                                                        | 33423360/170498071 [00:13<00:21, 6381237.93it/s]
 20%|##############1                                                       | 34537472/170498071 [00:13<00:18, 7504396.22it/s]
 21%|##############5                                                       | 35356672/170498071 [00:13<00:19, 6760024.81it/s]
 21%|##############9                                                       | 36372480/170498071 [00:13<00:17, 7578124.26it/s]
 22%|###############2                                                      | 37191680/170498071 [00:13<00:20, 6569084.80it/s]
 23%|###############8                                                      | 38535168/170498071 [00:13<00:17, 7520354.55it/s]
 23%|################1                                                     | 39354368/170498071 [00:13<00:17, 7392005.21it/s]
 24%|################6                                                     | 40632320/170498071 [00:14<00:16, 8024204.24it/s]
 24%|#################                                                     | 41484288/170498071 [00:14<00:16, 7827761.65it/s]
 25%|#################3                                                    | 42303488/170498071 [00:14<00:16, 7785786.08it/s]
 25%|#################7                                                    | 43286528/170498071 [00:14<00:15, 8046279.58it/s]
 26%|##################1                                                   | 44105728/170498071 [00:14<00:15, 7987314.21it/s]
 27%|##################7                                                   | 45580288/170498071 [00:14<00:12, 9740753.07it/s]
 27%|###################1                                                  | 46596096/170498071 [00:14<00:16, 7347554.48it/s]
 28%|###################8                                                  | 48365568/170498071 [00:14<00:13, 8948599.86it/s]
 29%|####################2                                                 | 49348608/170498071 [00:15<00:13, 8753378.62it/s]
 30%|####################9                                                 | 50987008/170498071 [00:15<00:12, 9821798.78it/s]
 31%|#####################3                                                | 52035584/170498071 [00:15<00:12, 9285086.00it/s]
 31%|#####################7                                               | 53706752/170498071 [00:15<00:11, 10555085.63it/s]
 32%|######################5                                               | 54820864/170498071 [00:15<00:11, 9909452.14it/s]
 33%|######################9                                              | 56590336/170498071 [00:15<00:10, 11240060.09it/s]
 34%|#######################3                                             | 57737216/170498071 [00:15<00:10, 10412664.85it/s]
 35%|########################1                                            | 59604992/170498071 [00:15<00:09, 11578571.61it/s]
 36%|########################5                                            | 60784640/170498071 [00:16<00:10, 10783621.82it/s]
 37%|#########################3                                           | 62521344/170498071 [00:16<00:08, 12402657.84it/s]
 37%|#########################8                                           | 63832064/170498071 [00:16<00:10, 10328493.26it/s]
 39%|##########################7                                          | 66093056/170498071 [00:16<00:07, 13138733.19it/s]
 40%|###########################3                                         | 67534848/170498071 [00:16<00:09, 11207166.61it/s]
 41%|############################5                                         | 69435392/170498071 [00:16<00:10, 9394534.88it/s]
 43%|#############################3                                       | 72515584/170498071 [00:17<00:09, 10386035.68it/s]
 44%|##############################4                                      | 75202560/170498071 [00:17<00:07, 13244230.86it/s]
 45%|###############################                                      | 76808192/170498071 [00:17<00:07, 11843243.26it/s]
 46%|################################1                                     | 78413824/170498071 [00:17<00:09, 9640327.75it/s]
 47%|################################5                                    | 80445440/170498071 [00:17<00:07, 11439921.74it/s]
 48%|#################################2                                   | 82083840/170498071 [00:18<00:08, 10789094.15it/s]
 49%|##################################                                   | 84017152/170498071 [00:18<00:07, 11859911.69it/s]
 50%|##################################5                                  | 85491712/170498071 [00:18<00:07, 11411450.75it/s]
 51%|###################################1                                 | 86900736/170498071 [00:18<00:07, 11690579.84it/s]
 52%|###################################7                                 | 88309760/170498071 [00:18<00:07, 11115565.18it/s]
 53%|####################################3                                | 89849856/170498071 [00:18<00:06, 11780973.31it/s]
 54%|####################################9                                | 91422720/170498071 [00:18<00:06, 11449917.39it/s]
 55%|#####################################6                               | 93093888/170498071 [00:18<00:06, 12355669.17it/s]
 56%|######################################3                              | 94699520/170498071 [00:19<00:06, 11856507.17it/s]
 56%|######################################9                              | 96174080/170498071 [00:19<00:06, 11976753.80it/s]
 57%|#######################################5                             | 97714176/170498071 [00:19<00:06, 11726379.91it/s]
 58%|########################################1                            | 99188736/170498071 [00:19<00:05, 11944710.29it/s]
 59%|########################################1                           | 100696064/170498071 [00:19<00:06, 11053032.28it/s]
 60%|########################################9                           | 102727680/170498071 [00:19<00:05, 13241733.69it/s]
 61%|#########################################5                          | 104136704/170498071 [00:19<00:05, 11636956.17it/s]
 62%|##########################################                          | 105381888/170498071 [00:19<00:05, 11504751.82it/s]
 63%|##########################################8                         | 107315200/170498071 [00:20<00:05, 12021048.42it/s]
 64%|###########################################4                        | 108855296/170498071 [00:20<00:04, 12363766.49it/s]
 65%|###########################################9                        | 110264320/170498071 [00:20<00:05, 10848025.15it/s]
 65%|############################################5                       | 111673344/170498071 [00:20<00:05, 11236731.54it/s]
 66%|#############################################1                      | 113311744/170498071 [00:20<00:05, 10842236.20it/s]
 67%|#############################################8                      | 114982912/170498071 [00:20<00:04, 12195324.28it/s]
 68%|##############################################3                     | 116293632/170498071 [00:20<00:04, 10915629.97it/s]
 69%|###############################################                     | 118030336/170498071 [00:21<00:04, 12443156.86it/s]
 70%|###############################################6                    | 119373824/170498071 [00:21<00:04, 10928877.98it/s]
 71%|################################################4                   | 121438208/170498071 [00:21<00:03, 13231844.35it/s]
 72%|#################################################                   | 122880000/170498071 [00:21<00:03, 12058622.09it/s]
 73%|#################################################6                  | 124452864/170498071 [00:21<00:03, 12136905.50it/s]
 74%|##################################################2                 | 126058496/170498071 [00:21<00:03, 11878128.67it/s]
 75%|##################################################8                 | 127500288/170498071 [00:21<00:03, 12024767.29it/s]
 76%|###################################################4                | 129040384/170498071 [00:22<00:03, 10730022.53it/s]
 77%|####################################################4               | 131530752/170498071 [00:22<00:02, 13969187.78it/s]
 78%|#####################################################               | 133070848/170498071 [00:22<00:03, 11601167.81it/s]
 79%|#####################################################8              | 135004160/170498071 [00:22<00:03, 10046124.79it/s]
 81%|######################################################8             | 137592832/170498071 [00:22<00:02, 13102236.30it/s]
 82%|#######################################################5            | 139198464/170498071 [00:22<00:02, 11022524.57it/s]
 83%|########################################################5           | 141721600/170498071 [00:23<00:02, 10864256.70it/s]
 85%|#########################################################6          | 144539648/170498071 [00:23<00:01, 14008715.09it/s]
 86%|##########################################################3         | 146276352/170498071 [00:23<00:02, 11689448.14it/s]
 87%|###########################################################3        | 148766720/170498071 [00:23<00:01, 11038503.76it/s]
 89%|############################################################5       | 151879680/170498071 [00:23<00:01, 11370493.32it/s]
 91%|##############################################################      | 155582464/170498071 [00:24<00:01, 11989645.93it/s]
 93%|###############################################################2    | 158498816/170498071 [00:24<00:01, 11804547.37it/s]
 95%|################################################################4   | 161546240/170498071 [00:24<00:00, 11665023.19it/s]
 97%|#################################################################6  | 164659200/170498071 [00:25<00:00, 11541486.79it/s]
 98%|##################################################################8 | 167608320/170498071 [00:25<00:00, 11513785.23it/s]
100%|#####################################################################| 170498071/170498071 [00:25<00:00, 6713017.73it/s]
Extracting /workspace/tutorials-kr/beginner_source/data/cifar-10-python.tar.gz to /workspace/tutorials-kr/beginner_source/data
Files already downloaded and verified
2025-08-03 11:53:48,833 WARNING services.py:1889 -- WARNING: The object store is using /tmp instead of /dev/shm because /dev/shm has only 67104768 bytes available. This will harm performance! You may be able to free up space by deleting files in /dev/shm. If you are inside a Docker container, you can increase /dev/shm size by passing '--shm-size=10.24gb' to 'docker run' (or add it to the run_options list in a Ray cluster config). Make sure to set this to more than 30% of available RAM.
2025-08-03 11:53:48,954 INFO worker.py:1642 -- Started a local Ray instance.
2025-08-03 11:53:51,227 INFO tune.py:228 -- Initializing Ray automatically. For cluster usage or custom Ray initialization, call `ray.init(...)` before `tune.run(...)`.
2025-08-03 11:53:51,229 INFO tune.py:654 -- [output] This will use the new output engine with verbosity 2. To disable the new output and use the legacy output engine, set the environment variable RAY_AIR_NEW_OUTPUT=0. For more information, please see https://github.com/ray-project/ray/issues/36949
+--------------------------------------------------------------------+
| Configuration for experiment     train_cifar_2025-08-03_11-53-51   |
+--------------------------------------------------------------------+
| Search algorithm                 BasicVariantGenerator             |
| Scheduler                        AsyncHyperBandScheduler           |
| Number of trials                 10                                |
+--------------------------------------------------------------------+

View detailed results here: /root/ray_results/train_cifar_2025-08-03_11-53-51
To visualize your results with TensorBoard, run: `tensorboard --logdir /root/ray_results/train_cifar_2025-08-03_11-53-51`

Trial status: 10 PENDING
Current time: 2025-08-03 11:53:51. Total running time: 0s
Logical resource usage: 20.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+-------------------------------------------------------------------------------+
| Trial name                status       l1     l2            lr     batch_size |
+-------------------------------------------------------------------------------+
| train_cifar_85cce_00000   PENDING      16      1   0.00213327               2 |
| train_cifar_85cce_00001   PENDING       1      2   0.013416                 4 |
| train_cifar_85cce_00002   PENDING     256     64   0.0113784                2 |
| train_cifar_85cce_00003   PENDING      64    256   0.0274071                8 |
| train_cifar_85cce_00004   PENDING      16      2   0.056666                 4 |
| train_cifar_85cce_00005   PENDING       8     64   0.000353097              4 |
| train_cifar_85cce_00006   PENDING      16      4   0.000147684              8 |
| train_cifar_85cce_00007   PENDING     256    256   0.00477469               8 |
| train_cifar_85cce_00008   PENDING     128    256   0.0306227                8 |
| train_cifar_85cce_00009   PENDING       2     16   0.0286986                2 |
+-------------------------------------------------------------------------------+

Trial train_cifar_85cce_00005 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00005 config             |
+--------------------------------------------------+
| batch_size                                     4 |
| l1                                             8 |
| l2                                            64 |
| lr                                       0.00035 |
+--------------------------------------------------+

Trial train_cifar_85cce_00007 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00007 config             |
+--------------------------------------------------+
| batch_size                                     8 |
| l1                                           256 |
| l2                                           256 |
| lr                                       0.00477 |
+--------------------------------------------------+

Trial train_cifar_85cce_00004 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00004 config             |
+--------------------------------------------------+
| batch_size                                     4 |
| l1                                            16 |
| l2                                             2 |
| lr                                       0.05667 |
+--------------------------------------------------+

Trial train_cifar_85cce_00001 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00001 config             |
+--------------------------------------------------+
| batch_size                                     4 |
| l1                                             1 |
| l2                                             2 |
| lr                                       0.01342 |
+--------------------------------------------------+

Trial train_cifar_85cce_00002 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00002 config             |
+--------------------------------------------------+
| batch_size                                     2 |
| l1                                           256 |
| l2                                            64 |
| lr                                       0.01138 |
+--------------------------------------------------+

Trial train_cifar_85cce_00006 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00006 config             |
+--------------------------------------------------+
| batch_size                                     8 |
| l1                                            16 |
| l2                                             4 |
| lr                                       0.00015 |
+--------------------------------------------------+

Trial train_cifar_85cce_00008 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00008 config             |
+--------------------------------------------------+
| batch_size                                     8 |
| l1                                           128 |
| l2                                           256 |
| lr                                       0.03062 |
+--------------------------------------------------+

Trial train_cifar_85cce_00000 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00000 config             |
+--------------------------------------------------+
| batch_size                                     2 |
| l1                                            16 |
| l2                                             1 |
| lr                                       0.00213 |
+--------------------------------------------------+

Trial train_cifar_85cce_00009 started with configuration:
+-------------------------------------------------+
| Trial train_cifar_85cce_00009 config            |
+-------------------------------------------------+
| batch_size                                    2 |
| l1                                            2 |
| l2                                           16 |
| lr                                       0.0287 |
+-------------------------------------------------+

Trial train_cifar_85cce_00003 started with configuration:
+--------------------------------------------------+
| Trial train_cifar_85cce_00003 config             |
+--------------------------------------------------+
| batch_size                                     8 |
| l1                                            64 |
| l2                                           256 |
| lr                                       0.02741 |
+--------------------------------------------------+
(func pid=38586) Files already downloaded and verified
(func pid=38586) Files already downloaded and verified
(func pid=38586) [1,  2000] loss: 2.301
(func pid=38582) Files already downloaded and verified [repeated 18x across cluster] (Ray deduplicates logs by default. Set RAY_DEDUP_LOGS=0 to disable log deduplication, or see https://docs.ray.io/en/master/ray-observability/ray-logging.html#log-deduplication for more options.)
(func pid=38586) [1,  4000] loss: 1.129 [repeated 10x across cluster]
(func pid=38582) [1,  6000] loss: 0.768 [repeated 10x across cluster]

Trial train_cifar_85cce_00006 finished iteration 1 at 2025-08-03 11:54:14. Total running time: 23s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                   19.8295 |
| time_total_s                                       19.8295 |
| training_iteration                                       1 |
| accuracy                                            0.0983 |
| loss                                               2.31496 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000000
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000000)

Trial train_cifar_85cce_00003 finished iteration 1 at 2025-08-03 11:54:16. Total running time: 24s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00003 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  21.31861 |
| time_total_s                                      21.31861 |
| training_iteration                                       1 |
| accuracy                                            0.1853 |
| loss                                               2.14037 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00003 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00003_3_batch_size=8,l1=64,l2=256,lr=0.0274_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00007 finished iteration 1 at 2025-08-03 11:54:16. Total running time: 25s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  21.76557 |
| time_total_s                                      21.76557 |
| training_iteration                                       1 |
| accuracy                                            0.4783 |
| loss                                               1.45525 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00008 finished iteration 1 at 2025-08-03 11:54:16. Total running time: 25s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00008 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  21.81861 |
| time_total_s                                      21.81861 |
| training_iteration                                       1 |
| accuracy                                            0.1822 |
| loss                                               2.08574 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00008 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00008_8_batch_size=8,l1=128,l2=256,lr=0.0306_2025-08-03_11-53-51/checkpoint_000000
(func pid=38591) [1,  8000] loss: 0.585 [repeated 7x across cluster]

Trial status: 10 RUNNING
Current time: 2025-08-03 11:54:21. Total running time: 30s
Logical resource usage: 20.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+----------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status       l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+----------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00000   RUNNING      16      1   0.00213327               2                                                    |
| train_cifar_85cce_00001   RUNNING       1      2   0.013416                 4                                                    |
| train_cifar_85cce_00002   RUNNING     256     64   0.0113784                2                                                    |
| train_cifar_85cce_00003   RUNNING      64    256   0.0274071                8        1            21.3186   2.14037       0.1853 |
| train_cifar_85cce_00004   RUNNING      16      2   0.056666                 4                                                    |
| train_cifar_85cce_00005   RUNNING       8     64   0.000353097              4                                                    |
| train_cifar_85cce_00006   RUNNING      16      4   0.000147684              8        1            19.8295   2.31496       0.0983 |
| train_cifar_85cce_00007   RUNNING     256    256   0.00477469               8        1            21.7656   1.45525       0.4783 |
| train_cifar_85cce_00008   RUNNING     128    256   0.0306227                8        1            21.8186   2.08574       0.1822 |
| train_cifar_85cce_00009   RUNNING       2     16   0.0286986                2                                                    |
+----------------------------------------------------------------------------------------------------------------------------------+
(func pid=38589) [2,  2000] loss: 1.370 [repeated 6x across cluster]

Trial train_cifar_85cce_00005 finished iteration 1 at 2025-08-03 11:54:27. Total running time: 36s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  32.89725 |
| time_total_s                                      32.89725 |
| training_iteration                                       1 |
| accuracy                                            0.3568 |
| loss                                               1.75982 |
+------------------------------------------------------------+
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000000) [repeated 4x across cluster]
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00004 finished iteration 1 at 2025-08-03 11:54:28. Total running time: 37s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00004 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  33.38026 |
| time_total_s                                      33.38026 |
| training_iteration                                       1 |
| accuracy                                            0.1018 |
| loss                                               2.32026 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00004 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00004_4_batch_size=4,l1=16,l2=2,lr=0.0567_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00004 completed after 1 iterations at 2025-08-03 11:54:28. Total running time: 37s

Trial train_cifar_85cce_00001 finished iteration 1 at 2025-08-03 11:54:28. Total running time: 37s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00001 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  33.44045 |
| time_total_s                                      33.44045 |
| training_iteration                                       1 |
| accuracy                                            0.1061 |
| loss                                               2.30628 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00001 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00001_1_batch_size=4,l1=1,l2=2,lr=0.0134_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00001 completed after 1 iterations at 2025-08-03 11:54:28. Total running time: 37s
(func pid=38589) [2,  4000] loss: 0.674 [repeated 11x across cluster]

Trial train_cifar_85cce_00006 finished iteration 2 at 2025-08-03 11:54:31. Total running time: 40s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000001 |
| time_this_iter_s                                  16.66829 |
| time_total_s                                      36.49779 |
| training_iteration                                       2 |
| accuracy                                            0.0773 |
| loss                                               2.30068 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 2 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000001

Trial train_cifar_85cce_00007 finished iteration 2 at 2025-08-03 11:54:34. Total running time: 43s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000001 |
| time_this_iter_s                                  17.85995 |
| time_total_s                                      39.62552 |
| training_iteration                                       2 |
| accuracy                                            0.5226 |
| loss                                               1.35156 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 2 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000001
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000001) [repeated 4x across cluster]

Trial train_cifar_85cce_00003 finished iteration 2 at 2025-08-03 11:54:35. Total running time: 44s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00003 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000001 |
| time_this_iter_s                                   19.5269 |
| time_total_s                                       40.8455 |
| training_iteration                                       2 |
| accuracy                                            0.1016 |
| loss                                               2.30664 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00003 saved a checkpoint for iteration 2 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00003_3_batch_size=8,l1=64,l2=256,lr=0.0274_2025-08-03_11-53-51/checkpoint_000001

Trial train_cifar_85cce_00003 completed after 2 iterations at 2025-08-03 11:54:35. Total running time: 44s

Trial train_cifar_85cce_00008 finished iteration 2 at 2025-08-03 11:54:36. Total running time: 45s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00008 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000001 |
| time_this_iter_s                                    20.024 |
| time_total_s                                      41.84261 |
| training_iteration                                       2 |
| accuracy                                            0.2105 |
| loss                                               2.15182 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00008 saved a checkpoint for iteration 2 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00008_8_batch_size=8,l1=128,l2=256,lr=0.0306_2025-08-03_11-53-51/checkpoint_000001
(func pid=38582) [1, 16000] loss: 0.288 [repeated 7x across cluster]
(func pid=38591) [1, 18000] loss: 0.260 [repeated 7x across cluster]

Trial train_cifar_85cce_00006 finished iteration 3 at 2025-08-03 11:54:48. Total running time: 57s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000002 |
| time_this_iter_s                                  16.83601 |
| time_total_s                                       53.3338 |
| training_iteration                                       3 |
| accuracy                                            0.1594 |
| loss                                               2.22285 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 3 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000002
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000002) [repeated 3x across cluster]
(func pid=38586) [2,  8000] loss: 0.384 [repeated 8x across cluster]

Trial status: 7 RUNNING | 3 TERMINATED
Current time: 2025-08-03 11:54:51. Total running time: 1min 0s
Logical resource usage: 14.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00000   RUNNING        16      1   0.00213327               2                                                    |
| train_cifar_85cce_00002   RUNNING       256     64   0.0113784                2                                                    |
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        1            32.8972   1.75982       0.3568 |
| train_cifar_85cce_00006   RUNNING        16      4   0.000147684              8        3            53.3338   2.22285       0.1594 |
| train_cifar_85cce_00007   RUNNING       256    256   0.00477469               8        2            39.6255   1.35156       0.5226 |
| train_cifar_85cce_00008   RUNNING       128    256   0.0306227                8        2            41.8426   2.15182       0.2105 |
| train_cifar_85cce_00009   RUNNING         2     16   0.0286986                2                                                    |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
+------------------------------------------------------------------------------------------------------------------------------------+

Trial train_cifar_85cce_00007 finished iteration 3 at 2025-08-03 11:54:51. Total running time: 1min 0s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000002 |
| time_this_iter_s                                   17.1987 |
| time_total_s                                      56.82422 |
| training_iteration                                       3 |
| accuracy                                            0.5558 |
| loss                                                1.2632 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 3 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000002

Trial train_cifar_85cce_00000 finished iteration 1 at 2025-08-03 11:54:52. Total running time: 1min 1s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00000 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  57.89753 |
| time_total_s                                      57.89753 |
| training_iteration                                       1 |
| accuracy                                            0.0972 |
| loss                                               2.30437 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00000 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00000_0_batch_size=2,l1=16,l2=1,lr=0.0021_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00000 completed after 1 iterations at 2025-08-03 11:54:52. Total running time: 1min 1s
(func pid=38586) [2, 10000] loss: 0.299 [repeated 3x across cluster]

Trial train_cifar_85cce_00009 finished iteration 1 at 2025-08-03 11:54:55. Total running time: 1min 3s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00009 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                  60.10326 |
| time_total_s                                      60.10326 |
| training_iteration                                       1 |
| accuracy                                            0.1026 |
| loss                                               2.32135 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00009 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00009_9_batch_size=2,l1=2,l2=16,lr=0.0287_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00009 completed after 1 iterations at 2025-08-03 11:54:55. Total running time: 1min 3s
(func pid=38591) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00009_9_batch_size=2,l1=2,l2=16,lr=0.0287_2025-08-03_11-53-51/checkpoint_000000) [repeated 3x across cluster]

Trial train_cifar_85cce_00008 finished iteration 3 at 2025-08-03 11:54:56. Total running time: 1min 5s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00008 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000002 |
| time_this_iter_s                                  19.62178 |
| time_total_s                                      61.46439 |
| training_iteration                                       3 |
| accuracy                                             0.225 |
| loss                                                2.1051 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00008 saved a checkpoint for iteration 3 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00008_8_batch_size=8,l1=128,l2=256,lr=0.0306_2025-08-03_11-53-51/checkpoint_000002

Trial train_cifar_85cce_00005 finished iteration 2 at 2025-08-03 11:54:57. Total running time: 1min 5s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000001 |
| time_this_iter_s                                  29.35898 |
| time_total_s                                      62.25622 |
| training_iteration                                       2 |
| accuracy                                            0.4557 |
| loss                                               1.49678 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 2 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000001
(func pid=38588) [4,  4000] loss: 1.070 [repeated 4x across cluster]

Trial train_cifar_85cce_00006 finished iteration 4 at 2025-08-03 11:55:04. Total running time: 1min 13s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000003 |
| time_this_iter_s                                  16.37714 |
| time_total_s                                      69.71094 |
| training_iteration                                       4 |
| accuracy                                            0.1894 |
| loss                                               2.09784 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 4 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000003
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000003) [repeated 3x across cluster]
(func pid=38584) [1, 20000] loss: 0.231 [repeated 4x across cluster]

Trial train_cifar_85cce_00007 finished iteration 4 at 2025-08-03 11:55:09. Total running time: 1min 18s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000003 |
| time_this_iter_s                                  17.86802 |
| time_total_s                                      74.69224 |
| training_iteration                                       4 |
| accuracy                                            0.5662 |
| loss                                               1.24751 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 4 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000003
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000003)
(func pid=38590) [4,  4000] loss: 1.053 [repeated 3x across cluster]

Trial train_cifar_85cce_00002 finished iteration 1 at 2025-08-03 11:55:12. Total running time: 1min 20s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00002 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000000 |
| time_this_iter_s                                   77.3008 |
| time_total_s                                       77.3008 |
| training_iteration                                       1 |
| accuracy                                            0.1016 |
| loss                                               2.31588 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00002 saved a checkpoint for iteration 1 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00002_2_batch_size=2,l1=256,l2=64,lr=0.0114_2025-08-03_11-53-51/checkpoint_000000

Trial train_cifar_85cce_00002 completed after 1 iterations at 2025-08-03 11:55:12. Total running time: 1min 20s
(func pid=38584) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00002_2_batch_size=2,l1=256,l2=64,lr=0.0114_2025-08-03_11-53-51/checkpoint_000000)

Trial train_cifar_85cce_00008 finished iteration 4 at 2025-08-03 11:55:16. Total running time: 1min 24s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00008 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000003 |
| time_this_iter_s                                  19.73659 |
| time_total_s                                      81.20099 |
| training_iteration                                       4 |
| accuracy                                            0.2089 |
| loss                                               2.07927 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00008 saved a checkpoint for iteration 4 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00008_8_batch_size=8,l1=128,l2=256,lr=0.0306_2025-08-03_11-53-51/checkpoint_000003

Trial train_cifar_85cce_00008 completed after 4 iterations at 2025-08-03 11:55:16. Total running time: 1min 24s
(func pid=38586) [3,  8000] loss: 0.345 [repeated 4x across cluster]

Trial train_cifar_85cce_00006 finished iteration 5 at 2025-08-03 11:55:20. Total running time: 1min 28s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000004 |
| time_this_iter_s                                  15.53777 |
| time_total_s                                      85.24871 |
| training_iteration                                       5 |
| accuracy                                             0.205 |
| loss                                               1.98797 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 5 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000004
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000004) [repeated 2x across cluster]

Trial status: 7 TERMINATED | 3 RUNNING
Current time: 2025-08-03 11:55:21. Total running time: 1min 30s
Logical resource usage: 6.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        2            62.2562   1.49678       0.4557 |
| train_cifar_85cce_00006   RUNNING        16      4   0.000147684              8        5            85.2487   1.98797       0.205  |
| train_cifar_85cce_00007   RUNNING       256    256   0.00477469               8        4            74.6922   1.24751       0.5662 |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+

(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000002)
Trial train_cifar_85cce_00005 finished iteration 3 at 2025-08-03 11:55:25. Total running time: 1min 34s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000002 |
| time_this_iter_s                                  28.41599 |
| time_total_s                                      90.67221 |
| training_iteration                                       3 |
| accuracy                                            0.4954 |
| loss                                               1.39316 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 3 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000002
(func pid=38588) [6,  2000] loss: 1.974 [repeated 3x across cluster]

Trial train_cifar_85cce_00007 finished iteration 5 at 2025-08-03 11:55:26. Total running time: 1min 35s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000004 |
| time_this_iter_s                                  17.25651 |
| time_total_s                                      91.94876 |
| training_iteration                                       5 |
| accuracy                                            0.5679 |
| loss                                               1.24766 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 5 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000004
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000004)
(func pid=38588) [6,  4000] loss: 0.969 [repeated 2x across cluster]

Trial train_cifar_85cce_00006 finished iteration 6 at 2025-08-03 11:55:36. Total running time: 1min 44s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000005 |
| time_this_iter_s                                  15.80763 |
| time_total_s                                     101.05634 |
| training_iteration                                       6 |
| accuracy                                            0.2239 |
| loss                                               1.91596 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 6 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000005
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000005)
(func pid=38589) [6,  4000] loss: 0.518 [repeated 3x across cluster]

Trial train_cifar_85cce_00007 finished iteration 6 at 2025-08-03 11:55:45. Total running time: 1min 53s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000005 |
| time_this_iter_s                                  18.21615 |
| time_total_s                                     110.16491 |
| training_iteration                                       6 |
| accuracy                                             0.569 |
| loss                                               1.26555 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 6 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000005
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000005)
(func pid=38586) [4,  8000] loss: 0.332 [repeated 3x across cluster]
(func pid=38586) [4, 10000] loss: 0.264 [repeated 2x across cluster]

Trial status: 7 TERMINATED | 3 RUNNING
Current time: 2025-08-03 11:55:51. Total running time: 2min 0s
Logical resource usage: 6.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        3            90.6722   1.39316       0.4954 |
| train_cifar_85cce_00006   RUNNING        16      4   0.000147684              8        6           101.056    1.91596       0.2239 |
| train_cifar_85cce_00007   RUNNING       256    256   0.00477469               8        6           110.165    1.26555       0.569  |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+

Trial train_cifar_85cce_00006 finished iteration 7 at 2025-08-03 11:55:52. Total running time: 2min 0s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000006 |
| time_this_iter_s                                  16.05106 |
| time_total_s                                      117.1074 |
| training_iteration                                       7 |
| accuracy                                            0.2718 |
| loss                                               1.83363 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 7 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000006
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000006)

Trial train_cifar_85cce_00005 finished iteration 4 at 2025-08-03 11:55:54. Total running time: 2min 3s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000003 |
| time_this_iter_s                                  28.80232 |
| time_total_s                                     119.47454 |
| training_iteration                                       4 |
| accuracy                                             0.527 |
| loss                                               1.31407 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 4 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000003
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000003)
(func pid=38588) [8,  2000] loss: 1.819 [repeated 2x across cluster]

Trial train_cifar_85cce_00007 finished iteration 7 at 2025-08-03 11:56:03. Total running time: 2min 11s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000006 |
| time_this_iter_s                                  17.80809 |
| time_total_s                                       127.973 |
| training_iteration                                       7 |
| accuracy                                             0.554 |
| loss                                               1.33583 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 7 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000006
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000006)
(func pid=38588) [8,  4000] loss: 0.890 [repeated 3x across cluster]

Trial train_cifar_85cce_00006 finished iteration 8 at 2025-08-03 11:56:08. Total running time: 2min 16s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000007 |
| time_this_iter_s                                  15.96479 |
| time_total_s                                     133.07219 |
| training_iteration                                       8 |
| accuracy                                            0.3089 |
| loss                                               1.76057 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 8 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000007
(func pid=38588) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000007)
(func pid=38586) [5,  6000] loss: 0.428 [repeated 2x across cluster]
(func pid=38586) [5,  8000] loss: 0.317 [repeated 3x across cluster]

Trial train_cifar_85cce_00007 finished iteration 8 at 2025-08-03 11:56:20. Total running time: 2min 29s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000007 |
| time_this_iter_s                                  17.80861 |
| time_total_s                                     145.78161 |
| training_iteration                                       8 |
| accuracy                                            0.5498 |
| loss                                               1.39318 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 8 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000007
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000007)

Trial status: 7 TERMINATED | 3 RUNNING
Current time: 2025-08-03 11:56:21. Total running time: 2min 30s
Logical resource usage: 6.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        4           119.475    1.31407       0.527  |
| train_cifar_85cce_00006   RUNNING        16      4   0.000147684              8        8           133.072    1.76057       0.3089 |
| train_cifar_85cce_00007   RUNNING       256    256   0.00477469               8        8           145.782    1.39318       0.5498 |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+

Trial train_cifar_85cce_00005 finished iteration 5 at 2025-08-03 11:56:22. Total running time: 2min 31s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000004 |
| time_this_iter_s                                  28.54142 |
| time_total_s                                     148.01596 |
| training_iteration                                       5 |
| accuracy                                            0.5173 |
| loss                                               1.33026 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 5 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000004
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000004)

Trial train_cifar_85cce_00006 finished iteration 9 at 2025-08-03 11:56:24. Total running time: 2min 32s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000008 |
| time_this_iter_s                                  15.96172 |
| time_total_s                                     149.03391 |
| training_iteration                                       9 |
| accuracy                                            0.3552 |
| loss                                               1.67343 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 9 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000008
(func pid=38589) [9,  2000] loss: 0.899 [repeated 4x across cluster]
(func pid=38589) [9,  4000] loss: 0.482 [repeated 3x across cluster]

Trial train_cifar_85cce_00007 finished iteration 9 at 2025-08-03 11:56:38. Total running time: 2min 46s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000008 |
| time_this_iter_s                                   17.2677 |
| time_total_s                                     163.04931 |
| training_iteration                                       9 |
| accuracy                                            0.5459 |
| loss                                               1.45338 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 9 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000008
(func pid=38589) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000008) [repeated 2x across cluster]
(func pid=38586) [6,  6000] loss: 0.414 [repeated 3x across cluster]

Trial train_cifar_85cce_00006 finished iteration 10 at 2025-08-03 11:56:40. Total running time: 2min 48s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00006 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000009 |
| time_this_iter_s                                  15.92928 |
| time_total_s                                     164.96319 |
| training_iteration                                      10 |
| accuracy                                            0.3744 |
| loss                                               1.62768 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00006 saved a checkpoint for iteration 10 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00006_6_batch_size=8,l1=16,l2=4,lr=0.0001_2025-08-03_11-53-51/checkpoint_000009

Trial train_cifar_85cce_00006 completed after 10 iterations at 2025-08-03 11:56:40. Total running time: 2min 48s
(func pid=38586) [6,  8000] loss: 0.314
(func pid=38589) [10,  2000] loss: 0.887
(func pid=38589) [10,  4000] loss: 0.476 [repeated 2x across cluster]

Trial status: 8 TERMINATED | 2 RUNNING
Current time: 2025-08-03 11:56:51. Total running time: 3min 0s
Logical resource usage: 4.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        5           148.016    1.33026       0.5173 |
| train_cifar_85cce_00007   RUNNING       256    256   0.00477469               8        9           163.049    1.45338       0.5459 |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00006   TERMINATED     16      4   0.000147684              8       10           164.963    1.62768       0.3744 |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+

Trial train_cifar_85cce_00005 finished iteration 6 at 2025-08-03 11:56:51. Total running time: 3min 0s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000005 |
| time_this_iter_s                                  29.00499 |
| time_total_s                                     177.02095 |
| training_iteration                                       6 |
| accuracy                                            0.5564 |
| loss                                               1.23016 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 6 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000005
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000005) [repeated 2x across cluster]

Trial train_cifar_85cce_00007 finished iteration 10 at 2025-08-03 11:56:56. Total running time: 3min 4s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00007 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000009 |
| time_this_iter_s                                  18.15612 |
| time_total_s                                     181.20543 |
| training_iteration                                      10 |
| accuracy                                             0.561 |
| loss                                               1.47853 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00007 saved a checkpoint for iteration 10 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00007_7_batch_size=8,l1=256,l2=256,lr=0.0048_2025-08-03_11-53-51/checkpoint_000009

Trial train_cifar_85cce_00007 completed after 10 iterations at 2025-08-03 11:56:56. Total running time: 3min 4s
(func pid=38586) [7,  2000] loss: 1.216
(func pid=38586) [7,  4000] loss: 0.605
(func pid=38586) [7,  6000] loss: 0.398
(func pid=38586) [7,  8000] loss: 0.299
(func pid=38586) [7, 10000] loss: 0.245

Trial train_cifar_85cce_00005 finished iteration 7 at 2025-08-03 11:57:20. Total running time: 3min 29s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000006 |
| time_this_iter_s                                  28.80392 |
| time_total_s                                     205.82487 |
| training_iteration                                       7 |
| accuracy                                            0.5619 |
| loss                                               1.23626 |
+------------------------------------------------------------+
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000006) [repeated 2x across cluster]
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 7 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000006

Trial status: 9 TERMINATED | 1 RUNNING
Current time: 2025-08-03 11:57:21. Total running time: 3min 30s
Logical resource usage: 2.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        7           205.825    1.23626       0.5619 |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00006   TERMINATED     16      4   0.000147684              8       10           164.963    1.62768       0.3744 |
| train_cifar_85cce_00007   TERMINATED    256    256   0.00477469               8       10           181.205    1.47853       0.561  |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+
(func pid=38586) [8,  2000] loss: 1.175
(func pid=38586) [8,  4000] loss: 0.583
(func pid=38586) [8,  6000] loss: 0.388
(func pid=38586) [8,  8000] loss: 0.297
(func pid=38586) [8, 10000] loss: 0.242

Trial train_cifar_85cce_00005 finished iteration 8 at 2025-08-03 11:57:51. Total running time: 3min 59s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000007 |
| time_this_iter_s                                  30.57836 |
| time_total_s                                     236.40323 |
| training_iteration                                       8 |
| accuracy                                            0.5681 |
| loss                                                 1.199 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 8 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000007
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000007)

Trial status: 9 TERMINATED | 1 RUNNING
Current time: 2025-08-03 11:57:51. Total running time: 4min 0s
Logical resource usage: 2.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        8           236.403    1.199         0.5681 |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00006   TERMINATED     16      4   0.000147684              8       10           164.963    1.62768       0.3744 |
| train_cifar_85cce_00007   TERMINATED    256    256   0.00477469               8       10           181.205    1.47853       0.561  |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+
(func pid=38586) [9,  2000] loss: 1.154
(func pid=38586) [9,  4000] loss: 0.580
(func pid=38586) [9,  6000] loss: 0.390
(func pid=38586) [9,  8000] loss: 0.289
(func pid=38586) [9, 10000] loss: 0.230

Trial train_cifar_85cce_00005 finished iteration 9 at 2025-08-03 11:58:21. Total running time: 4min 30s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000008 |
| time_this_iter_s                                  30.17018 |
| time_total_s                                     266.57341 |
| training_iteration                                       9 |
| accuracy                                            0.5686 |
| loss                                               1.22079 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 9 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000008
(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000008)

Trial status: 9 TERMINATED | 1 RUNNING
Current time: 2025-08-03 11:58:22. Total running time: 4min 30s
Logical resource usage: 2.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00005   RUNNING         8     64   0.000353097              4        9           266.573    1.22079       0.5686 |
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00006   TERMINATED     16      4   0.000147684              8       10           164.963    1.62768       0.3744 |
| train_cifar_85cce_00007   TERMINATED    256    256   0.00477469               8       10           181.205    1.47853       0.561  |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+
(func pid=38586) [10,  2000] loss: 1.140
(func pid=38586) [10,  4000] loss: 0.569
(func pid=38586) [10,  6000] loss: 0.379
(func pid=38586) [10,  8000] loss: 0.288
(func pid=38586) [10, 10000] loss: 0.229

Trial train_cifar_85cce_00005 finished iteration 10 at 2025-08-03 11:58:51. Total running time: 5min 0s
+------------------------------------------------------------+
| Trial train_cifar_85cce_00005 result                       |
+------------------------------------------------------------+
| checkpoint_dir_name                      checkpoint_000009 |
| time_this_iter_s                                  30.33646 |
| time_total_s                                     296.90987 |
| training_iteration                                      10 |
| accuracy                                            0.5761 |
| loss                                               1.19469 |
+------------------------------------------------------------+
Trial train_cifar_85cce_00005 saved a checkpoint for iteration 10 at: (local)/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000009

Trial train_cifar_85cce_00005 completed after 10 iterations at 2025-08-03 11:58:51. Total running time: 5min 0s

Trial status: 10 TERMINATED
Current time: 2025-08-03 11:58:51. Total running time: 5min 0s
Logical resource usage: 2.0/256 CPUs, 0/4 GPUs (0.0/1.0 accelerator_type:H200)
+------------------------------------------------------------------------------------------------------------------------------------+
| Trial name                status         l1     l2            lr     batch_size     iter     total time (s)      loss     accuracy |
+------------------------------------------------------------------------------------------------------------------------------------+
| train_cifar_85cce_00000   TERMINATED     16      1   0.00213327               2        1            57.8975   2.30437       0.0972 |
| train_cifar_85cce_00001   TERMINATED      1      2   0.013416                 4        1            33.4404   2.30628       0.1061 |
| train_cifar_85cce_00002   TERMINATED    256     64   0.0113784                2        1            77.3008   2.31588       0.1016 |
| train_cifar_85cce_00003   TERMINATED     64    256   0.0274071                8        2            40.8455   2.30664       0.1016 |
| train_cifar_85cce_00004   TERMINATED     16      2   0.056666                 4        1            33.3803   2.32026       0.1018 |
| train_cifar_85cce_00005   TERMINATED      8     64   0.000353097              4       10           296.91     1.19469       0.5761 |
| train_cifar_85cce_00006   TERMINATED     16      4   0.000147684              8       10           164.963    1.62768       0.3744 |
| train_cifar_85cce_00007   TERMINATED    256    256   0.00477469               8       10           181.205    1.47853       0.561  |
| train_cifar_85cce_00008   TERMINATED    128    256   0.0306227                8        4            81.201    2.07927       0.2089 |
| train_cifar_85cce_00009   TERMINATED      2     16   0.0286986                2        1            60.1033   2.32135       0.1026 |
+------------------------------------------------------------------------------------------------------------------------------------+

(func pid=38586) Checkpoint successfully created at: Checkpoint(filesystem=local, path=/root/ray_results/train_cifar_2025-08-03_11-53-51/train_cifar_85cce_00005_5_batch_size=4,l1=8,l2=64,lr=0.0004_2025-08-03_11-53-51/checkpoint_000009)
Best trial config: {'l1': 8, 'l2': 64, 'lr': 0.00035309722862681455, 'batch_size': 4}
Best trial final validation loss: 1.1946864731125533
Best trial final validation accuracy: 0.5761
Files already downloaded and verified
Files already downloaded and verified
Best trial test set accuracy: 0.5768

코드를 실행하면 결과는 다음과 같이 나올 것입니다:

Number of trials: 10/10 (10 TERMINATED)
+-----+--------------+------+------+-------------+--------+---------+------------+
| ... |   batch_size |   l1 |   l2 |          lr |   iter |    loss |   accuracy |
|-----+--------------+------+------+-------------+--------+---------+------------|
| ... |            2 |    1 |  256 | 0.000668163 |      1 | 2.31479 |     0.0977 |
| ... |            4 |   64 |    8 | 0.0331514   |      1 | 2.31605 |     0.0983 |
| ... |            4 |    2 |    1 | 0.000150295 |      1 | 2.30755 |     0.1023 |
| ... |           16 |   32 |   32 | 0.0128248   |     10 | 1.66912 |     0.4391 |
| ... |            4 |    8 |  128 | 0.00464561  |      2 | 1.7316  |     0.3463 |
| ... |            8 |  256 |    8 | 0.00031556  |      1 | 2.19409 |     0.1736 |
| ... |            4 |   16 |  256 | 0.00574329  |      2 | 1.85679 |     0.3368 |
| ... |            8 |    2 |    2 | 0.00325652  |      1 | 2.30272 |     0.0984 |
| ... |            2 |    2 |    2 | 0.000342987 |      2 | 1.76044 |     0.292  |
| ... |            4 |   64 |   32 | 0.003734    |      8 | 1.53101 |     0.4761 |
+-----+--------------+------+------+-------------+--------+---------+------------+

Best trial config: {'l1': 64, 'l2': 32, 'lr': 0.0037339984519545164, 'batch_size': 4}
Best trial final validation loss: 1.5310075663924216
Best trial final validation accuracy: 0.4761
Best trial test set accuracy: 0.4737

대부분의 실험은 자원 낭비를 막기 위해 일찍 중단되었습니다. 가장 좋은 결과를 얻은 실험은 47%의 정확도를 달성했으며, 이는 테스트셋에서 확인할 수 있습니다.

이것이 전부입니다! 이제 파이토치 모델의 매개변수를 조정할 수 있습니다.

Total running time of the script: ( 5 minutes 41.107 seconds)

Gallery generated by Sphinx-Gallery