跳至主要内容
版本:1.3.0

安裝

要安裝 GenAI Studio 之前,請先準備好 必要條件 中所列的硬體配置並安裝好作業系統,然後依序進行下列軟體的安裝。

安裝 NVIDIA GPU 驅動程式

  1. 打開終端機,執行以下指令安裝 NVIDIA CPU 驅動程式。

    sudo apt update
    sudo apt install nvidia-driver-580-open
  2. 重新開機。

    sudo reboot
  3. 驗證安裝結果。

    nvidia-smi

    此時的終端機視窗中應會輸出有關 NVIDIA GPU 的資訊 (看起來資訊像下圖所示,但內容不同)。

    NVIDIA SMI

安裝 CUDA

在終端機中,執行以下指令安裝 CUDA 13.0。

wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-13-0

AI SSD 設定

注意

由於全參數微調的功能依賴 AI SSD 的硬體配置,如果想執行該功能則 AI SSD 的配置是不可或缺的。 至於不想或不需該功能的使用環境,請跳過此段落。

AI SSD 的配置取決於主機上有幾顆 AI SSD 可使用。當主機內有超過一顆 AI SSD 時,必須以 LVM 的方式進行配置;但如果只有一顆,則只要以如同一般磁碟的方式進行配置即可。

多顆 AI SSD 設定

  1. 安裝 LVM 套件

    sudo apt update
    sudo apt install lvm2 xfsprogs
  2. 確認 AI SSD 的挂載路徑

    lshw -class disk -class storage | grep -E 'ai100|logical name|version: EIFZ'
    lsblk | grep nvme
    訊息

    確認 AI SSD 的設備名稱是否為 nvme0n1nvme1n1 等。如果不是,請根據實際環境對後續步驟中的相關命令進行必要修改。

  3. 清除磁碟(以防萬一)

    sudo wipefs -a /dev/nvme0n1 /dev/nvme1n1
  4. 建立 LVM

    sudo pvcreate /dev/nvme0n1 /dev/nvme1n1
    sudo vgcreate ai /dev/nvme0n1 /dev/nvme1n1
    sudo lvcreate --type striped -i 2 -I 128k -l 100%FREE -n ai ai
  5. 格式化 LVM

    sudo mkfs.xfs -f -s size=4k -m crc=0 /dev/ai/ai -f
  6. 掛載 LVM

    sudo mkdir -p /mnt/nvme0
    sudo mount /dev/ai/ai /mnt/nvme0
    sudo chown -R $USER:$USER /mnt/nvme0
    請注意

    上述命令中的 /mnt/nvme0 是固定的掛載點,GenAI Studio 根據此掛載點來監控 AI SSD 的使用情形。

  7. 使掛載持久化

    echo '/dev/ai/ai /mnt/nvme0 xfs defaults,nofail 0 0' | sudo tee -a /etc/fstab
    訊息

    要移除永久掛載設定,請執行:sudo sed -i '/\/dev\/ai\/ai/d' /etc/fstab

如果 LVM 設定成功,執行 lsblk 指令時應會看到類似下圖的訊息。 LVM 成功

提示

如果您需要解除 LVM 的設定,請執行以下指令:

sudo umount /mnt/nvme0
sudo lvremove -y ai
sudo pvremove -y /dev/nvme0n1 /dev/nvme1n1 --force --force

一顆 AI SSD 設定

如果主機上只有一顆 AI SSD 的配置,設定上相對簡單許多,請根據以下步驟進行設定。

  1. 格式化 AI SSD

    sudo mkfs -t ext4 /dev/nvme0n1
  2. 掛載 AI AAD

    sudo mkdir -p /mnt/nvme0
    sudo mount /dev/nvme0n1 /mnt/nvme0
    sudo chown -R $USER:$USER /mnt/nvme0
    請注意

    上述命令中的 /mnt/nvme0 是固定的掛載點,GenAI Studio 根據此掛載點來監控 AI SSD 的使用情形。

  3. 使掛載持久化

    echo '/dev/nvme0n1 /mnt/nvme0 ext4 defaults,nofail 0 0' | sudo tee -a /etc/fstab
    訊息

    要移除永久掛載設定,請執行:sudo sed -i '/\/dev\/nvme0n1/d' /etc/fstab

設定 swap file

啟用 swap file 的機制可以為 DRAM 提供額外的記憶體。如果 GPU 記憶體仍然充足,這可以擴展可以使用的批次大小範圍。請依照以下步驟進行設定。

  1. 建立 swap file

    sudo dd if=/dev/zero of=/mnt/nvme0/swapfile bs=1M count=256k
  2. 修改權限

    sudo chmod 0600 /mnt/nvme0/swapfile
  3. 進行初始化

    sudo mkswap /mnt/nvme0/swapfile
  4. 啟用 swap file

    sudo swapon /mnt/nvme0/swapfile
  5. 永久化 swap file

    echo '/mnt/nvme0/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
注意

如果要移除 swap file,請確保按照以下步驟操作以防止意外的系統問題。

sudo swapoff /mnt/nvme0/swapfile
sudo sed -i '/\/mnt\/nvme0\/swapfile/d' /etc/fstab
sudo rm /mnt/nvme0/swapfile

安裝 Docker

  1. 執行以下指令卸載所有可能造成衝突的套件:

    for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

    apt-get 有可能會報告您沒有安裝這些套件。

  2. 設置 Docker 的 apt 儲存庫。

    # 新增 Docker 的官方 GPG 密鑰:
    sudo apt-get update
    sudo apt-get install ca-certificates curl
    sudo install -m 0755 -d /etc/apt/keyrings
    sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
    sudo chmod a+r /etc/apt/keyrings/docker.asc

    # 將儲存庫新增到 apt 來源:
    echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
    sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    sudo apt-get update
  3. 安裝 Docker 相關套件。

    sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
  4. 將用戶新增到 docker 群組。

    sudo usermod -aG docker "$(id -un)"
  5. 驗證安裝是否成功。

    docker run hello-world

    此指令會下載測試映像並在容器中執行。當容器執行時,它會印出確認訊息並退出。

安裝 NVIDIA Container Toolkit

  1. 配置 apt 儲存庫。

    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
    | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
    && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
    | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
    | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  2. 從儲存庫更新套件清單。

    sudo apt-get update
  3. 安裝 NVIDIA Container Toolkit 套件。

    sudo apt-get install -y nvidia-container-toolkit
  4. 使用 nvidia-ctk 指令設定容器的執行環境

    sudo nvidia-ctk runtime configure --runtime=docker
  5. 重新啟動 Docker 服務

    sudo systemctl restart docker

安裝 GenAI Studio

GenAI Studio 提供安裝程式,讓使用者可以輕鬆安裝。通常,您需要做的就是下載它,然後執行它。

注意

開始安裝之前請先確保磁碟空間充足,如 儲存空間需求 內容所提, 為確保 GenAI Studio 順利安裝,我們建議至少有 186 GiB (約 200GB) 的可用磁碟空間。

請從 這裡 下載安裝檔,檔案的名稱遵循 GenAI-Studio_<版本>_setup.run 格式。取得安裝程式之後, 先將其複製到要安裝的主機上,然後在安裝程式所在的目錄下執行該檔案,並在執行安裝的過程中回答相關問題, 安裝程式便會將 GenAI Studio 安裝至使用者家目錄 ($HOME) 底下的 Advantech/GenAI-Studio 目錄,一切都是那麼的簡單與直覺。

提示
  • 如果執行安裝程式時發生 command not found 的錯誤,請先試著在安裝程式的目錄中以 ./GenAI-Studio_<版本>_setup.run 方式執行安裝。
  • 如果執行安裝程式時發生 Permission denied 的錯誤,請在安裝程式所在的目錄中先試著執行 chmod 0755 GenAI-Studio_<版本>_setup.run 以賦予該檔案可執行的權限後再執行看看。

啟動 GenAI Studio

如果一切順利,GenAI Studio 應該安裝在 $HOME/Advantech/GenAI-Studio 目錄下。 執行以下命令來啟動 GenAI Studio。

cd ~/Advantech/GenAI-Studio/bin
./app-up

由於是第一次執行,GenAI Studio 需要較多的時間執行系統的初始化工作,至多約 1 分鐘之後, 打開瀏覽器將網址指向安裝主機並搭配 3001 埠號來開啟 GenAI Studio 的頁面。

訊息

在 GenAI Studio v1.1.0 版本之前,其安裝路徑為 $HOME/GenAI-Studio