安裝
要安裝 GenAI Studio 之前,請先準備好 必要條件 中所列的硬體配置並安裝好作業系統,然後依序進行下列軟體的安裝。
安裝 NVIDIA GPU 驅動程式
-
打開終端機,執行以下指令安裝 NVIDIA CPU 驅動程式。
sudo apt update
sudo apt install nvidia-driver-580-open -
重新開機。
sudo reboot -
驗證安裝結果。
nvidia-smi此時的終端機視窗中應會輸出有關 NVIDIA GPU 的資訊 (看起來資訊像下圖所示,但內容不同)。

安裝 CUDA
在終端機中,執行以下指令安裝 CUDA 13.0。
wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-13-0
AI SSD 設定
由於全參數微調的功能依賴 AI SSD 的硬體配置,如果想執行該功能則 AI SSD 的配置是不可或缺的。 至於不想或不需該功能的使用環境,請跳過此段落。
AI SSD 的配置取決於主機上有幾顆 AI SSD 可使用。當主機內有超過一顆 AI SSD 時,必須以 LVM 的方式進行配置;但如果只有一顆,則只要以如同一般磁碟的方式進行配置即可。
多顆 AI SSD 設定
-
安裝 LVM 套件
sudo apt update
sudo apt install lvm2 xfsprogs -
確認 AI SSD 的挂載路徑
lshw -class disk -class storage | grep -E 'ai100|logical name|version: EIFZ'
lsblk | grep nvme訊息確認 AI SSD 的設備名稱是否為
nvme0n1和nvme1n1等。如果不是,請根據實際環境對後續步驟中的相關命令進行必要修改。 -
清除磁碟(以防萬一)
sudo wipefs -a /dev/nvme0n1 /dev/nvme1n1 -
建立 LVM
sudo pvcreate /dev/nvme0n1 /dev/nvme1n1
sudo vgcreate ai /dev/nvme0n1 /dev/nvme1n1
sudo lvcreate --type striped -i 2 -I 128k -l 100%FREE -n ai ai -
格式化 LVM
sudo mkfs.xfs -f -s size=4k -m crc=0 /dev/ai/ai -f -
掛載 LVM
sudo mkdir -p /mnt/nvme0
sudo mount /dev/ai/ai /mnt/nvme0
sudo chown -R $USER:$USER /mnt/nvme0請注意上述命令中的
/mnt/nvme0是固定的掛載點,GenAI Studio 根據此掛載點來監控 AI SSD 的使用情形。 -
使掛載持久化
echo '/dev/ai/ai /mnt/nvme0 xfs defaults,nofail 0 0' | sudo tee -a /etc/fstab訊息要移除永久掛載設定,請執行:
sudo sed -i '/\/dev\/ai\/ai/d' /etc/fstab
如果 LVM 設定成功,執行 lsblk 指令時應會看到類似下圖的訊息。

如果您需要解除 LVM 的設定,請執行以下指令:
sudo umount /mnt/nvme0
sudo lvremove -y ai
sudo pvremove -y /dev/nvme0n1 /dev/nvme1n1 --force --force
一顆 AI SSD 設定
如果主機上只有一顆 AI SSD 的配置,設定上相對簡單許多,請根據以下步驟進行設定。
-
格式化 AI SSD
sudo mkfs -t ext4 /dev/nvme0n1 -
掛載 AI AAD
sudo mkdir -p /mnt/nvme0
sudo mount /dev/nvme0n1 /mnt/nvme0
sudo chown -R $USER:$USER /mnt/nvme0請注意上述命令中的
/mnt/nvme0是固定的掛載點,GenAI Studio 根據此掛載點來監控 AI SSD 的使用情形。 -
使掛載持久化
echo '/dev/nvme0n1 /mnt/nvme0 ext4 defaults,nofail 0 0' | sudo tee -a /etc/fstab訊息要移除永久掛載設定,請執行:
sudo sed -i '/\/dev\/nvme0n1/d' /etc/fstab
設定 swap file
啟用 swap file 的機制可以為 DRAM 提供額外的記憶體。如果 GPU 記憶體仍然充足,這可以擴展可以使用的批次大小範圍。請依照以下步驟進行設定。
-
建立 swap file
sudo dd if=/dev/zero of=/mnt/nvme0/swapfile bs=1M count=256k -
修改權限
sudo chmod 0600 /mnt/nvme0/swapfile -
進行初始化
sudo mkswap /mnt/nvme0/swapfile -
啟用 swap file
sudo swapon /mnt/nvme0/swapfile -
永久化 swap file
echo '/mnt/nvme0/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
如果要移除 swap file,請確保按照以下步驟操作以防止意外的系統問題。
sudo swapoff /mnt/nvme0/swapfile
sudo sed -i '/\/mnt\/nvme0\/swapfile/d' /etc/fstab
sudo rm /mnt/nvme0/swapfile
安裝 Docker
-
執行以下指令卸載所有可能造成衝突的套件:
for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; doneapt-get有可能會報告您沒有安裝這些套件。 -
設置 Docker 的 apt 儲存庫。
# 新增 Docker 的官方 GPG 密鑰:
sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
# 將儲存庫新增到 apt 來源:
echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update -
安裝 Docker 相關套件。
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -
將用戶新增到
docker群組。sudo usermod -aG docker "$(id -un)" -
驗證安裝是否成功。
docker run hello-world此指令會下載測試映像並在容器中執行。當容器執行時,它會印出確認訊息並退出。
安裝 NVIDIA Container Toolkit
-
配置 apt 儲存庫。
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list -
從儲存庫更新套件清單。
sudo apt-get update -
安裝 NVIDIA Container Toolkit 套件。
sudo apt-get install -y nvidia-container-toolkit -
使用
nvidia-ctk指令設定容器的執行環境sudo nvidia-ctk runtime configure --runtime=docker -
重新啟動 Docker 服務
sudo systemctl restart docker
安裝 GenAI Studio
GenAI Studio 提供安裝程式,讓使用者可以輕鬆安裝。通常,您需要做的就是下載它,然後執行它。
開始安裝之前請先確保磁碟空間充足,如 儲存空間需求 內容所提, 為確保 GenAI Studio 順利安裝,我們建議至少有 186 GiB (約 200GB) 的可用磁碟空間。
請從 這裡
下載安裝檔,檔案的名稱遵循 GenAI-Studio_<版本>_setup.run 格式。取得安裝程式之後,
先將其複製到要安裝的主機上,然後在安裝程式所在的目錄下執行該檔案,並在執行安裝的過程中回答相關問題,
安裝程式便會將 GenAI Studio 安裝至使用者家目錄 ($HOME) 底下的 Advantech/GenAI-Studio
目錄,一切都是那麼的簡單與直覺。
- 如果執行安裝程式時發生 command not found 的錯誤,請先試著在安裝程式的目錄中以
./GenAI-Studio_<版本>_setup.run方式執行安裝。 - 如果執行安裝程式時發生 Permission denied 的錯誤,請在安裝程式所在的目錄中先試著執行
chmod 0755 GenAI-Studio_<版本>_setup.run以賦予該檔案可執行的權限後再執行看看。
啟動 GenAI Studio
如果一切順利,GenAI Studio 應該安裝在 $HOME/Advantech/GenAI-Studio 目錄下。
執行以下命令來啟動 GenAI Studio。
cd ~/Advantech/GenAI-Studio/bin
./app-up
由於是第一次執行,GenAI Studio 需要較多的時間執行系統的初始化工作,至多約 1 分鐘之後,
打開瀏覽器將網址指向安裝主機並搭配 3001 埠號來開啟 GenAI Studio 的頁面。
在 GenAI Studio v1.1.0 版本之前,其安裝路徑為 $HOME/GenAI-Studio。