資料集管理
有效的資料集準備對於機器學習模型的成功微調至關重要。高品質且結構良好的資料集確保模型能夠準確學習並有效泛化。 為了支援這一點,我們的系統提供了兩種靈活的資料集管理方法,既迎合了偏好手動準備的進階用戶,也滿足了尋求自動化解決方案的用戶。
資料集管理功能提供兩種處理資料集的方法:
方法 1:上傳預處理的資料集 JSON 檔案
用戶可以按指定格式準備自己的資料集 JSON 檔案並上傳。範例格式如下:
- QA 格式
- Harmony 格式
[
{
"instruct": "What processor is integrated into the AIR-100 system?",
"output": "The AIR-100 system is integrated with an Intel Atom Processor E3950."
}
]
[
{
"messages": [
{ "role": "system", "content": "reasoning language: French You are an AI chatbot with a lively and energetic personality." },
{ "role": "user", "content": "Can you show me the latest trends on Twitter right now?" },
{ "role": "assistant", "content": "Hey there! While I can't check Twitter (X) in real-time or access live data, I can share some..." }
]
}
]
- 上傳的 JSON 檔案必須遵循對應的格式,且檔案大小不應超過 10 MB。
- 上傳後,檔案將在對應格式的資料集清單中列出,顯示檔案名稱和大小。
- 用戶可以刪除任何已上傳的檔案。
- 目前支援的模型中,僅 GPT-OSS 系列使用的是 Harmony 格式的資料集,其餘模型皆使用 QA 格式的資料集。

方法 2:透過資料集生成器自動生成資料集
請注意
目前 GenAI Studio 的資料集生成器只能使用在 QA 格式的資料,Harmony 格式的資料集生成器會在後續版本中新增。
用戶可以上傳 PDF(.pdf)、Word (.docx)、純文字 (.txt) 或 Excel (.xlsx) 文件, 系統將從這些檔案自動生成指定數量的資料集。

- 上傳的檔案大小不得超過 10 MB。
- 用戶需要指定要生成的資料集數量,並點擊
開始來啟動程序。 - 如果檔案中的資料不足,可能會出現 資料集數量太小 的訊息。
- 上傳的文件將顯示在文件清單中,每個條目都可以編輯或刪除。
- 系統將顯示生成進度和狀態,如 用戶停止 或 已完成。
- 用戶可以點擊
文件清單中的個別條目來查看生成資料集的詳細內容並即時編輯。
- 點擊
生成資料集檔案允許用戶選擇多個文件並將它們合併為單個 JSON 檔案,可用於後續的微調。
這兩種方法為用戶提供了靈活性,無論他們偏好上傳完全準備好的 JSON 檔案或使用系統工具進行快速資料集生成,都能滿足不同的需求。