ChatGPT開源模型本地部署安裝教程來啦!模型能力等于 OpenAI o4-mini
開源大模型正在加速“去中心化”的AI革命。本地部署不再是高門檻操作,而是每位開發(fā)者都能掌握的能力。本文將帶你快速上手,體驗 o4-mini 同級模型的強大表現。
歡迎來到gpt-oss系列,這是OpenAI推出的開放權重模型,專為強大的推理、代理任務和多功能開發(fā)者用例而設計。
OpenAI發(fā)布了兩種開放模型:
gpt-oss-120b— 適用于生產、通用和高推理用例,可在一塊H100 GPU上運行(1170 億參數,其中 51 億為活躍參數)。
gpt-oss-20b— 適用于低延遲、本地或專用用例(210 億參數,其中 36 億為活躍參數)。
這兩個模型均使用我們的harmony響應格式進行訓練,并且只能與該格式一起使用,否則將無法正常工作。
下面以gpt-oss-120b模型為例講解本地部署教程。如需了解較小的模型,請將參數換成gpt-oss-20b即可。
亮點
- 寬松的Apache2.0許可證:可自由構建,不受反向許可證限制或專利風險,非常適合實驗、定制和商業(yè)部署。
- 可配置的推理工作量:根據您的具體用例和延遲需求,輕松調整推理工作量(低、中、高)。
- 完整的思維鏈:可以完全訪問模型的推理過程,從而更輕松地進行調試并提高對輸出的信任度。不適合向最終用戶展示。
- 可微調:通過參數微調,將模型完全定制到您的特定用例。
- 代理功能:利用模型的原生功能進行函數調用、網頁瀏覽、Python代碼執(zhí)行和結構化輸出。
- 原生MXFP4量化:模型采用原生MXFP4精度訓練MoE層,使得gpt-oss-120b可以在單個H100GPU上運行,而gpt-oss-20b模型可以在16GB內存中運行。
推理示例
Transformers
您可以使用Transformers運行gpt-oss-120b和gpt-oss-20b。如果您使用Transformers聊天模板,它會自動應用harmony響應格式。如果您直接使用model.generate,則需要使用聊天模板手動應用harmony格式,或使用我們的openai-harmony軟件包。
首先,安裝必要的依賴項來設置您的環(huán)境:
pip install -U transformers kernels torch
設置完成后,您可以通過運行以下代碼片段來運行模型:
from transformers import pipelineimport torchmodel_id = “openai/gpt-oss-120b”pipe = pipeline( “text-generation”, model=model_id, torch_dtype=”auto”, device_map=”auto”,)messages = [ {“role”: “user”, “content”: “Explain quantum mechanics clearly and concisely.”},]outputs = pipe( messages, max_new_tokens=256,)print(outputs[0][“generated_text”][-1])
另外,您還可以通過Transformers Serve運行模型,以啟動一個與 OpenAI 兼容的網絡服務器:
transformers servetransformers chat localhost:8000 –model-name-or-path openai/gpt-oss-120b
了解更多關于如何將gpt-oss與Transformers配合使用的信息。
vLLM
vLLM推薦使用uv來管理 Python 依賴項。您可以使用vLLM啟動一個與 OpenAI 兼容的網絡服務器。以下命令將自動下載模型并啟動服務器。
uv pip install –pre vllm==0.10.1+gptoss –extra-index-url https://wheels.vllm.ai/gpt-oss/ –extra-index-url https://download.pytorch.org/whl/nightly/cu128 –index-strategy unsafe-best-matchvllm serve openai/gpt-oss-120b
了解更多關于如何將gpt-oss與vLLM配合使用的信息。
PyTorch / Triton
要了解如何將此模型與PyTorch和Triton配合使用,請查閱gpt-oss倉庫中的參考實現。
Ollama
如果您嘗試在消費級硬件上運行gpt-oss,您可以在安裝Ollama后運行以下命令:
# gpt-oss-120bollama pull gpt-oss:120bollama run gpt-oss:120b
了解更多關于如何將gpt-oss與Ollama配合使用的信息。
LM Studio
如果您正在使用LM Studio,您可以使用以下命令進行下載:
# gpt-oss-120blms get openai/gpt-oss-120b
請查閱我們的awesome list,以獲取更廣泛的gpt-oss資源和推理合作伙伴集合。
下載模型
您可以直接從Hugging Face CLI從Hugging Face Hub下載模型權重:
gpt-oss-120bhuggingface-cli download openai/gpt-oss-120b –include “original/*” –local-dir gpt-oss-120b/`pip install gpt-osspython -m gpt_oss.chat model/
推理級別
您可以根據您的任務需求調整推理級別:
- 低:快速響應,適用于一般對話。
- 中:速度和細節(jié)之間取得平衡。
- 高:深入而詳細的分析。推理級別可以在系統(tǒng)提示中設置,例如:“Reasoning:high”。
工具使用
gpt-oss模型非常適合:
- 網頁瀏覽(使用內置瀏覽工具)。
- 使用定義的模式進行函數調用。
- 代理操作,例如瀏覽器任務。
微調
兩種gpt-oss模型都可以針對各種專用用例進行微調。
較大的gpt-oss-120b模型可以在單個H100節(jié)點上進行微調,而較小的gpt-oss-20b甚至可以在消費級硬件上進行微調。
作者:喬伊 公眾號:次元喬伊
本文由 @喬伊 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!