ChatGPT開源模型本地部署安裝教程來啦!模型能力等于 OpenAI o4-mini

0 評論 1095 瀏覽 1 收藏 7 分鐘

開源大模型正在加速“去中心化”的AI革命。本地部署不再是高門檻操作,而是每位開發(fā)者都能掌握的能力。本文將帶你快速上手,體驗 o4-mini 同級模型的強大表現。

歡迎來到gpt-oss系列,這是OpenAI推出的開放權重模型,專為強大的推理、代理任務和多功能開發(fā)者用例而設計。

OpenAI發(fā)布了兩種開放模型:

gpt-oss-120b— 適用于生產、通用和高推理用例,可在一塊H100 GPU上運行(1170 億參數,其中 51 億為活躍參數)。

gpt-oss-20b— 適用于低延遲、本地或專用用例(210 億參數,其中 36 億為活躍參數)。

這兩個模型均使用我們的harmony響應格式進行訓練,并且只能與該格式一起使用,否則將無法正常工作。

下面以gpt-oss-120b模型為例講解本地部署教程。如需了解較小的模型,請將參數換成gpt-oss-20b即可。

亮點

  • 寬松的Apache2.0許可證:可自由構建,不受反向許可證限制或專利風險,非常適合實驗、定制和商業(yè)部署。
  • 可配置的推理工作量:根據您的具體用例和延遲需求,輕松調整推理工作量(低、中、高)。
  • 完整的思維鏈:可以完全訪問模型的推理過程,從而更輕松地進行調試并提高對輸出的信任度。不適合向最終用戶展示。
  • 可微調:通過參數微調,將模型完全定制到您的特定用例。
  • 代理功能:利用模型的原生功能進行函數調用、網頁瀏覽、Python代碼執(zhí)行和結構化輸出。
  • 原生MXFP4量化:模型采用原生MXFP4精度訓練MoE層,使得gpt-oss-120b可以在單個H100GPU上運行,而gpt-oss-20b模型可以在16GB內存中運行。

推理示例

Transformers

您可以使用Transformers運行gpt-oss-120bgpt-oss-20b。如果您使用Transformers聊天模板,它會自動應用harmony響應格式。如果您直接使用model.generate,則需要使用聊天模板手動應用harmony格式,或使用我們的openai-harmony軟件包。

首先,安裝必要的依賴項來設置您的環(huán)境:

pip install -U transformers kernels torch

設置完成后,您可以通過運行以下代碼片段來運行模型:

from transformers import pipelineimport torchmodel_id = “openai/gpt-oss-120b”pipe = pipeline( “text-generation”, model=model_id, torch_dtype=”auto”, device_map=”auto”,)messages = [ {“role”: “user”, “content”: “Explain quantum mechanics clearly and concisely.”},]outputs = pipe( messages, max_new_tokens=256,)print(outputs[0][“generated_text”][-1])

另外,您還可以通過Transformers Serve運行模型,以啟動一個與 OpenAI 兼容的網絡服務器:

transformers servetransformers chat localhost:8000 –model-name-or-path openai/gpt-oss-120b

了解更多關于如何將gpt-ossTransformers配合使用的信息。

vLLM

vLLM推薦使用uv來管理 Python 依賴項。您可以使用vLLM啟動一個與 OpenAI 兼容的網絡服務器。以下命令將自動下載模型并啟動服務器。

uv pip install –pre vllm==0.10.1+gptoss –extra-index-url https://wheels.vllm.ai/gpt-oss/ –extra-index-url https://download.pytorch.org/whl/nightly/cu128 –index-strategy unsafe-best-matchvllm serve openai/gpt-oss-120b

了解更多關于如何將gpt-ossvLLM配合使用的信息。

PyTorch / Triton

要了解如何將此模型與PyTorchTriton配合使用,請查閱gpt-oss倉庫中的參考實現。

Ollama

如果您嘗試在消費級硬件上運行gpt-oss,您可以在安裝Ollama后運行以下命令:

# gpt-oss-120bollama pull gpt-oss:120bollama run gpt-oss:120b

了解更多關于如何將gpt-ossOllama配合使用的信息。

LM Studio

如果您正在使用LM Studio,您可以使用以下命令進行下載:

# gpt-oss-120blms get openai/gpt-oss-120b

請查閱我們的awesome list,以獲取更廣泛的gpt-oss資源和推理合作伙伴集合。

下載模型

您可以直接從Hugging Face CLIHugging Face Hub下載模型權重:

gpt-oss-120bhuggingface-cli download openai/gpt-oss-120b –include “original/*” –local-dir gpt-oss-120b/`pip install gpt-osspython -m gpt_oss.chat model/

推理級別

您可以根據您的任務需求調整推理級別:

  • :快速響應,適用于一般對話。
  • :速度和細節(jié)之間取得平衡。
  • :深入而詳細的分析。推理級別可以在系統(tǒng)提示中設置,例如:“Reasoning:high”。

工具使用

gpt-oss模型非常適合:

  • 網頁瀏覽(使用內置瀏覽工具)。
  • 使用定義的模式進行函數調用。
  • 代理操作,例如瀏覽器任務。

微調

兩種gpt-oss模型都可以針對各種專用用例進行微調。

較大的gpt-oss-120b模型可以在單個H100節(jié)點上進行微調,而較小的gpt-oss-20b甚至可以在消費級硬件上進行微調。

作者:喬伊 公眾號:次元喬伊

本文由 @喬伊 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!