實際嘗試使用DeepSeek API

突然造成關注的 DeepSeek

DeepSeek 是一家於2023年由中國私募基金「幻方量化」創立的人工智慧公司,專注於AI技術。算是少數專注於基底模型訓練的廠商。幻方量化這家公司的負責人很年輕,1985年生,才40歲,同時也是DeepSeek的創辦人。但他為何從投資領域跑來訓練AI模型? 如果對這家企業有興趣,可以參考這裡。)

從沒沒無聞到震動市場,主要是因為其最新成果 DeepSeek-V3 與 R1模型,採用「混合專家架構」設計,僅在需要時啟動部分「腦細胞」,以便於降低運算資源消耗。據傳,由於訓練該模型僅使用 2048 部 NVIDIA H800 GPU,耗時約兩個月,以極低的成本(約為560萬美元)完成訓練,但 R1 模型在數學和推理基準測試中表現出色,號稱與OpenAI的o1模型效果相當。

據聞 Meta 和 OpenAI 對 DeepSeek 的快速崛起感到緊張,主要原因在於 DeepSeek 在各種壓力底下,居然可以更低的成本,基於過去開源的基礎完成更高階的成果展現。Meta的首席AI科學家Yann LeCun指出,DeepSeek的成功證明了開源模型(例如他們家的llama)正在超越專有模型(像是 GPT or Gemini),強調了開放研究與開源的重要性。 總之這些進展引起了矽谷的關注,甚至有Meta員工匿名表示,內部出現了恐慌情緒,工程師們正在連夜嘗試複製DeepSeek的技術。

可預見的未來,模型(不管是雲端或地端)的可選擇性將會大增,在使用的成本上也有機會日漸低廉。因此,我們就來看看 DeepSeek API 的使用。

使用 DeepSeek API

DeepSeek 也有提供雲端版本的API,要使用 DeepSeek 的 API,您需要先申請 API 金鑰(以信用卡或PayPal付費),位於這裡:

申請後,您可以透過發送 HTTP POST 請求與 DeepSeek 的模型進行互動。以下是使用 cURL 的範例:

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <DeepSeek API Key>" \
  -d '{
        "model": "deepseek-chat",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "stream": false
      }'

你會發現除了 API Endpoint 與 model 之外,其它與 OpenAI API呼叫幾乎完全相同。

底下是使用postman呼叫deepseek-chat model的例子:
圖片

實際嘗試,不管是基本的API呼叫,或是搭配 Semantic Kernel 框架運作都是可以的。
但由於初始訓練成本就低,在API費用(成本)上有著一定程度的競爭力。

對標 OpenAI o1 的 模型 – R1

圖片
上圖是採用 R1 模型在具有思維鍊的狀況下呼叫API回覆問題的方式,只需要將 model 從 deepseek-chat 改為 deepseek-reasoner 即可。

而對標於 4o 的 V3 模型,除了呼叫方式完全相同外,也支援 JSON-Mode 和 Function Calling 等功能。

如果有在使用 Dify 的AI平台開發,你會發現上面也有直接支援:
圖片

總的來說,透過API使用 V3 與 R1 大致上你可以預期與 OpenAI API 達到類似的輸出結果,目前不管是速度還是正確性,大約都屬於可以接受的範圍。但你知道的,使用時依舊有些 政治正確與否 的問題需要你自己注意。

由於DeepSeek R1 完全開源,允許免費的商業和學術使用,因此未來在開發 AI Agent時,針對於大語言模型的選擇,應該又會多了另一個選項,有興趣的朋友不妨試試看。

留言

這個網誌中的熱門文章

使用LM Studio輕鬆在本地端以API呼叫大語言模型(LLM)

使用 Dify 以No Code方式建立記帳機器人

使用 Dify 建立企業請假機器人

在 Azure 上部署與使用 deepseek R1 model

VS Code的字體大小