實際嘗試使用DeepSeek API

突然造成關注的 DeepSeek

DeepSeek 是一家於2023年由中國私募基金「幻方量化」創立的人工智慧公司,專注於AI技術。算是少數專注於基底模型訓練的廠商。幻方量化這家公司的負責人很年輕,1985年生,才40歲,同時也是DeepSeek的創辦人。但他為何從投資領域跑來訓練AI模型? 如果對這家企業有興趣,可以參考這裡。)

從沒沒無聞到震動市場,主要是因為其最新成果 DeepSeek-V3 與 R1模型,採用「混合專家架構」設計,僅在需要時啟動部分「腦細胞」,以便於降低運算資源消耗。據傳,由於訓練該模型僅使用 2048 部 NVIDIA H800 GPU,耗時約兩個月,以極低的成本(約為560萬美元)完成訓練,但 R1 模型在數學和推理基準測試中表現出色,號稱與OpenAI的o1模型效果相當。

據聞 Meta 和 OpenAI 對 DeepSeek 的快速崛起感到緊張,主要原因在於 DeepSeek 在各種壓力底下,居然可以更低的成本,基於過去開源的基礎完成更高階的成果展現。Meta的首席AI科學家Yann LeCun指出,DeepSeek的成功證明了開源模型(例如他們家的llama)正在超越專有模型(像是 GPT or Gemini),強調了開放研究與開源的重要性。 總之這些進展引起了矽谷的關注,甚至有Meta員工匿名表示,內部出現了恐慌情緒,工程師們正在連夜嘗試複製DeepSeek的技術。

可預見的未來,模型(不管是雲端或地端)的可選擇性將會大增,在使用的成本上也有機會日漸低廉。因此,我們就來看看 DeepSeek API 的使用。

使用 DeepSeek API

DeepSeek 也有提供雲端版本的API,要使用 DeepSeek 的 API,您需要先申請 API 金鑰(以信用卡或PayPal付費),位於這裡:

申請後,您可以透過發送 HTTP POST 請求與 DeepSeek 的模型進行互動。以下是使用 cURL 的範例:

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <DeepSeek API Key>" \
  -d '{
        "model": "deepseek-chat",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "stream": false
      }'

你會發現除了 API Endpoint 與 model 之外,其它與 OpenAI API呼叫幾乎完全相同。

底下是使用postman呼叫deepseek-chat model的例子:
圖片

實際嘗試,不管是基本的API呼叫,或是搭配 Semantic Kernel 框架運作都是可以的。
但由於初始訓練成本就低,在API費用(成本)上有著一定程度的競爭力。

對標 OpenAI o1 的 模型 – R1

圖片
上圖是採用 R1 模型在具有思維鍊的狀況下呼叫API回覆問題的方式,只需要將 model 從 deepseek-chat 改為 deepseek-reasoner 即可。

而對標於 4o 的 V3 模型,除了呼叫方式完全相同外,也支援 JSON-Mode 和 Function Calling 等功能。

如果有在使用 Dify 的AI平台開發,你會發現上面也有直接支援:
圖片

總的來說,透過API使用 V3 與 R1 大致上你可以預期與 OpenAI API 達到類似的輸出結果,目前不管是速度還是正確性,大約都屬於可以接受的範圍。但你知道的,使用時依舊有些 政治正確與否 的問題需要你自己注意。

由於DeepSeek R1 完全開源,允許免費的商業和學術使用,因此未來在開發 AI Agent時,針對於大語言模型的選擇,應該又會多了另一個選項,有興趣的朋友不妨試試看。

留言

這個網誌中的熱門文章

原來使用 .net 寫個 MCP Server 如此簡單

使用LM Studio輕鬆在本地端以API呼叫大語言模型(LLM)

開啟 teams 中的『會議轉錄(謄寫)』與Copilot會議記錄、摘要功能

原來使用 .net 寫個 MCP Client 也如此簡單

在VS Code當中使用 Azure DevOps MCP Server