出一張嘴寫程式的時代真的會來嗎?

古時候,有個字叫做人機介面,也就是人和機器溝通的通道。一直以來,人和機器的溝通是不直接的。

操作電腦,你得透過滑鼠、鍵盤、或觸控螢幕,而不是像你跟身邊其他人溝通時,可以透過對話和語言來進行。

這是一種阻礙,即便由來已久,即便你已經習慣,這仍是一種阻礙。
然而阻礙帶來了限制,但也帶來了機會。

所以開始有程式設計師這個行業,程式設計師把人們的需要,翻譯成電腦可以看得懂的程式碼,操控電腦來進行人們想實現的功能。自從電腦誕生以來,這個活兒就沒消失過。

上週,我去集英信誠和百敬老師聊天(其實是錄影),從ChatGPT談到哲學和宗教,中間有一個話題,我們談到了人機介面即將改變。在過去,開發人員必須得把輸入(input)變成結構化的資料,例如表單、欄位、這樣電腦才有機會能夠理解,從而進行處理和運算。

先不管ChatGPT輸出的正確性如何(如果你上完我們的課就知道,現階段根本不該期待一個生成式AI所產出的東西是正確的,它只是依照格式產生看起來像樣的內容,而非正確的內容,內容的正確性得靠你的加工),但這一波ChatGPT會造成轟動的潛在原因是,它似乎聽得懂你說的話,而這才是重點

Chat Bot幾年前早過炒過一波了,結果如何? 成功了嗎?
別問我,你自己說說你對現在哪一家銀行的AI助理或是聊天機器人滿意的? 幾乎沒有。而過去Siri能夠回應你的,也總是那麼幾個簡單的指令,複雜一點的對談,整個就不行了。

但這一波ChatGPT帶來的第一個驚訝,是你發現,它似乎還真聽得懂你說的話。
沒錯,ChatGPT從去年11月底問世到今天才半年,你跟它的溝通大致上不會讓你失望,對吧?

也就是說,ChatGPT對於自然語言的理解(NLU),好過市面上可以見到的大部分ChatBot。它能夠清楚地抓到你的intent和entities,並且對前後文的理解有很高的掌握度。

這也是我上周六在彰化小聚的時候,分享的重點之一。
ChatGPT對於ChatBot最大的價值是,這是有史以來第一次,NLU開始讓社會大眾滿意(相當高比例的可以接受),並且API成本還算是負擔的起。

ChatBot開發人員,終於有機會突破過去的制約,讓你的ChatBot有機會真的理解用戶在說些什麼(至少讓用戶這樣覺得),而且是透過自然語言,不用再去管傳統的表單輸入或結構化資料輸入了,這是人機介面上的一個突破。

知道用戶說的是什麼之後,接著就是與企業內部資訊系統做整合,這時,開發人員可以輕易地透過API,依照用戶的口語命令,查找或分析資料、請假或是建立表單、操控資訊系統、建立試算表、產生圖表、文件、投影片,甚至最後把資料摘要輸出給用戶(有必要時還可以再用ChatGPT的API來潤飾一下,讓輸出更像是人話。

我們在科幻片中看到的,人類透過自然語言命令電腦工作的場景,已經不會太遠了。

現在的GitHub Copilot、Office Copilot,說不定將會成為一個時代的里程碑,傳統的人機介面輸入方式,過去這幾十年間並不是沒有被挑戰過,從鍵盤、滑鼠、觸控螢幕,手勢操作…都曾經帶來機會和改變。而如今,真正的語音操控時代是否會來臨?

我充滿期待。

留言

這個網誌中的熱門文章

使用LM Studio輕鬆在本地端以API呼叫大語言模型(LLM)

VS Code的字體大小

使用 Dify 建立企業請假機器人

使用 Dify 串接 LINE Bot

使用 Dify API 快速建立一個包含前後文記憶的對談機器人