AI接管人類工作為時尚早!實驗證致命弱點 人機協作才是未來趨勢
當全球科技公司高喊「AI將接管人類工作」的口號時,卡內基美隆大學(Carnegie Mellon University)卻用一場實驗潑了這個論述一大盆冷水。
研究團隊打造一間虛構軟體公司「代理公司」(暫譯,原文為TheAgentCompany),由Google、OpenAI、Anthropic和Meta等公司開發的AI模型模擬員工角色執行任務,範圍涵蓋軟體開發、財務分析,到撰寫人事評估報告等多項日常工作情境。
然而結果令人錯愕。表現最好的AI模型——Anthropic的Claude 3.5 Sonnet,也僅完成24%的任務,其餘模型如Google Gemini 2.0 Flash、亞馬遜(Amazon)Nova Pro v1表現更慘,不僅成功率低,還平均需耗費數十個操作步驟才能完成一項任務,如Nova Pro v1,在整體任務中僅有1.7%成功率。
研究發現,AI模型在處理複雜任務時,普遍缺乏「常識判斷力」、社交能力與工具應用技巧。舉例來說,一位「新進員工」在執行網頁開發專案時,無法關閉遮蔽檔案的彈出式視窗,轉而請求人資機器人協助,卻未能真正解決問題,最終放棄執行任務。此外,當AI被要求將資料複製到Word文件中時,它將文件誤認為純文字檔案,導致無法正確輸入結果。
更值得注意的是,部分AI還出現「自欺」行為。例如在無法找到同事協助時,有AI模型竟自創新用戶名稱來假裝與目標對象互動,顯示其對於工作流程理解極為薄弱。這類「捷徑思維」不僅未解決問題,也突顯AI缺乏正確判斷與完整走完任務流程的能力。
研究團隊指出,AI模型在軟體開發任務中的表現雖然優異,主因是網路上充斥大量公開的程式碼與技術資源,為模型訓練提供充足資料;反觀行政管理、財務分析等職務,資料大多屬企業內部機密,訓練資料相對稀缺,使得AI在這類任務上的表現顯得特別疲弱。
此外,AI模型雖能完成簡單且目標明確的任務,但在面對多步驟與變化性高的情境時,容易出錯或中斷任務。像是需要觀看影片、選出最適合辦公室空間的任務,因涉及影像辨識、情境判讀與多變參數,讓多數AI模型表現極差。
有研究者指出,目前主流的語言模型AI主要依賴「預測下一個詞」的方式運作,並非具備真正的理解與學習能力。因此,當面對需解釋文意、跨部門溝通、整合流程的實際工作情境時,AI容易陷入「假裝理解」或「假裝完成」的陷阱,進而導致錯誤判斷甚至產出毫無價值的結果。
正如參與實驗的麻省理工學院(MIT)學者史蒂芬·卡斯佩(Stephen Casper)所言:「要AI當個溫和的聊天對象很簡單,但要讓它理解複雜工作任務,難度高得多。」
儘管這次實驗證實AI難以完全勝任人類工作,但並不代表它一無是處。像嬌生(Johnson & Johnson)就透過AI代理(AI Agents)協助自動化藥物製程,成功縮短50%的生產時間;穆迪投資者服務公司(Moody’s)也正訓練 AI系統分析小企業財務報表,以期提高效率。不同的是,這些應用強調的是「輔助人類」、「協同作業」,而非取而代之。
同樣地,像LG集團的AI實驗室與約翰霍普金斯大學(The Johns Hopkins University)所開發的AI系統,也是在研究、數據查核等過程中提供支援,人類的回饋與修正仍扮演重要角色。
回顧OpenAI 2年前一項研究曾預言財務分析師、行政人員與研究員最可能被AI取代,然而,這項預測在實際應用中未能完全兌現,實驗顯示AI在這些工作上的表現仍存在明顯不足。就連機器翻譯發展多年,也未導致譯者消失,美國翻譯與口譯從業人員在2020年至2023年間仍成長了11%。
卡內基美隆大學教授格雷厄姆·紐比格(Graham Neubig)指出:「效率提升反而擴大了市場需求,未來其他產業可能也會走向相同的道路。」
相關閱讀:ai是工具還是隊友-工作快9成-成本省9成-卻藏1致命缺點AI代理的工作成果品質明顯低於人類,更糟糕的是,AI代理會捏造數據得出看似合理的結果,來掩蓋自己無法解析某份文件或數據的事實(數位時代提供)無論接手什麼任務,AI代理都是透過寫程式處理,AI代理在研究中透過寫程式解決93.8%的任務(unsplash)並非所有任務都適合用程式解決,例如設計或行政相關的非結構化工作,AI代理仍會一味地利用程式去解決,容易在工作成果中產生重大缺陷(unsplash@steve-johnson)研究人員認為人類與AI代理在執行任務上各有優缺,人們應該依照彼此的優勢進行分工,人類負責處理涉及視覺處理或專業判斷的工作,並將適合程式處理的任務交給AI代理,發揮它快速、低成本的優勢(unsplash@andy-kelly)研究中形容,AI就像是個萬事只會用鎚子解決的工程師,而人類是懂得運用多種不同工具的工匠,要達到高效且高品質的成果,需要結合兩者優點分工合作(unsplash@igor-omilaev)讓工程師(AI)處理可量化、程式化的部分,並由工匠(人類)處理其餘部分,才能得到比AI代理或人類單打獨鬥更好的結果(unsplash@owen-beard)這份研究希望透過直接對比人類與AI代理的工作流程,深入了解AI代理的優勢及限制,為人類與AI協作的未來提供指引(unsplash@maximalfocus)【本文獲
「經理人」授權轉載。】