Genspark 超越Manus:2025通用型AI Agent時代來臨

Genspark Super Agent:AI界的超級賽亞人?揭秘其多模型整合、可視化思考絕技,超越Manus!探索通用AI代理人的企業應用潛力。

本文重點:

  • Genspark 推出「超級代理人」(Super Agent),展現卓越的自主任務處理能力。
  • Super Agent採用獨特的「混合代理」(Mixture-of-Agents)架構,整合九個大型語言模型(LLMs)與超過 80 種工具,實現高效且精確的任務執行。
  • 相較於其他 AI Agent,Genspark 更擅長直接 API 整合,大幅提升數據檢索速度與準確性,並支援即時語音互動功能。
  • 超級代理人在旅遊規劃、多媒體內容生成、研究報告撰寫等領域展現強大能力,為企業自動化應用開啟新篇章。

AI Agent 今年真的是大爆發,今天要分享的是一個通用型AI Agent ─  Genspark ,這款通用型AI Agent將如何重塑企業運作模式?該公司說的「Super Agent」到底能為我們做什麼?讓我們一起來深入了解吧!

Genspark Super Agent是什麼?

最近,矽谷 Palo Alto 的新創公司 Genspark,推出「超級代理人」(Super Agent),這個系統不僅速度快,還能自主處理各種複雜的真實世界任務,最酷的是,它竟然可以用超逼真的聲音打電話幫你訂餐廳! 1,不過截至撰稿前,僅支援撥打至美國(+1)與日本(+81)。

Genspark 網頁

然而Genspark所推出的通用AI Agent產品並非新事,上個月Manus 也推出了類似的產品,同樣備受矚目,這類通用型AI Agent的強項在於協調各種工具和數據,幫你完成像是訂機票、篩選履歷、分析股票等等的雲端任務。重點是,這些任務幾乎不需要人工插手,就能自己搞定,這已經比現在市面上大多數的 AI Agent厲害很多了。

不過,Genspark Agent主打是站在三個巨人肩膀上的產品。第一,它背後有九個不同的 LLM (大型語言模型) 聯手合作;第二,它配備了超過 80 種工具;第三,它擁有 10 多個獨家數據集。這些資源通通整合在一起,讓超級代理人可以處理超複雜的工作流程,並且直接給你完整的結果 2

Genspark Agent還有一個很酷的功能,它可以把自己的思考過程視覺化。你可以清楚看到它怎麼一步一步推理、用了哪些工具、為什麼要用這些工具。這種「透明化」的思考過程,讓使用者感覺它更像是一個合作夥伴,而不是一個黑箱作業的機器。這或許也能啟發企業開發者,在開發自己的 AI 系統時,加入類似的「可追蹤推理路徑」,讓 AI 應用程式更透明、更值得信任 。以下是我請他繪製圖片時,模型處理過程中的「反思」邏輯。

Genspark 到底怎麼辦到的?

Genspark 的厲害之處,在於它解決了 AI 工程界一直以來的難題:大規模的工具協調。

有在開發AI Agent的朋友應該知道,要協調大量工具,包含使用API,很容易卡住或出現問題,因為開發過程多依賴提示工程(prompt engineering或rigid fine-tuning,然而Genspark,在這方面表現得特別出色。他們可能是透過「模型路由」和「基於檢索的選擇」等技術,根據不同的任務,動態選擇最適合的工具和子模型 。

另一個關鍵因素,可能與最近被火熱討論的「模型上下文協議」(Model Context Protocol, MCP)有關。這是一個比較少人知道,但越來越多人採用的標準。MCP 可以讓 AI Agent在不同步驟之間,攜帶更豐富的工具和記憶體上下文,之前我們也有寫過一篇文章討論過。

跟 Manus 比起來呢?

Genspark 不是第一個通用 AI Agent的新創公司。當初Manus 推出時也引起了很大的轟動,包含可以自主操作瀏覽器、程式碼編輯器、試算表等等工具,來完成多步驟任務;當初之所以驚艷各方,,主要在於它有效整合各類開源套件,各式API以及 Anthropic 的 Claude 等 LLM,在GAIA 基準測試中的表現,竟然比 OpenAI 還要好。 (補充:GAIA 基準測試,是一個專門評估 AI Agent真實世界任務自動化能力的綜合測試)

不過,Genspark 宣稱他們已經超越了 Manus,在 GAIA 測試中拿到了 87.8% 的分數,比 Manus 報告的 86% 還要高。而且,Genspark 的架構還包含了獨家套件和更廣泛的工具覆蓋範圍。

大型科技公司:還在觀望?

有趣的是,美國那些大型 AI 公司,對於通用 AI Agent這塊,態度反而比較保守。

像是微軟,他們主要的 AI 代理產品 Copilot Studio,就比較專注在垂直領域的應用,像是跟 Excel、Outlook 這些企業軟體緊密結合。OpenAI 雖然有推出 Agent SDK,提供開發工具,但他們自己並沒有推出全功能的通用 AI Agent,比較接近一點的產品可能是Operator。亞馬遜最近發布的 Nova Act,則是比較偏向開發者,透過 SDK 提供原子級的瀏覽器操作功能。

這些大型科技公司的方法,比較模組化、安全,而且很明顯是針對企業應用。但跟 Genspark 展示出來的企圖心和自主性相比,就顯得保守許多。

其中一個原因,可能是為了避險。你想想看,如果 Google 或微軟的通用 AI Agent,不小心訂錯了機票,或是在語音通話中講了什麼違背道德、傷風敗俗的話,那可是會嚴重影響公司聲譽的。而且,這些大公司也被綁在自己的模型生態系統裡,比較難像新創公司一樣,可以自由地混搭各種 LLM,行動也更快速靈活。

企業應該要注意什麼?

目前Genspark看似2C的產品,大部分企業可能還不需要通用AI Agent來幫忙訂晚餐或是製作宣傳影音影片,但是,企業很快就會需要能夠處理特定領域、「多步驟任務」的 AI Agent,例如自動整理合規數據、協調客戶 onboarding 流程、或是跨多種格式生成內容等等。

從這個角度來看,Genspark 的技術就變得更有意義了。通用 AI Agent如果能越來越流暢、越來越自主,而且能整合語音、記憶體和外部工具,那它們就很有可能開始跟傳統的 SaaS 應用程式和 RPA 平台串接。

而且,通用 AI Agent使用的基礎設施更輕量。例如,Genspark 聲稱他們的代理人「超級容易操作」,行銷人員、老師、人資、設計師、分析師等等,通通都能輕鬆上手,幾乎不需要什麼設定。

CoL.ai 觀點

從 Manus 到 Genspark 的演進,凸顯了通用型 AI Agent 的巨大潛力。隨著 AI Agent 技術的發展,許多職業被取代的可能性已日益明確。通用型 AI Agent 的獨特優勢在於其整合多領域專業知識的能力,這無疑將成為未來「知識工作者」必備的核心競爭力。

作為消費者或使用者,我們無需過度憂慮這些工具的快速迭代。真正應該關注的是那些技術門檻相對較低且容易被通用型 AI Agent 取代的單一任務 Agent 軟體。若通用型 AI Agent 成功打入消費市場,以搜尋引擎為核心業務的企業可能面臨重大衝擊與轉型壓力。

參考文獻

  1. Genspark’s Super Agent ups the ante in the general AI 
  2. Meet GenSpark Super Agent: The All-in-One AI
返回頂端