• 正文
    • 1.世界模型的概念基礎(chǔ)
    • 2.世界模型的歷史發(fā)展
    • 3.當(dāng)前著名世界模型
    • 4.世界模型為什么重要?
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

世界模型 World Model 101

06/16 09:27
221
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

隨著世界模型 World Model(WM)?在 AI 研究、特別是汽車和機器人等應(yīng)用領(lǐng)域日益受到關(guān)注,越來越多的人包括從業(yè)人員,投資者、AI 愛好者和 AI 科學(xué)家都開始競相討論和使用世界模型 (WM)這個詞。但是,世界模型 (WM)它真正含義、重要性以及它目前學(xué)術(shù)和行業(yè)應(yīng)用的發(fā)展階段確實鮮有能說明的。

所以,本文根據(jù)相關(guān)論文,專家信息總結(jié):

    世界模型的概念基礎(chǔ)
    世界模型歷史發(fā)展
    當(dāng)前著名的世界模型- 谷歌 Google DeepMind DreamerV3?- 谷歌 Google DeepMind Genie 2?- 英偉達 NVIDIA Cosmos 世界基礎(chǔ)模型?- Meta?V-JEPA 2
    結(jié)論:世界模型為什么重要?

希望給大家?guī)硪恍┬畔⒑蛦l(fā)。

1.世界模型的概念基礎(chǔ)

其實,人類的大腦并非處理世界中的每一個細(xì)微細(xì)節(jié)。相反,我們依賴過去經(jīng)驗形成的抽象表征——心智模型——來指導(dǎo)我們的決策。即使在事件發(fā)生之前,我們的大腦也會根據(jù)這些模型和先前的行為不斷預(yù)測結(jié)果。這也可以用卡尼曼的《思考快與慢》中的直覺快系統(tǒng)理解。

這正是人工智能中世界模型背后的概念。

Yann LeCun 周三在巴黎 Viva Tech 大會表示:“世界模型就像是現(xiàn)實的抽象數(shù)字孿生,人工智能可以參考它來理解世界并預(yù)測其行為的后果,因此它能夠規(guī)劃行動方案來完成給定的任務(wù)?!比斯ぶ悄茴I(lǐng)域的AI agent AI 代理也并非直接在現(xiàn)實世界中通過反復(fù)試驗進行學(xué)習(xí),而是使用“世界模型”(一種學(xué)習(xí)到的環(huán)境模擬)來想象和探索可能的動作序列。

通過內(nèi)部模擬這些動作,AI 能夠找到通往期望結(jié)果的路徑。這種方法具有顯著的優(yōu)勢。

首先,世界模型避免了所有可能的實際生活中的訓(xùn)練,從而大幅減少了所需的資源。更重要的是,它們使人工智能與人腦的實際運作方式更加契合——預(yù)測、設(shè)想場景并計算結(jié)果。

Yann LeCun 也曾表示,世界模型對于實現(xiàn)人類水平的人工智能至關(guān)重要,盡管完全發(fā)揮其潛力可能需要大約十年的時間。所以,現(xiàn)在,不少公司包括自動駕駛行業(yè)提出世界模型,但他們應(yīng)該都屬于早期的世界模型。當(dāng)前汽車和機器人行業(yè)用的世界模型可以用來做兩個任務(wù):

    仿真環(huán)境的場景生成,生成不同的Corner case或者good case,使自己大模型訓(xùn)練更完善。Wayve的GAIA,英偉達的Cosmos(下文會講到)都屬于此類。

    用世界模型進行規(guī)劃和控制,在模型預(yù)測控制回路中進行規(guī)劃,完成下游機器人操控任務(wù)。例如 Meta的?V-JEPA 2-AC(下文會講到),蔚來宣布的自動駕駛NWM,按照道理也歸于此類。

前者的場景生成,應(yīng)該在汽車和機器人行業(yè)開始廣泛應(yīng)用,后者可能還處于實驗室早期階段。

2.世界模型的歷史發(fā)展

雖然“世界模型”這一術(shù)語在過去幾年中逐漸流行,但其基本概念在早期的人工智能研究中就已經(jīng)有了。1990 年Richard S. Sutton 的 Dyna 算法,應(yīng)該是世界模型概念的早期起源。它是基于模型的強化學(xué)習(xí) model-based reinforcement learning(MBRL) 的一種基本方法,將模型學(xué)習(xí)與規(guī)劃和反應(yīng)相結(jié)合,因此使用 Dyna 算法的 Agent可以:

    嘗試一些行動并看看哪些有效(通過 RL 進行反復(fù)試驗)。隨著時間的推移,學(xué)習(xí)世界的模型并構(gòu)建它來預(yù)測接下來可能發(fā)生的事情(學(xué)習(xí))。使用這種心理模型在“頭腦”中嘗試一些事情,而不必在現(xiàn)實世界中真正去做(計劃)。如果發(fā)生了什么事情,就根據(jù)已經(jīng)學(xué)到的知識立即做出反應(yīng)——每次都無需停下來計劃(快速反應(yīng))。

2018 年的一項后續(xù)研究名為“規(guī)劃形狀對高維狀態(tài)空間中 Dyna 式規(guī)劃的影響”,在 Arcade Learning Environment(街機學(xué)習(xí)環(huán)境)中測試了 Dyna式模型。Arcade Learning Environment 是Atari 2600 游戲的集合,用于從原始像素圖像訓(xùn)練 AI 代理。該研究首次表明,學(xué)習(xí)模型可以幫助提高在?Atari游戲等高維輸入環(huán)境中的學(xué)習(xí)效率,并表明 Dyna 是一種可行的規(guī)劃方法。

一個重要的里程碑是David Ha 和 Jürgen Schmidhuber在2018 年發(fā)表的論文《世界模型》。他們構(gòu)建了一個能夠在簡單環(huán)境中實際運行的系統(tǒng)。他們訓(xùn)練了一個生成式循環(huán)神經(jīng)網(wǎng)絡(luò)recurrent neural network (RNN),以無監(jiān)督的方式對流行的強化學(xué)習(xí)環(huán)境進行建模,例如賽車游戲和 2D 第一人稱射擊類游戲。他們的世界模型學(xué)習(xí)了游戲畫面的壓縮空間表征以及游戲演變的時間動態(tài)。更準(zhǔn)確地說,這個系統(tǒng)由三部分組成:

    Vision視覺:變分自動編碼器 (VAE)將高維觀測值(像素圖像)壓縮為低維潛在表示。Memory記憶:混合密度循環(huán)網(wǎng)絡(luò) (MDN-RNN)根據(jù)當(dāng)前潛在狀態(tài)和代理的動作預(yù)測下一個潛在狀態(tài)。Controller控制器:獲取潛在狀態(tài)和 RNN 隱藏狀態(tài)并輸出動作。在最初的實現(xiàn)中,它是一個簡單的線性策略,采用進化策略進行訓(xùn)練,以最大化獎勵。

Ha 和 Schmidhuber 證明了策略(控制器)可以完全在學(xué)習(xí)模型的“夢境”中進行訓(xùn)練,然后成功遷移到真實的游戲環(huán)境中。這為構(gòu)建能夠像人類一樣做夢、計劃和行動的更智能的代理奠定了基礎(chǔ),并激發(fā)了人們對基于模型的方法的興趣。從那時起,很多事情都發(fā)生了變化。我們今天擁有什么?最新的世界模型是如何運作的?它們理解物理世界嗎?讓我們來探索一下當(dāng)代世界模型結(jié)構(gòu)。

總而言之,世界模型是一種生成式人工智能系統(tǒng),它從各種輸入數(shù)據(jù)中學(xué)習(xí)現(xiàn)實世界環(huán)境的內(nèi)部表征,包括其物理特性、空間動態(tài)特性和因果關(guān)系(至少是基本的因果關(guān)系)。它們利用這些學(xué)習(xí)到的表征來預(yù)測未來狀態(tài),在內(nèi)部模擬一系列動作,并支持復(fù)雜的規(guī)劃和決策,而無需持續(xù)進行現(xiàn)實世界的實驗。NVIDIA 強調(diào)了構(gòu)建世界模型的以下組件:

    Data curation數(shù)據(jù)管理:數(shù)據(jù)管理對于順利訓(xùn)練世界模型至關(guān)重要,尤其是在處理大型多模態(tài)數(shù)據(jù)集時。它包括過濾、注釋、分類以及刪除重復(fù)的圖像或視頻,以確保數(shù)據(jù)質(zhì)量。在視頻處理中,這首先要對片段進行分割和轉(zhuǎn)碼,然后應(yīng)用質(zhì)量過濾器。視覺語言模型會注釋關(guān)鍵元素,而視頻嵌入則有助于識別和刪除冗余內(nèi)容。
    Tokenization標(biāo)記化:將高維視覺數(shù)據(jù)分解為更小、更易于管理的單元,以加速學(xué)習(xí)。它減少了像素級冗余,并創(chuàng)建了緊湊的語義標(biāo)記,以實現(xiàn)高效的訓(xùn)練和推理。- 離散標(biāo)記化將視覺效果表示為整數(shù)。- 連續(xù)標(biāo)記化使用連續(xù)向量。
    Fine-tuning微調(diào):基于大型數(shù)據(jù)集訓(xùn)練的基礎(chǔ)模型可以針對特定的物理 AI 任務(wù)進行調(diào)整。開發(fā)者可以從頭構(gòu)建模型,也可以使用額外數(shù)據(jù)對預(yù)訓(xùn)練模型進行微調(diào)。微調(diào)使模型在機器人、自動化和其他實際用例中更加有效。-?Unsupervised fine-tuning無監(jiān)督微調(diào)使用未標(biāo)記的數(shù)據(jù)進行更廣泛的概括。-?Supervised fine-tuning監(jiān)督微調(diào)利用標(biāo)記數(shù)據(jù)來關(guān)注特定任務(wù),增強推理和模式識別。
    Reinforcement Learning (RL)強化學(xué)習(xí) (RL):它通過讓推理模型在互動中學(xué)習(xí),并根據(jù)動作獲得獎勵或懲罰來訓(xùn)練推理模型。這種方法有助于人工智能隨著時間的推移不斷調(diào)整、規(guī)劃和改進決策。強化學(xué)習(xí)對于需要在動態(tài)環(huán)境中具備復(fù)雜推理和響應(yīng)能力的機器人和自主系統(tǒng)尤其有用。

最近的一項綜合調(diào)查的論文“Advances and Challenges in Foundation Agents”總結(jié)了構(gòu)建人工智能世界模型的 4 種一般方法:

    Implicit models隱式模型:這類模型使用一個大型神經(jīng)網(wǎng)絡(luò)來預(yù)測未來結(jié)果,而無需區(qū)分世界的變化方式和觀察方式。這些框架允許智能體使用壓縮圖像和預(yù)測來“設(shè)想”未來的行動。這個應(yīng)該在自動駕駛機器人等 Physical AI領(lǐng)域應(yīng)用廣泛。
    Explicit models顯式模型:這些模型清晰地區(qū)分了世界的變化(狀態(tài)轉(zhuǎn)換)和智能體所見的內(nèi)容(觀察)。這使得系統(tǒng)更易于解釋,也更易于調(diào)試。
    Simulator-based models基于模擬器的模型:這些模型并非從零開始學(xué)習(xí),而是使用模擬器或真實環(huán)境來測試操作和結(jié)果。這種方法非常準(zhǔn)確,但速度慢且成本高昂。
    Hybrid and instruction-driven models混合模型和指令驅(qū)動模型:這些模型將學(xué)習(xí)到的模型與外部規(guī)則、手冊或語言模型相結(jié)合。這種神經(jīng)預(yù)測和基于規(guī)則的指導(dǎo)相結(jié)合的方式,使模型在新情況下更加靈活。

以上就是世界模型的一些概念性認(rèn)知,接下來我們來看看當(dāng)前世界模型的最新案例。

3.當(dāng)前著名世界模型

Google DeepMind 的夢想家或許最具影響力的一系列成果之一來自 Danijar Hafner 和 Google DeepMind 的同事,他們創(chuàng)建了 Dreamer 系列智能體。這款通用強化學(xué)習(xí)算法的最新版本(2025 年 4 月)DreamerV3可以使用相同的設(shè)置處理 150 多種不同的任務(wù),而無需針對每項任務(wù)進行調(diào)整。然而,最重要的是,它是第一個在 Minecraft 中從零開始收集鉆石的算法,無需任何人類示例的幫助,僅使用自身的“想象力”和默認(rèn)設(shè)置。這不僅是強化學(xué)習(xí)的成就,也是世界模型的成就。

DreamerV3學(xué)習(xí)世界模型,并利用它來想象接下來可能發(fā)生的情況,從而找出更好的行動方式。以下是該系統(tǒng)的具體工作原理:DreamerV3由3個部分組成:

    世界模型——獲取 Agent代理所看到的內(nèi)容,例如圖像或數(shù)字輸入,并使用循環(huán)神經(jīng)網(wǎng)絡(luò) ( RNN ),特別是循環(huán)狀態(tài)空間模型 (RSSM),將其壓縮為更簡單的潛在表征。這有助于模型保留過去事件的記憶,并更好地預(yù)測未來狀態(tài)。給定一個動作,該模型可以預(yù)測下一個狀態(tài)、預(yù)期獎勵以及該場景是否繼續(xù)。(注:與許多最近的 AI 架構(gòu)不同,DreamerV3不使用 Transformer,而是完全專注于 Recurrent models循環(huán)模型。)
    DreamerV3 在此介紹了幾項智能增強功能:-?KL divergence KL 散度衡量預(yù)測與現(xiàn)實的差異程度——就像一個“現(xiàn)實檢驗”。如果預(yù)測不準(zhǔn)確,模型就會進行相應(yīng)的調(diào)整。-?Free bits空閑位有助于防止模型過度修正細(xì)微的誤差??梢岳斫鉃椋骸叭绻呀?jīng)足夠好了,就不要再浪費精力去追求完美了?!??Symlog encoding Symlog 編碼將現(xiàn)實世界中的大量正負(fù)信號(例如獎勵和像素值)壓縮為可管理的數(shù)字范圍,幫助系統(tǒng)穩(wěn)定學(xué)習(xí)。-?Two-hot encoding 雙熱編碼將學(xué)習(xí)目標(biāo)分散到兩個相鄰的類別中,從而平滑預(yù)測并使學(xué)習(xí)過程更容易、更穩(wěn)定。Critic 評價器——評估世界模型所設(shè)想結(jié)果的好壞。由于獎勵可能存在巨大差異,DreamerV3 采用了謹(jǐn)慎的規(guī)范化和基于分布的評分方法,即使在獎勵稀疏或不可預(yù)測的情況下也能確保穩(wěn)定的性能。它還采用了參數(shù)的移動平均值來進一步穩(wěn)定學(xué)習(xí)。Actor——根據(jù)世界模型和評價器提供的洞察來決定最佳行動,平衡即時獎勵和新策略的探索,避免陷入困境。DreamerV3 會仔細(xì)規(guī)范預(yù)測回報,即使在獎勵稀少的情況下也能保持平衡的探索。

Google DeepMind 的 Genie 2谷歌 DeepMind 在世界模型領(lǐng)域取得的另一個有趣進展是Genie 2,它能夠為具身智能體生成多樣化的訓(xùn)練環(huán)境。Genie 2 只需一張圖像,即可創(chuàng)建可操作的虛擬世界,并通過鍵盤和鼠標(biāo)控制,供人類和 AI 系統(tǒng)使用。它支持長時域記憶、一致的世界生成以及從共享起點進行的反事實模擬。該模型展示了一些新興能力,例如:

    處理角色的移動模擬物理動力學(xué)(重力、光照、反射),也就是應(yīng)用真實物理世界的規(guī)則。建模與物體和非玩家角色(NPC)的交互與 SIMA 等代理配對后,Genie 2 可以生成新的 3D 場景來測試指令遵循情況,使代理能夠使用自然語言命令在新環(huán)境中導(dǎo)航和行動。

Genie 2 內(nèi)部有什么可以幫助它實現(xiàn)這一點?Genie 2 是一個自回歸潛在擴散模型( autoregressive latent diffusion model),它在大型視頻數(shù)據(jù)集上進行訓(xùn)練,并逐幀生成視頻。其流程如下:

    Genie 2 使用自動編碼器將視頻幀壓縮到潛在空間?;?Transformer 的自回歸模型根據(jù)先前的幀和代理的動作來預(yù)測下一個潛在幀。應(yīng)用潛在擴散過程來從潛在預(yù)測中改進并生成真實的視頻幀。將潛在信息解碼為視覺框架。

這種架構(gòu)使 Genie 2 能夠在低維潛在空間中運行,并隨時間響應(yīng)用戶或代理的輸入,并生成逼真且一致的視頻輸出。因此,它為構(gòu)建能夠適應(yīng)復(fù)雜虛擬世界中各種任務(wù)的通用系統(tǒng)提供了潛力。NVIDIA 的 Сosmos World Foundation 模型這個模型是我們之前文章分享過不少,NVIDIA 對世界模型的貢獻不容低估。這個模型主要用于自動駕駛機器人?Physical AI領(lǐng)域,并將重心轉(zhuǎn)向構(gòu)建完整的模塊化生態(tài)系統(tǒng),即?Cosmos 世界基礎(chǔ)模型 (WFM) 平臺,旨在訓(xùn)練、模擬和應(yīng)用基于視頻的 Physical AI 世界模型。該平臺包括三個主要模型系列,每個模型系列在實現(xiàn)豐富的視覺世界理解、模擬和推理方面發(fā)揮著獨特但互補的作用。

    Cosmos-Predict1:它模擬視覺世界隨時間的變化。它從超過 1 億個視頻片段中學(xué)習(xí)到通用的物理世界動態(tài),并可以使用較小的數(shù)據(jù)集針對特定任務(wù)進行微調(diào),以便通過文本、動作或攝像頭輸入進行控制。有兩種類型的模型:-?Diffusion models擴散模型(如 Cosmos-Predict1-7B-Text2World):通過對潛在空間中的噪聲進行去噪,從文本生成視頻。-?Autoregressive models自回歸模型(例如,Cosmos-Predict1-13B-Video2World):類似于 GPT,根據(jù)先前上下文逐個標(biāo)記地生成視頻。
    Cosmos-Transfer1:它直接構(gòu)建于 Cosmos-Predict1 之上,并通過強大的自適應(yīng)多模態(tài)控制對其進行了擴展。Cosmos-Transfer1 允許用戶使用多種空間控制信號(例如分割圖、深度圖、邊緣圖、模糊視覺輸入、高清地圖和激光雷達數(shù)據(jù))來引導(dǎo)世界生成。為了有效處理不同的輸入,NVIDIA為每種模態(tài)添加了單獨的 ControlNet 分支,例如一個用于深度,一個用于邊緣等等。這些控制分支獨立訓(xùn)練,以提高內(nèi)存效率和靈活性。它還允許進行細(xì)粒度控制——例如,強調(diào)前景中的邊緣以呈現(xiàn)物體細(xì)節(jié),或強調(diào)背景中的深度以呈現(xiàn)幾何形狀。Cosmos-Transfer1 使用時空控制圖來動態(tài)地為跨空間和時間的不同輸入分配權(quán)重。因此,Cosmos-Transfer1 可以在 5 秒內(nèi)生成 5 秒 720p 視頻,實現(xiàn)實時推理。

    Cosmos-Reason1:該模型系列(提供 8B 和 56B 兩種參數(shù)大?。┗诂F(xiàn)實世界的物理和環(huán)境動力學(xué),推理正在發(fā)生的事情、接下來會發(fā)生什么以及哪些行動是可行的。Cosmos-Reason1 使用 Predict1 的模擬世界和 Transfer1 的精細(xì)視覺效果來做出明智的決策,從而完善 NVIDIA 物理 AI 系統(tǒng)的循環(huán)。它圍繞兩大推理支柱:-?Physical common sense物理常識:關(guān)于空間、時間、物體永久性、物理學(xué)等的一般知識。
    -?Embodied reasoning具身推理:在物理約束(機器人、人類、自動駕駛汽車)下的基于代理的決策。有趣的是,Cosmos-Reason1 使用針對長序列推理優(yōu)化的混合 Mamba-MLP-Transformer 。
    他們?yōu)槭裁匆巡煌募軜?gòu)放在一起?這里之所以使用它們,是因為:1)Mamba擅長捕捉長距離依賴關(guān)系——這提升了效率;2)Transformer 模塊提供完全自注意力機制,這對于短距離依賴關(guān)系和高級抽象至關(guān)重要,從而提升了精度;3)最后,MLP(多層感知器)層在 Mamba 層和 Transformer 層之間提供了強大的非線性轉(zhuǎn)換。它們有助于穩(wěn)定學(xué)習(xí),并成為信息整合的瓶頸,尤其是在跨模態(tài)(視頻 + 文本)整合方面——這是為了靈活性而設(shè)計的。

作為輸出,Cosmos-Reason1 生成具有?Chain-of-Thought (CoT 鏈?zhǔn)剿季S)??解釋和最終操作的自然語言,如上圖所示??傮w而言,Cosmos-Predict1、Cosmos-Transfer1 和 Cosmos-Reason1 構(gòu)成了物理 AI 的集成基礎(chǔ):

    Predict1 模擬現(xiàn)實世界動態(tài),Transfer1 支持跨模態(tài)的細(xì)粒度可控視頻生成,Reason1 則對物理世界進行解讀和推理,從而做出具身決策。

它們共同構(gòu)建了一個統(tǒng)一的管道,賦能智能代理,使其能夠觀察、生成并推理復(fù)雜的現(xiàn)實世界環(huán)境。最后,我們來看另一個人工智能巨頭 Meta 的世界模型。Meta 的 V-JEPA 2Meta 和世界模型,是其首席人工智能科學(xué)家 Yann LeCun正在倡導(dǎo)世界模型。他認(rèn)為,未來十年邁向人類水平的人工智能之路將依賴于開發(fā)能夠進行推理和規(guī)劃的世界模型。因此,Meta 的?Facebook AI Research (FAIR)?也轉(zhuǎn)向開發(fā)世界模型,以更快地解鎖其全部視角。

在2025年6月,Meta宣布 V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)正式發(fā)布。這是首個基于視頻訓(xùn)練的世界模型,它能夠?qū)崿F(xiàn)最先進的理解和預(yù)測能力,以及在新環(huán)境中進行零樣本規(guī)劃和機器人控制。V-JEPA 2 利用 100 萬小時的互聯(lián)網(wǎng)規(guī)模視頻和 100 萬張圖像,Meta團隊使用視覺掩模去噪目標(biāo)對 V-JEPA 2 視頻模型進行了預(yù)訓(xùn)練,并通過將該模型與 LLM 主干模型對齊,將其用于動作分類、物體識別、動作預(yù)測和視頻問答等下游任務(wù)。預(yù)訓(xùn)練之后,還可以凍結(jié)視頻編碼器,并在學(xué)習(xí)到的表征基礎(chǔ)上,僅使用 62 小時的機器人數(shù)據(jù)進行訓(xùn)練就能構(gòu)建出一個可用于規(guī)劃和控制的模型?V-JEPA 2-AC,在模型預(yù)測控制回路中進行規(guī)劃,完成下游機器人操控任務(wù)。

V-JEPA 2 采用聯(lián)合嵌入預(yù)測架構(gòu) (JEPA) 構(gòu)建,包含兩個主要組件:

    編碼器,接收原始視頻并輸出嵌入,以捕獲有關(guān)觀察世界狀態(tài)的有用語義信息。?預(yù)測器,它接受視頻嵌入和關(guān)于要預(yù)測的內(nèi)容的附加上下文,并輸出預(yù)測的嵌入。

相比V-JEPA 1他的核心是10億參數(shù)的 ViT(Vision Transformer),采用增強空間分辨率 ( 256 → 384 ) 和時間持續(xù)時間 ( 16 → 64 幀)的視頻數(shù)據(jù)訓(xùn)練。所有這些方面使得?V-JEPA?成為構(gòu)建世界模型的前瞻性工具。

4.世界模型為什么重要?

前面,我們已經(jīng)介紹了許多先進的世界模型,例如 Google DeepMind 的 DreamerV3 和 Genie 2、三款 NVIDIA Cosmos WFM 以及 Meta 的V-JEPA,每個模型都有不同的骨干架構(gòu)和工作原理。在這個領(lǐng)域還有更多值得探討的內(nèi)容。雖然已經(jīng)取得了許多成就,但世界模型的發(fā)展才剛剛起步。例如,我們熱切期待這些巨頭以及李飛飛的世界實驗室還能發(fā)明什么,以充分釋放此類模型和 spatial intelligence空間智能的潛力。

然而,這肯定需要時間。我們甚至可以說,世界模型的發(fā)展階段與 Agent代理的發(fā)展階段有些相似。這也是因為,對于物理人工智能而言,它們彼此不可或缺。現(xiàn)在我們可以回答的主要問題是:世界模型為什么重要?它們解鎖了人工智能的幾個關(guān)鍵功能:

    Planning and decision making規(guī)劃與決策:借助世界模型,代理可以通過“想象”不同行動策略的未來狀態(tài)序列并選擇最佳方案來進行規(guī)劃。這正是基于模型的強化學(xué)習(xí)的精髓,它能夠?qū)崿F(xiàn)高瞻遠矚的決策,并提前規(guī)劃好許多步驟。在我們熟悉的自動駕駛和人形機器人中可以用來算法控車。Efficiency效率:在現(xiàn)實世界(或模擬器)中通過反復(fù)試驗進行學(xué)習(xí)可能成本高昂或速度緩慢。世界模型允許智能體從模擬經(jīng)驗中學(xué)習(xí)(一種“心理練習(xí)”),從而顯著減少所需的現(xiàn)實世界交互。在我們熟悉的自動駕駛和人形機器人中可以高性價比的來虛擬訓(xùn)練算法。Generalization and flexibility泛化和靈活性:一個好的世界模型能夠捕捉環(huán)境的普遍屬性,從而幫助智能體適應(yīng)新的情境。通過理解底層動態(tài),智能體能夠通過模型推理,處理訓(xùn)練中從未明確遇到的情況。由于世界模型可以比語言模型吸收更多的原始信息(例如視頻流),因此它們有可能提供更豐富的現(xiàn)實基礎(chǔ)。邁向通用智能:許多研究人員將世界模型視為邁向更通用的人工智能認(rèn)知的基石。它們賦予人工智能系統(tǒng)一種“想象力”和對世界運作方式的直覺理解——這是獲得類似人類的常識、推理和解決問題能力的先決條件。

“我們需要能夠理解世界的機器;能夠記住事物的機器;具有直覺、常識的機器;能夠像人類一樣進行推理和規(guī)劃的機器?!?/p>

Yann Le Cun

世界模型讓數(shù)字世界的Agent理解世界的物理法則,但是世界模型仍然缺少因果人工智能 (Causal AI)的整合。我們將在以后文章中分享和探討這個引人入勝的話題——它目前主要集中在學(xué)術(shù)界或利基行業(yè),但對于實現(xiàn)通用人工智能 (AGI) 卻至關(guān)重要。

參考文章以及圖片

什么是世界模型? -?Alyona Vert.

GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving - wayve

Cosmos World Foundation Model Platform for Physical AI - 英偉達

V-JEPA 2:自監(jiān)督視頻模型實現(xiàn)理解、預(yù)測和規(guī)劃 - meta

全球自動駕駛模型: 初步調(diào)查 -?Yanchen Guan?, Haicheng Liao?, Zhenning Li?, Jia Hu?,Runze Yuan, Yunjian Li, Guohui Zhang,and Chengzhong Xu, Fellow, IEEE

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:

加入我們的知識星球可以下載公眾號海量參考資料包含以上參考資料。

相關(guān)推薦