文生視頻 (text to video) 看 Sora

2023 年下半年開始, 隨著一夜爆火的 Pika 1.0 全面開放, Runway 發布的 Gen-2 開始商業化探索, Meta, Google, Moonvalley 和 Stability AI 等公司陸續發布了 AI 視頻工具等.視頻生成在整個 AI 領域掀起了討論熱潮, 但這些工具效果並不理想, 業界對於 OpenAI 公司的 Sora 充滿期待.


 OpenAI 2 月發布了文生視頻大模型 Sora; 穩定性, 一致性, 連貫性均突破, 對此前 Runway Gen 2, Pika 等 AI 視頻工具碾壓: 1) Sora 能夠根據用戶提供的文本描述生成長達 60S 的視頻. 2) 實現多鏡頭切換, 且保持角色和視覺風格一致性. 3) 創造的角色表達情感更加豐富.


Sora 可能掌握了部分物理世界規則, 多模態模型展現出一定的湧現能力. Sora 能夠模擬現實世界中的人物, 動物和環境等某些特征, 且並沒有依賴於現有明確 3D 建模, 物體識別等規則, 而是純粹通過生成自然湧現, 即能夠模擬真實物理世界的運動, 如物體的移動和相互作用.


"大力出奇跡" 思路下, Spacetime latent patch 等技術更新, 同時 Open AI 公布了相關報告, 但報告並未涉及模型和具體技術細節. 整理來看, OpenAI 沿用了圖片生成中常見的擴散 transformer 模型, 同時使用了大模型思路 "大力出奇跡".


Sora 基本原理: 基於 Transformer/Diffusion 兩個模型, 針對視頻做與圖片類似的處理, 可以將視頻中的每一幀用一個 Encoder 轉換成 Latent tokens. 得到 token 後就能將數據喂入 Transformer 結構中去理解視頻, 處理視頻. 


Open AI 可能找到了一個合適的視頻信息表達, 即技術文檔中的時空包 (Spacetime latent patches) 技術. 在可視數據的處理上, Open AI 借鑒了大語言模型的成功經驗. 大語言模型通過 token 將各種形式的文本代碼, 數學和自然語言統一起來, 而 Sora 則通過視覺包 (patches)實現了類似的效果.


把原始視頻轉化為時空包. Open AI 首先將視頻壓縮到一個低維度的潛空間 (latent space), 這是通過對視頻進行時間和空間上的壓縮實現的, 這個潛空間可以看作是一個 "時空包(Spacetime latent patches)" 的集合.


海外大型視頻網站每分鐘大約上傳 500 小時視頻內容, 由此我們測算訓練 Sora 模型需要約 7.09 萬張 H100 一個月的訓練量. 在推理側, 根據相關研究測算生成一張圖的算力消耗約為 256 個詞的消耗, 推算生成一個 1 分鐘時長短視頻的算力消耗約是生成一次文字對話的千倍以上.


Nvidia 持續超預期, FY23Q4 營收創新高, 公司指引 FY25Q1營收和毛利率季增長. Data Center 部門財年營收年增 218%, 占比 78%; Gaming 部門財年營收年增 15%, 占比 17%. 整體來看, Data Center是公司的核心成長動力.


公司指引 FY25Q1 將實現連續季增長. 分產品看, Data Center計算業務 (GPU) 年增 5倍, 新產品 H200 有望從 FY25Q2 起交付客戶; Data center 網絡業務 (Networking) 增長 2倍. 分需求看, 公司表示本季來自於 AI 推理需求約占 40%. 分客戶看本季來自大型雲廠商營收占比超 50%.


留言

  1. Sora有多強?AI自動生成影片,一次看懂
    https://www.cw.com.tw/article/5129362

    回覆刪除
  2. Sora掀影音變革,光通訊有想像空間
    https://www.moneydj.com/kmdj/news/newsviewer.aspx?a=78381bf0-e407-493d-82e1-1735a75b57fe

    回覆刪除
  3. Sora 再掀 AI 熱潮 法人評估五檔受惠名單出爐
    https://www.wealth.com.tw/articles/837f259e-62ce-4005-abfa-de6d53d45bc2

    回覆刪除
  4. OpenAI最新Sora模型背後:成立不到1年的核心團隊打造
    https://news.cnyes.com/news/id/5456839

    回覆刪除
  5. OpenAI Sora 生成一分鐘影片需要花費多久時間?可能需要一個多小時
    https://www.kocpc.com.tw/archives/535357

    回覆刪除
  6. 「碾壓式」遙遙領先 Sora是如何練成的?
    https://udn.com/news/story/7333/7784852

    回覆刪除
  7. Sora的第一波受害者出現了
    https://hk.investing.com/analysis/article-107781

    回覆刪除
  8. 揭密 Sora:用大語言模型理解影片,實現物理世界「湧現」
    https://technews.tw/2024/02/20/analyzing-openai-sora/

    回覆刪除
  9. OpenAI的Sora將改變人與AI互動模式,掀起AI新時代
    https://iknow.stpi.narl.org.tw/post/Read.aspx?PostID=20450

    回覆刪除
  10. OpenAI 的 Sora 足夠驚豔 但距離“黃金時刻”還需要一段時間
    https://hk.investing.com/news/stock-market-news/article-464322

    回覆刪除

張貼留言