文生視頻時代已到，百度、訊飛、字節誰能率先做出“國産Sora”？_觀察

文章來源|奇偶派（jioupai）原創

作者 |葉子

編輯 |钊

繼ChatGPT後，OpenAI又在文生視頻的領域中扔下了一顆深水炸彈，引爆了海内外AI圈。

2月16日，OpenAI的文字生成視頻模型——Sora首次面世。據介紹，Sora可以根據所輸入的prompt，直接輸出最高長達60秒的視頻，并且包含高度細緻的背景、複雜的多角度鏡頭，以及富有情感的多個角色。

在OpenAI創始人阿爾特曼的社交網站上，其也放出了Sora生成的視頻，如下便是以“A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view”（一場在海洋上舉行的自行車比賽，不同的動物作為運動員騎着自行車，通過無人機攝像機視角進行拍攝）為提示詞生成的視頻。

微信圖片_20240223185231.png

此外，用更具體的prompt也可以獲得時長更久的視頻，如下便是以“一位時尚女性走在充滿溫暖霓虹燈和動畫城市标牌的東京街道上。她穿着黑色皮夾克、紅色長裙和黑色靴子，拎着黑色錢包。她戴着太陽鏡，塗着紅色口紅。她走路自信又随意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去”為提示詞生成的視頻。

微信圖片_20240223185334.png

上述兩個視頻，如果不告訴你它們是由AI生成的，誰又能辨别出來呢？

那麼，OpenAI的首款文生視頻模型Sora是如何完成文生視頻的？其與Runway Gen-2、Pika等AI視頻工具相比，有着什麼樣的進步，又有哪些不足？Sora的出現，會讓哪些行業出現翻天覆地的變化？對國内的AI企業，又有哪些啟示呢？

1 Sora的底層邏輯，其實和大語言模型相同？

要深入探索Sora的多方面特征，我們首先需從其技術根基着手。換句話說，我們最先需要明白的是，Sora生成視頻内容的背後，究竟是依托于怎麼樣的技術實現的？

在當今的人工智能領域，大模型的發展都離不開Transformer架構。這一架構的核心思想是利用海量數據進行學習，以便在特定的目标場景中實現泛化效果，即通過分析先前的内容來預測後續的内容。

這種方法在文本生成領域中表現出色，因為文本數據的結構和标準相對一緻。然而，對于視頻數據，情況就大不相同了。視頻數據包含了圖像内容、時間、顔色等多種維度的信息，如何将這些不同維度的因素有效結合，成為了構建AI視頻模型的關鍵挑戰。

在Sora項目的推進過程中，OpenAI深入思考并參考了大型語言模型的成功之道，即通過互聯網上的超大規模數據訓練，以獲得通用的處理能力，從而成功将代碼、數字和各種自然語言進行了有效的統一處理。

而為了讓視覺數據模型繼承這樣的好處，Sora也采用了與大語言模型相同的思路，即LLMs既然可以使用token标記，那麼Sora與采用類似于視覺領域中的token不就可以解決問題了嗎？

具體來看，Sora模型構建了Visual Encoder視頻壓縮網絡，将視頻轉換到低維空間Latent Space，然後将Latent Space分解成Patch表示，将視頻生成的任務轉化成通過已知Patch預測接下來的Patches的任務，然後通過Decoder将Latent還原成人類可理解的高像素視頻并拼接起來，最終生成目标視頻。

640 (1).png

圖源：OpenAI-Sora技術文檔

也正是因為将視頻轉換成Patch表示，所以Sora模型并不像傳統的視覺模型那樣，需要被高寬比、分辨率、時間等因素限制，讓整個模型的範化能力和通用性變得更強，還支持更多的Prompt類型，完成圖生視頻、視頻擴展、多個視頻之間連接等功能。

與先前的文本生成視頻軟件如Runway、Pika和Stable Video等“前輩”相比，Sora不僅在技術層面取得了突破性的進步，視頻效果上更是實現了如代際碾壓般的降維打擊。

首先，最直接差距的便是視頻長度的提升，社交平台上一位名為“Gabor Cselle”的博主将相同的prompt“美麗、白雪皚皚的東京熙熙攘攘，鏡頭穿過熙熙攘攘的城市街道，跟随幾個人享受美麗的雪天，在附近的攤位購物，絢麗的櫻花花瓣随着雪花随風飄揚”輸入給Sora、Pika、Runway、Stable Video四個模型後，它們給出的結果是這樣的。

微信圖片_20240223185711.png

可以看到，當前主流的AI視頻生成軟件Pika、Runway和Stable Video視頻生成的時長普遍被限制在5秒内，在特定情況下，應用戶要求，這些平台能擴展至16秒，這已是2024年以前AI生成視頻領域公認的最長時間紀錄。而Sora則突破常規，其獨特的能力允許它生成長達一分鐘的視頻，這一時長無疑将其置于行業絕對的領先地位。

而在簡單的時長增加外，Sora多鏡頭切換的能力，也讓人十分驚歎。

衆所周知，在真正的視頻拍攝中，多鏡頭場景的拍攝并不是件易事，不僅需要多個機位共同參與，還需要在後期進行複雜的剪輯，所以過去的AI視頻大多都是單鏡頭出現，但Sora放出的文生視頻很多都出現了多角度的鏡頭切換，并可以在不停的切換之間實現拍攝對象的一緻性，這都是其他AI視頻軟件無法完成的。

微信圖片_20240223190033.png

此外，Sora創造出的場景和角色，已經達到了以假亂真的地步，從各種細節上來看，都好像是真實拍攝的一般，譬如下圖人物的瞳孔、睫毛等細節處理，都看不出任何的AI味道。

微信圖片_20240223190131.png

不過盡管Sora在文本生成視頻的領域取得了顯著的進展，它仍然隻是文生視頻革命的初步嘗試。OpenAI在其技術文檔中也坦誠，Sora存在不少局限性，例如，其無法準确地模拟許多涉及到交互的物理特性譬如玻璃破碎等，也會出現吃掉餅幹一部分後餅幹仍然完好無損的情況。

然而，雖然Sora距離完美還有漫長的道路，但它的問世已經在海外被廣泛視作第四次科技革命的一個裡程碑。這可以類比于第一次工業革命中火車上首次應用蒸汽機，那一刻人們意識到，原本需要數日騎馬車完成的旅程，現在隻需幾小時即可抵達。

360公司的董事長周鴻祎對Sora的評價更是高度肯定，他表示，“Sora不僅僅是一次簡單的嘗試，它所展示的，是大模型在理解和模拟真實世界方面取得的新成就和突破”，“就像做夢一樣”。他甚至預言，Sora的出現可能會将通用人工智能（AGI）的實現時間從10年縮短至一到兩年，這無疑是對Sora以及人工智能未來潛力的極大認可和期待。

2 Sora，将颠覆這些傳統行業

OpenAI Sora的推出，讓我們見證了一個技術奇迹的誕生。這個能夠快速且優質地将文字描述轉化為引人入勝視頻的AI工具，不僅僅代表着技術上的一次巨大飛躍，也預示着我們熟悉的許多行業即将面臨一場革命。

受其影響最大的行業，莫過于視頻行業大類下的諸多細分行業了。

目前，全球有超過60億人口是視頻工具和短視頻的用戶，而其中與視頻産業相關的從業者可能已經超過了将近10億人，占到了全球總人口的13%到14%，這些從業者涵蓋了影視行業、短視頻行業以及我們日常觸手可及的各種視頻展示領域，包括廣告制作等行業。随着人工智能（AI）技術在視頻領域的融合與創新，這些從業者所在行業正在經曆一場由AI視頻技術引發的變革。

對于影視行業來說，AI視頻模型的出現，将極大地降低拍攝劇集的門檻。

博主快刀青衣發文表示，在與業内人士的溝通中，做了20年影視導演的陳坤看到Sora後說的第一句話是“要變天了”，第二句話是“我直到今天才慶幸自己是個導演”。

而在追問中，陳坤表示現在的影視行業，分工極其精細，很多工種和裡面的從業者都是階段式配合，隻有導演是需要從前期跟到後期的，然後去不停協調各個工種，從舞美、化妝、道具到燈光、攝像、攝影，從演員、編劇、劇務到動畫特效，可以說一個環節掉鍊子，整個戲就可能功虧一篑。而如果AI視頻按照現在的發展速度，至少很多簡單的鏡頭、群演、燈光布景等，都可以用AI去完成了。

可以說，那些過去需要拍一年，花費數千萬乃至上億的影視作品，在未來憑借AI的能力，或許隻需要一個月時間，成本也将大幅壓縮，一變革不僅将對影視制作的效率産生深遠影響，更可能引發對從業者技能要求的重大轉變，未來有創意、會寫prompt的導演，或許才是最需要的人才。

如果說對于影視行業從業者來說，AI視頻模型是好幫手的話，那麼對于廣告行業從業者來說，更像是一場突如其來的“滅頂之災”。

原本高度依賴人力創意和精細制作流程的廣告拍攝與後期制作，在AI技術的賦能下，得以實現大規模的效率提升與成本優化。比如，以往制作一支高品質廣告片，從策劃、腳本撰寫、場景搭建、模特選擇到拍攝剪輯、特效合成等環節，可能耗時數月并耗費高昂預算。

而随着AI視頻模型的應用，部分标準化及重複性高的工作内容，如背景替換、動态貼圖、群演模拟等，均可以借助AI快速生成，從而極大地縮短了項目周期。

同時，AI作為“無情的學習機器”，完全可以替代人類根據品牌需求自動生成多版本廣告創意，并通過機器學習不斷優化傳播效果，這無疑将對廣告行業傳統的創意生産模式帶來前所未有的挑戰，試想，在未來的競标中，諸多友商報出數百萬元價格的時候，AI視頻廣告公司卻能以數十萬元甚至數萬元的成本完美解決用戶需求，誰又能中标呢？

可以說，對于廣告行業來說，AI視頻帶來的影響并不隻是激烈的競争，更意味着整個行業的組織模式與商業模式的重構。

此外，對于短視頻行業來說，可以生成一分鐘視頻的Sora，已經對短視頻從業者構成了極大的威脅。

在全球範圍内，無論是中國的抖音、快手、B站和小紅書等平台，還是國際版的TikTok，短視頻内容消費正處于前所未有的高峰，而随着Sora的出現，用戶現在能夠迅速制作出各種類型的視頻内容，未來稀缺的不再将是視頻拍攝或者剪輯的能力，隻要擁有獨特的創意，便可輕松入局，也将會在短視頻行業中掀起另一場風暴。

在Sora這一技術現象的輻射範圍内，在其對視頻産業帶來的挑戰與變革之外，也正悄然為其他領域開辟出新的機遇。其中，算力行業自然首當其沖，受益于Sora驅動的AI視頻生成技術對強大計算能力的持續渴求，市場需求将迎來顯著增長。但此處先按下不表，轉而聚焦于另一個重要領域——安全行業。

海外研究界普遍認為，在AI視頻生成廣泛應用後，安全領域的革新将會是最受惠的方向之一。可以預見的是，随着技術的發展和普及，市場上将湧現一大批專注于視頻真僞鑒别技術研發與服務的新興企業。這些公司将利用最先進的算法和技術手段，為全球範圍内的政府、企業和個人用戶提供視頻内容真實性驗證服務，以及相關的數據安防解決方案。

Sora帶起的這一波浪潮不僅會推動視頻認證技術本身的進步，還将帶動整個信息安全産業鍊的升級與完善，包括但不限于數字水印技術、深度學習檢測模型、區塊鍊存證等前沿技術的深度融合應用。一個全新的、圍繞視頻内容安全防護的生态系統也将在全球範圍内逐步構建起來，為維護信息社會的公信力與秩序提供有力支撐。

3 百度、訊飛與字節，誰能摘下國産Sora桂冠？

在探讨了OpenAI的Sora模型與其對其他行業帶來的深遠影響之後，我們也該将視角轉向國内，關注一下中國企業在文生視頻領域的進展了。

年後A股開盤後，在Sora的催化之下，諸多概念股迅速升溫，當日當虹科技、中文在線、因賽集團等公司均以漲停收盤，盤後也有許多企業在投資者交流平台交流相關進展。

其中，2月19日虹軟科技官微宣，其核心大模型技術引擎——虹軟ArcMuse再次升級。而此次升級将支持面向商拍的商業視頻自動生成。

據介紹，與Open AI Sora類似，虹軟ArcMuse大模型視頻生成基于diffusion-transformer技術架構，具備豐富多樣的創意力和想象力。通過圖像，ArcMuse大模型能夠捕捉到商品的細節特征、質感、色彩等方面的精确信息，生成更能展示商品真實面貌的動态商拍視頻。

而因賽集團則在與記者的交流中表示，其AIGC項目團隊按照計劃，将在三月進行文生視頻功能的開發，等待時機成熟後投入公測。

而在大模型的主流玩家行列裡，字節跳動早在年初就發布了超高清文生視頻模型MagicVideo-V2。據悉，該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面，比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

微信圖片_20240223190238.png

而就在前幾日，阿裡雲旗下魔搭社區（Model-Scope）上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隐空間擴散模型、視頻隐空間到視頻視覺空間這3個子網絡組成，整體模型參數約17億。

但整體看下來，除去字節跳動的MagicVideo-V2有一定的水平之外，其他大多都處于一言難盡，甚至還無法看到效果的階段，同Sora的距離還有很遠很遠。

至于國内何時能複現Sora，複現過程中會遇到哪些問題，也有媒體采訪了某大模型團隊的工程副總裁。

在采訪中，對方表示，“Sora的'核彈效應'表現為業内廣泛認可，是視覺AI的'ChatGPT時刻'”，“但是Sora打通的這條道路并不神秘，總體上沒有很多超預期的技術，它是沿着大一統多模态大模型的既定路線，在工程上取得的一項成果，沒有改變既定的技術範式和設計理念。”

但對于國内大模型團隊的複現速度，他提醒道，“魔鬼在細節裡，而細節在閉源模型的技術報告裡幾乎沒有任何披露。追趕的速度也會由數據、算力和工程能力等硬約束。”

換一種說法便是，其實Sora實現文生視頻的大緻思路和邏輯都已經在技術文檔中公之于衆了，但想要真正完成複現甚至超越，仍然需要考驗國内AI企業包括算力、數據和工程能力在内的諸多的綜合實力。

從這樣的角度來看，那最有望做出并肩甚至超越Sora模型的企業，也無外乎在大語言模型中領先的百度、科大訊飛。

百度其實在很久之前就推出了文生視頻的能力，在百度的百家号中，當用戶上傳文章之後，會有一部分文章被百度精選出來，自動生成視頻，而在最近也發布了一款名為“UniVG”的視頻生成模型，相關效果也位于除Sora之外的前列。

同時，百度作為國内深耕AI行業最深的企業，無論是算力的充足、數據的豐富還是工程能力的先進，都處于國内第一梯隊，隻要其以正常的速度進行推進，那麼百度版的能力更強的文生視頻模型，也将于未來不久上線。

除百度外，科大訊飛作為專精AI賽道的公司，也是大語言模型競争中的佼佼者，1月底，星火認知大模型剛完成了V3.5的升級，并在華為的幫助之下，相關算力與工程能力得到了較快的提升。也有接近科大訊飛人士透露，科大訊飛目前内部已經開始文生視頻進一步攻關研發。

而在“傳統”領先的大模型企業外，字節跳動或将借助存儲數據的優勢彎道超車。

字節跳動在短視頻和社交媒體方面的海量數據資源，使會其在文生視頻模型的研發上占據獨特優勢。MagicVideo-V2的發布及其效果上的顯著提升，已經證明了字節跳動在該領域的技術實力與創新能力。

随着火山引擎大模型服務平台“火山方舟”的推出，以及與多家合作夥伴共建的生态體系不斷完善，字節跳動不僅能夠利用自身的龐大用戶基礎産生的實時、多樣的數據流進行訓練優化，還有望通過高效的模型疊代和協同創新，在未來開發出能與Sora匹敵甚至超越的新一代文生視頻模型。

但這樣的優勢也未曾不是一種包袱，作為數據層面最占優勢的字節，又能否快速補上工程能力上的短闆，摘下國内首個正式開放文生視頻的桂冠，仍需要時間來證明。

4 寫在最後

Sora的出現，無疑是AI領域的一次重大突破。它不僅展現了AI在視頻生成領域的巨大潛力，更為内容創作和多個行業帶來了全新的思考和機遇，抖音、Tiktok、B站、P站等視頻平台，都需要重新審視自己的内容生态了。

而對于中國企業來說，Sora的出現既是挑戰也是動力，國内AI企業前方又出現了一個需要追趕的目标，百度、科大訊飛等在大語言模型中領先的企業，以及擁有海量數據資源的字節跳動，都應該加速了。

簡 繁

文生視頻時代已到，百度、訊飛、字節誰能率先做出“國産Sora”？

1

Sora的底層邏輯，其實和大語言模型相同？

2

Sora，将颠覆這些傳統行業

3

百度、訊飛與字節，誰能摘下國産Sora桂冠？

4

寫在最後

簡

繁