時間在變,空間随着時間也在變,不變的唯有真知灼見。
2024年12月25日  星期三
首頁
财經
參考
ESG
公告
市場
研究
IPO
公司
周報
動态
推薦
首頁 > 觀察

量化起家,萬卡在手,降價狂魔,DeepSeek可能就是中國大模型混戰的終結者

來源:真灼财經 時間:2024-05-27 19:57:25

字号

文章來源:矽星人pro

文章作者:周一笑 王兆洋


最近一段時間中國大模型領域變得異常熱鬧,最重要的話題就是各大模型公司的“價格戰”。


而事實上,這場讓字節、阿裡、百度、智譜等紛紛卷入的大混戰,最初卻是一個“神秘”的“金融公司”所掀起的。


5月6日,量化對沖基金幻方旗下的AI團隊深度求索,發布了最新的模型,同時,宣布把API價格下調,降價幅度之大,使得它的價格隻是GPT-4 Turbo的百分之一水平。很快,它引發了連鎖反應。之後字節和阿裡的陸續跟進,使得價格戰正式鋪開。


1-1.png


深度求索,和它模型的名字“DeepSeek”似乎對大多數人來說都顯得有些陌生,但在模型研究者和開源圈子裡,它一度是被提及最多的模型和開發廠商之一,甚至在Mistral和Llama占據統治地位時,DeepSeek也有一批忠實擁趸。許多開發者尤其認為它的數學和推理能力極強,與那些追求玩弄吟詩作賦的模型差别明顯。


最新的一個動作是,離開OpenAI的大神Andrej Karpathy也開始關注DeepSeek的賬号。


1-2.png


主業二級市場交易,卻做起了AGI;低調異常,卻決定着整個行業走向;不怎麼宣傳,卻受到社區自來水一片好評......這一系列的反差讓這家公司更顯神秘。


不過這種“神秘”可能并不會持續很久了。多位接近幻方的人士透露,幻方對深度求索接下來的計劃是,讓它獨立面對市場。它将有可能成為看起來格局已定的中國大模型江湖裡,最後一個玩家,也注定會是一個很能攪局的玩家。


被低估的DeepSeek


就像深度求索是價格戰的“發起者”這件事被很多人忽視一樣,DeepSeek這次的技術創新同樣缺少讨論。在講述深度求索這家公司之前,我們可以先看看此次發布的新模型上,DeepSeek的技術創新。


此次DeepSeek-V2對架構層面做了創新,這是很多國産甚至全球範圍的開源基座模型少有的嘗試。


在架構方面,DeepSeek-V2 采用了Transformer 架構,其中每個 Transformer 塊由一個注意力模塊和一個前饋網絡(FFN)組成。然而,對于注意力模塊和 FFN,研究團隊設計并采用了創新的架構。


一方面,該研究設計了MLA(Multi-head Latent Attention):一種更好、更快的注意力,可通過減少KV緩存确保高效推理。


另一方面,對于FFN采用了高性能MoE架構DeepSeekMoE,以經濟的成本訓練強大的模型。


DeepSeek 獨創的 Sparse 結構 DeepSeekMoE 與 MLA 架構的結合,推動了 DeepSeek-V2 提升效率和性能。此模型僅需極小的内存用量(相當于對應密集型(Dense)模型的1/5~1/100),就可發揮出相似于 70B~110B 密集型(Dense)模型的計算能力。


模型的高效率直接轉換為顯著的成本節約——在8卡H800機器上,DeepSeek-V2 的輸入吞吐量可達每秒超過 10 萬 tokens,輸出超過每秒5萬 tokens。


DeepSeek-V2模型和論文完全開源,可免費用于商業用途。


1-3.png


OpenAI前員工Andrew Carr從DeepSeek-V2論文中獲取靈感,将其訓練設置應用于自己模型



DeepSeek-V2每百萬tokens輸入/輸出價格遠低于行業平均水平,推理的成本的大幅降低,進一步降低了使用大型語言模型的門檻,例如在AI智能體等場景,需要頻繁對話調用,需要大量token數量。價格的降低,有望帶來更快的商業化落地,且可能提升用戶體驗。


一位AI開發者在DeepSeek-V2發布後表示,在他開發的AI遊戲中,原本由大模型扮演的主持人是不會考慮曆史消息。這就導緻大模型的回答并不考慮用戶已經掌握的信息,難以給出真正有啟發性的、多樣性的回答。而現在DeepSeek API的價格不到市面上同檔次大模型的十分之一,他也可以嘗試考慮加入曆史消息了。


挑起價格戰後,需要更多彈藥了


DeepSeek-V2是深度求索持續的模型更新的最新進展,它的能力提升明顯,讓開發者們記住了DeepSeek這個模型系列,而更重要的,是DeepSeek的站穩腳跟,讓深度求索可以被按照一家模型層的公司來估值。


據知情人士對矽星人稱,幻方對深度求索有獨立拆分上市的計劃。而此次“價格戰”的進展,正在讓這個計劃的進程加快。


深度求索挑起的“價格戰”,最初對它來說是個“自然而然的事情”。


5月6日深度求索(DeepSeek)發布DeepSeek-V2時表示,DeepSeek-V2中文綜合能力(AlignBench)開源模型中最強,與GPT-4-Turbo,文心4.0等閉源模型在評測中處于同一梯隊。英文綜合能力(MT-Bench)與最強的開源模型LLaMA3-70B同處第一梯隊,超過最強MoE開源模型Mixtral 8x22B。知識、數學、推理、編程等榜單結果也位居前列。同時支持128K上下文窗口。


DeepSeek-V2擁有2360億參數,其中210億個活躍參數。160位專家,其中有6位在生成中活躍。DeepSeek-V2在包含8.1萬億token的語料庫上進行預訓練,并通過監督微調(SFT)和強化學習(RL)來進一步提升模型能力。


價格戰是這些模型能力的“附加物”——在能力接近第一梯隊閉源模型的前提下,DeepSeek-V2 API的定價為每百萬tokens輸入1元、輸出2元(32K上下文),價格僅為GPT-4-Turbo的近百分之一。深度求索對這個價格的解釋是,它并不是補貼,而是,這“目前就是大規模服務的價格,不虧本,利潤率超50%”


1-4.png


一方面技術過硬直接把價格打下來,另一方面,這些訓練部分的資金,并不像後來跟進價格戰的一批創業公司那樣來自VC們的融資——深度求索目前的彈藥是幻方自己的。


而價格戰正式打響後,事情開始起變化。


随着諸多資金更加雄厚的大廠的跟進,這場“價格戰”為代表的模型市場的激烈競争開始顯得更焦灼。


幻方核心業務所處的量化基金領域也在經曆調整,此前的燒自己的錢,讓研究團隊可以自由而心無旁骛的研究的方式,在面對更加激烈的外部競争壓力下,也在發生變化。不燒VC的錢的狀況可能改變。


最後的玩家登場


這意味着深度求索可能成為中國大模型江湖裡最後一個重要玩家。


由于不在大模型的“圈子”裡,深度求索的發展曆程鮮少被提及。但它其實并非一個“不務正業”的臨時組織。


提到深度求索,繞不開的就是其背後的量化投資公司幻方量化,幻方量化是一家依靠數學與計算機科學進行量化投資的對沖基金公司。


幻方創始團隊自2008年起探索自動化交易。2015年幻方量化創立,依靠數學與人工智能進行量化投資,并在2016年首次将深度學習模型應用于實盤交易,使用GPU進行計算,并持續投入AI算法研究。


此後,幻方不斷壯大AI團隊,轉向AI驅動的量化策略,并面臨算力挑戰。2019年至2021年間,幻方相繼自主研發了“螢火一号”與“螢火二号”AI集群,其中“螢火二号”投資達到10億元,極大提升算力支持。


而建設螢火集群的過程中,深度求索的前身出現。


在ChatGPT橫空出世時,人們發現在中國擁有高性能GPU芯片最多的不是人工智能公司,而是幻方。據國盛證券研報,在雲算力端,當時除了幾家互聯網公司,就隻有幻方有超過1萬張A100芯片儲備。


作為一個需要GPU做量化的金融機構,囤積一些顯卡很正常。但買了1萬張并且自己建起集群,就“不正常”了。


事實上,幻方的集群最初就是在做金融之外的事情。


據一名很早接觸過幻方的算法科學家稱,“幻方當時的确有大量的卡,而早期他們買這些卡是在做‘慈善’——他們當時其實沒有全部給自己用,而是用了很低的價格提供給各種需要更多的卡做算法研究的機構來使用。”公開資料可以查詢到,在螢火建成後的幾年,有多篇登上nature等頂級期刊的論文,背後算力是由幻方支持。


這個決定自然很大程度來自創始人。


公開資料裡,關于幻方創始人梁文鋒的信息不多。一名很早接觸過幻方創始人梁文鋒的大模型創業者稱,梁文鋒對生成式AI技術是有自己的很深的研究和跟蹤的。他們第一次見面時,這位掌管着千億資金的“金融家”一上來就拿這位明星創業者早期發過的一篇論文中的一個公式,向後者請教,并提出了自己的想法。這讓他印象深刻。


而幻方在搭建“螢火”集群中心團隊的同時,也積極招募了一批算法科學家。多個業内AI研究人士稱,幻方在這些年聚集了一大批能力很強的華人AI從業者。一名從Google總部回國加入幻方的員工就曾形容幻方内部文化很像Google美國。“老闆本人每天都在寫代碼、跑代碼。”


幻方當時布置這些科學家做AI基礎設施層産品,以及一些包括AI for Science的純研究的工作。


這些多少都讓人想到OpenAI的文化和氛圍。


2023年5月,幻方正式把螢火團隊的定位集中在做大模型,成立獨立新組織,命名為“深度求索”,并強調将專注于做真正人類級别的人工智能。其目标不隻是複刻ChatGPT,還要去研究和揭秘通用人工智能,嘗試拓寬人類對人工智能的認識和理解,此前已發布包括混合專家語言大模型、代碼大模型、視覺語言模型在内的多個模型:


1-5.png


大模型行業的産品負責人orange.ai向矽星人表示,深度求索的顯卡依托幻方的積累,在國内大模型創業公司裡的顯卡數量應該是前三的。這個團隊對技術追求比較高,技術實力是非常強的。他們在國内最早發布了MoE模型,還直接開源。最近發布的V2模型則在MoE架構上進行了巨大的優化,讓推理成本下降了至少一個數量級。還有一些視覺相關的模型業界口碑也很好。


“隻是他們很少宣傳,一般用戶都不知道。而且之前沒有投入做C端産品,這樣可能會産生一種模型指标很好,但是端到端體驗不夠好的問題,比如一些特定任務的指令遵循方面還是有進步空間的。”


顯然,這些挑戰,如果以一個更加獨立的“大模型公司”的身份來權衡和解決,就更加容易了。


1-6.png


而就在5月15日,深度求索宣布DeepSeek Chat已正式通過國家備案,告别内測,正式向公衆開放服務。


今年是幻方成立的第九年,在“舶來品”量化基金領域它是一個全華班的本土化特例,用一套接地氣又思路新奇的打法改變已有格局取得了成功。


今天它正在讓這個故事在大模型領域重演。深度求索也在成為看似格局已定的中國大模型行業裡的最獨特的攪局者。


微信掃碼 > 右上角點擊 > 分享