文章來源:矽星GenAI
文章作者:Yoky
過去一年,圍繞着字節AI的幾個謎團,終于都在今天被揭開了。
5月15日火山引擎Force原動力大會上,字節大模型進行了全系列更名,從雲雀大模型升級為豆包大模型家族,一口氣發布了9個豆包模型,其中包括通用模型pro版、通用模型lite版以及各個領域的垂類模型,并宣布正式對外服務。
這是一次很有意思的更名,我們甚至可以把它理解為是一場“豆包的勝仗”。
而且一出手,直接“點名”了阿裡百度,火山引擎總裁譚待在宣布豆包大模型價格時直言:“很遺憾阿裡和百度還沒有128k可精調的模型,但我期待他們的更新。”
去年在百度和阿裡率先發布大模型之後,字節遲遲未動。矽星人了解到:彼時字節内部不同的部門都在進行AI探索,抖音、剪映團隊各自為戰,“豆包”隻是基于雲雀大模型開發的AI産品,并成立了新部門Flow,發力AI應用層。
在技術發展的早期,将不同的産品投向市場,交給用戶檢驗的路子,我們并不陌生。經過了一年的時間,“豆包”從一衆大模型産品中脫穎而出,也給字節大模型賺了一波“印象分”。
從2023年底,“豆包”用戶量一路狂奔,QuestMobil2024最新的報告中顯示,2024年3月,“豆包”App月活用戶為2328.2萬,在AIGC類應用中排名第一。
此次全面更名,揭開了整個字節大模型内部戰略的第一個謎團:未來可能将豆包團隊作為主力軍,着重培養。
而朱駿作為字節跳動戰略和産品副總裁在原理大會上的亮相,似乎也回答了關鍵領導人的問題。
現場,字節旗下AI bot開發平台“扣子”的一位工作人員告訴我們:“目前字節AI基本在火山引擎之下,産品戰略由朱駿負責”。
找到了方向也确定了領隊,由此可見,字節AI是真的想“開”了。
01
豆包家族,組團應戰
Grace改名為豆包的時候,字節沒少被人笑話。
但就是這個接地氣的名字,如今站上了字節大模型家族的C位。
“為什麼叫豆包?”朱駿在現場分享道:“很多人來問我,為什麼起這個名字?我認為一定要拟人化、首先确定下來産品起名的通用原則是,簡單、好讀、好記。”
會上,譚待宣布從雲雀升級為豆包大模型家族,我們根據他們不同的功能,将9個模型分為了三大族群:
第一類是兩個通用模型:豆包通用模型pro(專業版)及豆包通用模型lite(輕量版),專業版上下文窗口尺寸最大128K,适配場景更加通用和全面,而輕量版則更具性價比,中小企業友好,對比pro版本千tokens成本節省84%。
譚待介紹,像汽車的座艙模型、終端模型就更加适合lite版本,更輕量。通過豆包lite,汽車廠商可以在低延遲下實現對話,支持閑聊、搜索、娛樂、導航、車控等多個座艙智能助手場景,效果要比傳統語音處理高達50%以上,幫助用戶獲得新一代的智能化駕駛體驗,讓汽車變得更“聰明”。
第二類是五個垂類模型:分别包括角色扮演模型(Agent)、語音合成模型、聲音複刻模型(多語種的遷移複刻)、語音識别模型、文生圖模型,除視頻生成模型外,基本涵蓋了目前模型的使用場景,且源于雲雀語音大模型的技術,很明顯在語音模型上更為細分。
目前基于角色扮演模型,打造出了貓箱産品,可以打造單一的角色交互,也可以多角色之間交互發生故事。
第三類則是工具類模型:針對于更專業的調試領域,Function Call模型和向量化模型。可根據不同的輸入指令和情景,選擇不同的函數和算法來執行相關任務,也是當前支持扣子的主力模型。
之所以經曆了這樣的分類,譚待講道:“表面上看這是技術的分型,但是實際上我們是根據企業用戶的需求進行選擇,參考過去企業對于模型的調用量,這是很真實的數據。”
不僅豆包增加了多個“影分身”,字節的産品包也開始從“豆包”開始,出現了貓箱、星繪、河馬愛學、即夢等等。
朱駿在經曆了抖音前身Musical.ly、TikTok等多個明星産品打造,帶着豐富經驗的他開始操刀字節大模型的産品。
技術如何落地在産品當中?從目前的産品矩陣中,字節的大模型産品思路也逐漸浮出水面。
“和AI時代之前做産品設計比較,我的個人感受是既有共性又有很大的差異。共性是用戶的核心需求還是那些,差異點是,以前是在成熟的技術上想應用,隻要用同理心去理解用戶的需求和使用體驗,就能做出一個還不錯的産品。”朱駿講道了,在AI時代,他們設計産品時的變與不變。
比如讓自己變好看點的需求,社交娛樂和教育學習的需求等等,都沒有變,這些其實是用戶場景的通用性,但滿足用戶需求的手段變了,滿足産品的技術在快速演進,每隔三個月、半年都會發生很大的變化。而且它的能力改進往往不是線性的,隔一段時間可能就會出現一個躍遷。
在現場,我們對字節新的産品貓箱進行了測試,負責“貓箱”的産品人員告訴矽星人:“目前貓箱是一個Agent+文生圖+文本能力一個綜合技術能力集成的産品,但是本質上是一個UGC的平台,需要用戶自己創造Agent和劇本。”
上述負責人講道:“通過前期的用戶調查,發現這是一塊新的需求,因此打造了貓箱。”
朱駿也講道:“為了讓豆包在這種移動場景裡交互更方便,像一個随身攜帶的百事通,我們很早投入了很大力度優化語音交互體驗,包括基于大模型的ASR和超自然的TTS音色,盡量做到類似和一個真人對話的感受。”
02
字節AI,變“厚了”
由單點向外擴散,字節的大模型生态開始變厚。而除了模型本身和産品外,更重要的一點是譚待所強調的,這是豆包大模型第一次對外提供服務。
也就是說,豆包大模型家族全面To B了。
坦白講,以前的字節并沒有To B基因。火山引擎、飛書通過對字節本身長闆能力的外化,在前幾年積累了一定的客戶,但是對于整個企業市場而言,它依舊很年輕。
在幾天前的阿裡雲AI智領者峰會上,阿裡雲也強調大模型和千行百業的結合,這意味着火山引擎要在阿裡雲的優勢戰場上與其交鋒。
但唯一的變量,就是大模型帶來的全新的AI時代。火山引擎準備如何用大模型服務客戶?在譚待發言的最後半段,其實放了三個大招。
第一個是低價。做企業市場,痛點永遠是第一驅動力,而對于當下的企業而言,算力成本、推理成本高昂,就是最核心的痛點。在阿裡雲掀起了雲市場的“價格戰”之後,火山引擎對比了目前主流模型token價格,以低價為鈎子,進入企業市場。
會上,譚待公布了豆包通用模型pro-32k和128k的價格,如圖所示,在32k型号價格比行業低99.3%、128k型号比行業價格低95.8%。
“第一我們能做到,第二點是我們需要這麼做。”譚待講道。“技術上我們需要非常多的手段,比如模型結構優化的技巧、工程上從單機推理到分布式推理,再比如混合調度,本身我們自己的調度量非常大;第二就是推進生态繁榮,促進應用的爆發,市場有很大需求,但創新的風險很高,面臨不确定性,我們必須把試錯的成本降到非常低,市場的呼聲就是更低的成本更好的模型。”
數字對于普通用戶而言,或許沒有那麼形象。譚待舉了個例子:“今天如果你通過火山引擎、通過豆包大模型1塊錢就能獲得125萬個token,這是什麼概念?《三國演義》很多人都讀過,一共隻有75萬字,所以隻需要1塊錢就能處理3本《三國演義》的文字量。”
To B的價格戰并不稀奇,隻不過沒想到,是由火山引擎率先發起的。
不過譚待講道:“To B的業務要求長期的定力,用虧損換收入是不可持續的,未來我們也會持續通過技術降低成本以降低價格。”
價格是驅動市場的因素,但更難的是,未來大模型将以什麼樣的形式落地行業?
火山引擎将這個連接器的角色,賦能給了火山方舟2.0。
會上,譚待宣布火山方舟進行全面升級,這是去年火山方舟面世以來第一次疊代。
在2.0生态裡,火山引擎根據過去一年的客戶服務經驗,着重升級了插件生态。
“不要讓用戶來找我們,要讓我們去找用戶。”朱駿講道。
插件是相互連接的第一道門。比如聯網插件可以連接抖音頭條搜索技術,實時聯網信源、多模态交互等等,使用聯網插件,模型一秒變“Kimi”,也在某種程度上替代了搜索的能力。
更有抖音特色的是内容插件,提供海量豐富的内容、視頻理解和交互,并支持内容策略定制。内容、流量是抖音的看家本領,對于内容産品的打造是字節的一個巨大的優勢,而插件就能把這樣的能力對外提供服務。
RAG知識庫插件,内置了大規模高性能向量檢索能力,百億級别數據可以實現毫秒級檢索,也内置了豆包向量化模型,提供更好的搜索相關能力。同時RAG也能保證企業數據安全的同時,為大模型提供一個外腦,讓大模型在行業場景裡更加專業。
插件是連接的一種形式,重點在于火山引擎正在積極通過打造底層生态和基礎能力,為行業大模型落體提供基礎的土壤。
當然,除了傳統行業和大型企業,火山引擎也針對開發者群體,打造了“扣子”企業專業版,開發者可免費在“扣子”平台上打造自己的Bot,無論是以純軟件的形式、外嵌飛書、微信等平台或者以API的形式連接終端硬件。
矽星人簡單嘗試了用扣子平台操縱機器狗,幾乎隻需要自然語言給到一些指令,就可以讓機器狗在聽到指令時“舞獅”,解決了調試時間和技術門檻。
基本上我們可以确定,在經曆了一年的混亂、整理、明确的過程後,字節AI的生态版圖已經出現,從基座大模型到模型産品,從垂類大模型到開發平台,字節AI或許從今日起,才算正式啟程。