時間在變,空間随着時間也在變,不變的唯有真知灼見。
2024年12月24日  星期二
首頁
财經
參考
ESG
公告
市場
研究
IPO
公司
周報
動态
推薦
首頁 > 觀察

不玩“期貨”的快手接棒Stability AI,國産之光可圖大模型Kolors領跑開源生态

來源:真灼财經 時間:2024-07-12 16:35:09

字号

文章來源:矽星人Pro

文章作者:周一笑


這應該是國内用戶能直接體驗到的最強的文生圖大模型。


最近,快手打造的文生圖大模型——可圖(Kolors),正式宣布開源,迅速掀起一股旋風。這位才華橫溢的“藝術家”,不但善于繪制萬物,而且深谙中國文化精髓,不僅善“畫” 而且能“書” ,寫起漢字來也毫無壓力。評測視頻、教學指南、創意分享……社交媒體上,圍繞可圖的話題如火燎原。

可圖1.png

據了解,可圖(Kolors)的生成效果已經超越了現有的開源模型如SD3,并達到了與閉源商業模型Midjourney-v6相當的水平。可圖(Kolors)具有強大的複雜語義理解能力,畫質達到了攝影級别的質感,并且支持英文和中文漢字的生成。這樣強大的模型還是開源的,能不令人心動嗎?


可圖2.png

在AI大熱的當下,快手選擇了一條低調務實的道路。在近期舉行的世界人工智能大會(WAIC)上,快手的大模型家族首次集體亮相,并宣布可圖(Kolors)正式開源,引發了轟動。


可圖(Kolors)的這次開源包括了模型權重、完整代碼和技術報告,内容非常全面,目前已在Huggingface平台和GitHub上線。供個人開發者免費使用,獲得登記許可即可商用。


官網地址:https://kwai-kolors.github.io/


Github 項目地址:https://github.com/Kwai-Kolors/Kolors


Huggingface模型地址:


https://huggingface.co/Kwai-Kolors/Kolors


開源短短幾天之後,可圖(Kolors)已經在Github收獲2k stars。


可圖3.png


同時,可圖(Kolors)在Huggingface也登上了模型Trending榜首,截至發稿前已下載上萬次。


可圖4.png

這也展示了開源社區對可圖(Kolors)的熱烈反響。許多開發者在實際測試和體驗了可圖(Kolors)的生成效果後,給予了極高的評價。


在X平台,來自Stability AI和Huggingface等企業的開發者第一時間測試、宣傳、點贊可圖(Kolors)。


可圖5.jpg


同時也吸引了許多自發宣傳和改進可圖(Kolors)的專業用戶。


可圖6.jpg


可圖(Kolors)的開源之所以能獲得如此多的關注,離不開其頂級的性能表現。在智源FlagEval文生圖模型第三方評測榜單中,可圖(Kolors)以主觀綜合評分75.23分的成績,排名全球第二,僅次于閉源的DALL-E 3。特别值得一提的是,在主觀圖像質量方面,可圖(Kolors)表現尤為突出,評分排名第一,顯著優于其他開源和閉源模型。


可圖7.png


在50位人類圖像專家評估中,可圖(Kolors)也表現出色,超越了一衆開源模型,與Midjourney-v6性能相當,并且在視覺吸引力方面顯著領先。


可圖8.png


架構方面,根據官方技術報告,可圖(Kolors)使用了隐空間擴散模型,并創新地使用了大語言模型進行文本表征。這使得可圖(Kolors)具備了複雜長文本理解能力。更長的文本提示詞允許包含更多的細節和上下文信息,從而使模型能夠更準确地理解和生成圖像内容,并且可圖(Kolors)支持中英文文字生成。此外,可圖(Kolors)通過采用兩階段漸進訓練策略(概念學習和美感提升),在圖像美感和質量上達到了國際領先水平。


1

強大的複雜文本理解能力

可圖(Kolors)使用大語言模型進行文本表征,同時構建了精細化圖像文本描述數據集,在複雜文本理解能力上取得了顯著突破。從下圖中我們可以看到,可圖(Kolors)能夠正确繪制中國女性形象的所有元素和細節,從黑色皮夾克、時尚太陽鏡到鮮豔的紅裙和醒目的口紅,無一遺漏。在文生圖模型常見的顔色混淆難題上,可圖(Kolors)也表現優異。即便面對多個主體和繁複的色彩描述,模型依然能夠準确無誤地進行繪制,将文字描述轉化為視覺呈現。


可圖9.png

一個時髦的中國女人在上海的街道上,陽光照在她身上,她穿着黑色皮夾克,紅色長裙,背着一個黑色背包,戴着太陽鏡,塗着紅色的口紅,她走起路來自信而随意

可圖10.png

橘色帽子紅色圍巾綠色衣服的女生和深綠色帽子藍色毛衣黑色外套的男生

作為一款國産的文生圖大模型,可圖(Kolors)在理解和呈現中國特色元素方面表現得尤為出色。如下圖所展示的,無論是北京奧運會的标志性建築“鳥巢”、上海現代化都市風貌的代表“外灘”、彰顯古代建築智慧的“天壇”,還是中華文明的象征“長城”,可圖(Kolors)都能以很高準确度和細膩度進行再現。


可圖11.jpg


1

支持生成中文文字

可圖(Kolors)的一大技術亮點是支持中文漢字生成。雖然,DALL-E 3和SD3支持英文文字生成,但可圖(Kolors)是第一個原生支持中文文字生成的文生圖模型。

根據矽星人的實測,可圖(Kolors)生成中文文字的效果已經相當驚豔。不僅能夠準确繪制不太常見漢字(如:矽),也支持中英文同時繪制,且文字與背景之間的貼合感弱。


可圖12.png


面對SD3宣傳中的高難度複雜提示,可圖(Kolors)依然不在話下。模型能夠精準捕捉并呈現提示中的各種複雜屬性,包括具體數量、精确位置、豐富色彩、英文字母、中文漢字,以及數字概念。


可圖13.png

在大語言模型的加持下,可圖(Kolors)仿佛擁有一個能夠深入解析人類語言的“大腦”,能夠迅速理解并準确執行各種複雜的視覺創作指令。這再次印證了可圖(Kolors)強大的複雜語義理解能力。


1

攝影級的畫質質感

可圖14.png

可圖(Kolors)能夠生成具有攝影級畫面質感的圖像,這一效果得益于海量訓練數據的支持,以及訓練策略的優化。

具體來看,可圖(Kolors)訓練分為兩個階段:概念學習和質量微調。首先,可圖(Kolors)從大規模圖像-文本對中學習各種知識。接下來,團隊使用高質量、高美感的數據對模型進行微調,以提升圖像的精細度和美感。同時,可圖(Kolors)引入了一種新的加噪策略,使其在高分辨率圖像的處理上表現更好。這一系列優化顯著提升了模型生成圖像的質量和視覺效果,讓可圖(Kolors)生成的圖片具備攝影級的畫質質感。


可圖15.jpg


1

深入業務場景

憑借其卓越的模型能力,可圖(Kolors)的開源引發了全球社區廣泛關注。而實際上,可圖的文生圖能力已經應用到快手的多個下遊業務中。


例如在非真人IP形象定制中,用戶可以根據具體需求生成獨特的非真人IP形象,這些形象不僅具有高度的視覺吸引力,還能根據用戶的指令進行個性化調整和優化。這一應用不僅提升了内容創作的效率和質量,還為品牌和個人IP的打造提供了新的可能性。


可圖16.png


可圖(Kolors)通過人像ID保持功能,能夠在生成圖像時保持用戶的獨特面部特征,同時支持多種風格化人像的生成。用戶可以在不同風格的虛拟形象中自由切換,例如卡通風、油畫風、賽博朋克風等,不僅滿足了用戶多樣化和個性化的表達需求,還可以衍生出諸如多風格合成、誇張表情定制、寫真定制等趣味玩法。


可圖17.png

借助可圖(Kolors)的能力,用戶可以在虛拟環境中試穿不同的服裝和配飾,實時查看效果。這一功能不僅提升了用戶的購物體驗,還大大增加了商品的展示效果和吸引力。商家能夠根據用戶的個性化需求,自動生成多樣化的商品圖片和展示素材,從而更精準地進行市場營銷,真正實現千人千面的商品素材生成。



可圖18.png



1

SD之後,可圖(Kolors)扛起開源大旗

近段時間,開源社區的明星公司Stability AI經曆了劇烈動蕩。Stability創始人兼CEO Emad Mostaque于3月辭職,高層及核心技術人員相繼離職,甚至公司傳出尋求“賣身”的消息,使得業内人士擔憂這可能是Stability AI的最後一舞。然而,在開源社區遭遇如此重創的時期,快手選擇将可圖(Kolors)開源,也因此成為了業界關注的新焦點。


快手此次開源的可圖(Kolors),不僅在效果上超越了開源的Stable Diffusion 3,還同時支持中英雙語生成,并且支持中英文文字繪制,出圖質量達到國際領先水平,比肩閉源商用模型。與此同時,快手也展示了對開源技術的堅定承諾,計劃陸續開源可圖(Kolors)的相關應用組件,如ControlNet、LORA、IP-Adapter等,以豐富其開源生态。


同時,我們也欣喜的觀察到,已經有不少開發者開始實現基于可圖(Kolors)的相關應用。相信在開源社區的共同努力下,可圖(Kolors)的開源生态會越來越完善。


可圖19.png


總體來看,可圖(Kolors)開源展示了快手在AI技術領域的開放态度和技術能力。快手希望通過開源來推動文生圖大模型社區的發展,為企業與開發者提供強大的工具來開發自己的應用和産品。未來,随着越來越多的企業和開發者開始使用可圖(Kolors),我們也可以期待整個文生圖大模型社區将迎來新的發展契機。


在當今AI大潮洶湧的時代,前沿技術的光環耀眼又令人迷惑,吸引着無數企業投身其中,一方面熱情高漲,另一方面又顯露出急于求成。無論是大語言模型還是生成式AI,技術的最終價值都在于它如何改善人類的生活和工作方式。隻有那些能夠在喧嚣中保持清醒,始終聚焦于解決實際問題的公司,才有可能在下一個時代站住腳跟。


快手在AI大模型領域展現出低調、高标準和開放的态度。他們不搞期貨,也不玩花活。可圖(Kolors)這樣的模型正在真實地滿足用戶需求和商業轉化,并通過開源的方式回饋社區。


縱觀整個互聯網行業的發展曆程,每一次技術革新都與内容形态的演進緊密相連,當生成式AI和推薦算法更加緊密的結合,短視頻平台與AI大模型的結合将成為下一個重大的技術融合方向。可圖(Kolors)的開源和落地,已經讓我們看到了這種預兆,接下來就看快手能否抓住這個創造革命的機會了。


1

One more thing

目前可圖大模型的各項功能已經集成至可靈AI中,普通用戶可以直接通過可靈AI官方網站和可圖大模型微信小程序免費使用各項功能。


可靈AI官網鍊接:


https://klingai.kuaishou.com/


微信小程序:

可圖二維碼.bmp









微信掃碼 > 右上角點擊 > 分享