所有語言
分享
AI 新智界訊,1 月 5 日,“智求共贏・中國 AIGC 產業應用峰會暨無界 AI 生態合作夥伴大會”在杭州未來科技城召開。大會由杭州未來科技城管委會、餘杭區科技局和餘杭區企業(人才)綜合服務中心聯合指導,時戳科技主辦,AI 新智界提供媒體特別支持。大會上,無界 AI 首席技術官張飛彪發表“無界 AI 企業服務:一站式 AIGC 解決方案”主題演講。
據張飛彪介紹,無界 AI 提供一站式產品、模型、算力 AIGC 解決方案,具體包括軟件、模型、開放平台、算力、賽事及培訓 6 大項目。談及未來規劃,張飛彪稱,無界 AI 將開放生態服務,擁抱更多的開發者,支持自定義工作流、插件、模型等;同時,無界 AI 將支持企業協同管理,包括賬號、專用算力、網盤管理、數據羅盤等。
以下是 AI 新智界根據速記整理的演講內容,為方便閱讀已進行部分刪減:
今天我將為大家介紹無界 AI 的企業服務,我們的定位是“一站式的產品、模型、算力 AIGC 解決方案”。
首先從整體上了解一下無界 AI 對外提供的整體服務。
軟件服務上,對外有通用版,包含 PC 網站、H5 站點以及相關的安卓和 iOS App;專業版軟件的功能非常豐富,包含了工作流機制及相關的插件功能。除此之外,我們還支持漫畫、視頻和 3D 的生成。另外,我們也對外輸出了無界自研大語言模型集對應的智能體。
今天,我會重點介紹模型服務、API 服務和算力服務,另外我們也相關的創意賽事服務及培訓服務。
首先,先看一下無界的行業模型。剛才長鋏已經詳細介紹了該模型,這裏我不做贅述。我一直持有的觀點是,如何用行業模型解決專業領域的問題,是 AIGC 落地應用的關鍵。本身無界 AI 的立足之本也是我們的行業模型,我們會針對每一個細分領域訓練出對應的行業模型。
行業模型的訓練主要分成三大步驟:
首先是數據部分,大家要知道數據對於一個模型的好壞是至關重要的,它本身也是 AIGC 這一塊的基礎燃料。在該流程中,模型主理人會做好數據的收集及數據質量的評估,然後交由算法同學做尺寸處理,因為不同的尺寸會應對不同的需求場景,比如說 1:1 比較適合做頭像,16:9 比較適合做壁紙。完了之後,做出對應的數據清洗,包含水印的去除、背景的整體優化。此外,我們還會對特定場景的數據做針對性的優化,其中也包含局部的數據優化。大家知道在 AI 繪畫中,手部、耳部、眼部容易出現問題,所以我們在這方面也做了特殊優化,後面也會訓練出對應的 LoRA,往後會跟大家介紹。
有了數據部分之後,如何針對數據進行相關的標註也是非常關鍵的。不同於常規的模型訓練,我們除了使用圖片包含的信息,我們還會使用圖片相關的描述信息,比如標題、正文描述,還有客戶標籤。經過無界的多模態大模型,將其轉化為自然語言描述,再經過無界的自然語言模型進行數據標籤,最終輸出為體系化的結構標籤。強調一下,無界的標籤不只用於訓練階段、強化學習,而且在生成階段也會作為觸發詞,輔助我們精準控制,減少開盲盒的效果。整個數據標註的服務功能,目前我們也會對外提供,如果大家有這塊的需求,也可以關注一下。
有了數據,做好了數據標準,最後就是進入對應的模型訓練階段。模型訓練的時候,很關鍵的是要使用什麼樣的底模。因為現在的 SD 有 1.5,也有 SDXL,還有 SD 2.1,到底使用哪個相關模型?我們會根據多融的消融實驗,做好對比測試,最終確定出最優的訓練底模。在此之上,通過相關的模型訓練算法,比如說微調模式、Dreambooth、LoRA、融合實驗等。這是我們常見的訓練模式。另外,不同的模型以及不同的數據有不同的特點,我們會根據對應的特點做好訓練參數的調整。這一塊需要再強調一下,本身無界的行業模型大概有十幾個,所以我們投入的資源非常大,目前的訓練算力也是以高階的 A800 和 H800 為主,整體使用的算力比較豐富;此外,從訓練的方式上,我們也有一套標準化的訓練模式,也能做到分佈式訓練。
目前,無界對外提供的模型訓練服務主要包含這幾種:
一方面是大模型訓練,我們已經跟一些大型車企和快消品牌,還有萬事利、三維家進行了合作;我們還有對應的 LoRA 訓練,一些前沿的技術我們也都支持,比如目前流行的潛在一致模型(LCM),它能夠大幅提升訓練和推理效率。對應的,手部、眼部這一類容易出現崩壞的情況,我們會結合優化 LoRA,去輔助模型推理生成,減少這類情況的出現。最後,重點提一下個性寫真服務,我們結合了自己的人臉融合算法,去提升圖像的相似度。這方面主要是高階版,使用多張圖片(目前是 6 張以上),可以訓練一個精美的寫真,最終可以媲美線下影樓的效果,它結合的是人臉 LoRA 以及底層私人影像模型。我們還有一個是基礎版,或者叫快捷版,可以用單張或多張圖在 3 分鐘內完成 LoRA 訓練,整體效果也很不錯,而且模板可以自定義。剛才提到的神隱活動,使用的就是這種快捷模式。
接下來是整體的開放平台,也就是對應的相關的 API 服務。
首先是企業賬號的開通,包含密鑰、接口的整體調試。完了之後,可能需要做業務相關的參數配置,比如存儲、內容審核選擇等。再來是套餐選擇,包含積分和時長模式,之後商務同學會重點介紹。
在管理平台部分,為了方便企業使用,我們也提供企業控制台,方便客戶做好系統管理、對應的參數配置以的數據看板和監控告警服務。
上面只是簡要的列舉,實際上整個 API 服務要豐富得多,大體可以分為:基礎作畫相關、模型相關,還有現在比較火熱的視頻。視頻服務目前還處於初級階段,大家可以根據自己的實際業務和場景來選用,包括文生視頻、圖生視頻、視頻轉視頻等。訓練上,除了前面提到的個性相機、LoRA 訓練,我們還支持訓練素材的管理以及數據標註服務。另外還有比較特色的功能,比如說咒語生成器、咒語解析器,這都是無界的特色服務。另外我們還有大語言模型,能把自然語言轉化為相關的繪畫提示詞,同時進一步推薦繪畫模型及參數配置。
前面提到的這麼多功能,如果沒有穩定可靠的服務支撐,就很難保障良好的用戶體驗。這裏,我們快速看一下無界 AI 的架構圖,最上層還是相關的軟件服務及開放平台,也就是 API 部分;業務部分,主要包含繪畫、訓練以及視頻相關的。往後還有一些插件和工作流機制。再往下則是後端服務。其中比較特色的,就是算力調度及管理平台。
算力調度上,最關鍵的是我們自研了一套模型動態切換算法。大家知道繪畫的時間跟算力配置、模型數量有一定關係。我們在這一塊做了自動啟停服務,當隊列排隊較多的時候,我們會自動啟動新的機器來加入到創作的服務。當有閑置資源的時候,我們又會逐步釋放,以提升 GPU 算力的利用率。而模型動態切換上,目前使用的是大內存的緩存方案。經過緩存以後的模型,A 模型切換到 B 模型,加載和卸載,我們能大致做到 3 秒完成。如果是磁盤或者網盤的模型,比如剛才提到的個性相機訓練,一般是 30 秒內就可以完成模型切換。通過這一套機制,我們可以在充分保障用戶良好體驗的情況,也進一步提升 GPU 算力的利用率,同時把成本做到更低。
接下來是數據看板和監控告警服務,這是非常關鍵的。比如異常告警,我們不可能永遠看監控看板,只能配置一定的閾值,當出現異常的時候,它會通過告警服務收到通知,再靈活作出對應的處理。乃至到後面,可以做到自動化的運維。在數據看板上,主要包含對應的業務指標和技術指標。
在介紹完開放平台後,最後給大家介紹一下算力服務。我們的算力主要由無界 AI 子業務矩池雲承接。矩池雲成立於 2019 年,比無界 AI 還要早,也是專註於人工智能領域的 GPU 雲平台。目前,對外能夠提供分佈式的 AI 計算服務,包含網盤、彈性調度算力等。另外,在技術上我們也有自研的輕量級容器技術,以及內核機的微 GPU 技術。像常見的 AI 框架,目前都是支持的。因為它本身是一個比較完整的雲服務平台,我們也能夠提供開源的大語言模型的鏡像,以及 SDXL 文生圖的鏡像。
在以往的合作中,有一類客戶有自建算力的需求,我們提供了從硬件的採購,再到整個系統的設計的全鏈路解決方案,幫助把本地資源上雲,做到整體的混合調度,相當於把私有雲和公有雲整體結合起來使用。這個服務經過了五年的打磨和迭代,整體非常成熟。如果有企業比較看重數據保護,需要做一些數據隱私的考慮,比如說系統隔離的話,可以考慮算力的私有化部署方案。
最後就是我們的混合雲彈性調度。我們能夠根據實時算力需求,去靈活調度多家雲廠商的算力需求,能夠靈活應對大型活動的波峰波谷。通過一個平台,去對接多家廠家。我們現在也跟市面上常見的華為雲、騰訊雲、火山引擎都做了對接,包括國內外的軟件系統以及芯片都做的兼容支持,能夠通過一個平台去靈活調度公有雲、私有雲及專有雲。
介紹完模型服務、開放平台以及算力服務,其實無界還做好了一些相關服務。在未來,我們希望能開放生態,擁抱更多的開發者和企業,一起加入到無界的生態體系中,由各自開發者和企業來做相關定義;還有模型的訓練和託管,乃至到最後做到低代碼平台,靈活搭建產品和管理平台。最後還有在企業協同方面提供的服務,包含企業賬號、子賬號、虛擬賬號,以及相關企業算力的租用和網盤管理。在數據上,希望能給對應企業提供更好的數據洞察以及分析能力。
我的演講到這裏,也期待新的一年裡,無界 AI 能給大家提供更加優質的企業服務。