所有語言
分享
文章來源: 機器之心
作者:Esther
大模型的性價比之戰已經來到了新的階段。
5月15日,2024火山引擎FORCE原動力大會上,火山引擎總裁譚待宣布,字節跳動內部自研的豆包大模型正式在火山引擎上對外開放服務。
豆包大模型在價格上主打“極致性價比”:豆包通用模型pro-32k版,推理輸入價格0.0008元/千tokens,較行業價格低99.3%。一元錢能買到豆包主力模型的125萬tokens,相當於三本《三國演義》的輸入量。
譚待認為,降低成本是推動大模型快進到“價值創造階段”的一個關鍵因素。過去一年時間中,許多企業已經從探索嘗試大模型,到成功將大模型與核心業務流結合。不論是探索階段的小場景試錯環節,還是大流量的核心業務流結合環節,大模型成本高昂問題始終是制約大模型在千行百業落地的關鍵要素之一。
除了成本,企業大模型落地過程中還可能面臨的模型效果差、信息安全、算法實踐經驗少等問題,大模型服務平台火山方舟2.0版本提出了更具體的解決方案,其平台模型效果、核心插件、系統性能和平台體驗層面全面升級。
在大會前的採訪中,火山引擎智能算法負責人、火山方舟負責人吳迪向機器之心透露,根據字節跳動內部的判斷,當前階段已經處在大模型規模化落地的爆發前夕,預計2024年年底或者2025年初,企業對大模型的調用量將出現一個陡峭上升、流量激增的拐點。
吳迪認為,在大模型整體落地走向拐點的過程中,模型效果、系統承載力以及性價比三個重要痛點將會更加明顯,火山方舟未來也將在這三方面持續發力。
模型效果提升,支持日千億級別tokens調用量
模型的性能和效果是制約許多企業創新場景的首要條件。作為大模型服務平台,火山方舟平台在模型上希望打造一個“精品模型商店”。根據吳迪的說法,跟去年相比,火山方舟平台在模型的上架上,呈現更加嚴謹和收縮的態勢。“只選擇最優秀的閉源大模型,以及能夠持續發展的開源大模型”。
在這次的火山引擎FORCE原動力大會上,字節跳動內部的豆包大模型首次面世,而火山方舟將是豆包大模型的唯一使用入口。
字節跳動向外一次性推出了豆包大模型的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、語音合成模型、語音識別模型、聲音復刻模型、Function call模型、文生圖模型以及向量化模型。
不同模型面向不同的場景需求。在通用需求上,豆包通用模型pro版能夠提供更加專業且泛化的能力,窗口尺寸最大可達128K,全系列可精調,具備強理解、生成、邏輯和記憶力,在問答、總結摘要、創作、文本分類、角色扮演等通用場景具備全面通用的能力。而lite版,則面向更追求性價比的客戶,更加輕量。
其他細分場景模型支持和加強單一細分場景的能力。比如,角色扮演模型極大地加強了模型在角色扮演方面的能力,能夠支持老師、朋友、寵物等角色的扮演需求;語音合成模型擁有超自然語音合成能力,做到5s聲音克隆,支持聽書、陪伴交互等場景;語音識別模型,支持多語種複雜場景語言識別需求,相比小模型識別錯誤率降低30%,在音樂、科技、教育、醫療等垂直領域識別錯誤率降低50%以上。
經過過去一年的內部打磨,豆包大模型從1.0進化到3.0,在字節跳動內部被用於辦公智能助手、電商導購、售後客服、營銷創作、數據智能分析、編程助手等等50餘個業務場景,日調用量達到1200億tokens(約1800億漢字),圖片生成量超過3000萬張。目前由豆包大模型支持的AI應用助手豆包APP累計下載量超過1億,桌面+App雙端月活用戶量2600萬,支持創建的智能體總量超過800萬。
在採訪中,吳迪向機器之心解釋稱,當前豆包大模型每日千億tokens級別的量級是目前中國(大模型)市場上非常大的單日吞吐量。這意味着,豆包大模型以及火山方舟的平台已經經過了大流量的生產環境驗證,因此即使面對流量非常大,對效果要求非常嚴苛的客戶,被內部業務打磨后的豆包大模型也能夠支持這類需求。
處理大流量的能力在大模型落地拐點到來后將非常重要。根據吳迪的預判,到了24年底或者到了25年的時候,企業在大語言模型的調用量上面將是今年的數十倍以上。隨着企業將大模型納入自己的核心業務流中,處理大流量的需求也會逐漸拓展。
“大模型的落地不是一件從帽子里拽出來兔子的一個魔法。要把大模型在企業的具體環境裏面用好,來解決那些遠高於公開評測集的困難問題,是需要有一定的算法協助的。”
在模型效果的提升上,除了模型本身的能力提升和場景聚焦,針對許多客戶在工程落地上的困難,火山方舟還形成了專業的算法服務團隊,可以在落地全過程,協助業務診斷、訓練優化、問題解答,比如提示詞工程,協助用模型和客戶的數據去做一些精調和訓練,保障項目落地。
目前,豆包大模型團隊還在重兵投入,持續招攬研究型專家和高潛人才。在字節跳動招聘官網上搜索“豆包大模型”,即可看到該團隊有大量職位在招,對大模型的堅決投入可見一斑。
系統承載力增強,完成分鐘級千卡伸縮
在大模型被企業逐漸納入核心流程的階段,火山方舟還發現,面對更大體量的業務、更劇烈的流量波動,還需要更強的系統承載力,否則“有了模型,也跑不起來”。
吳迪總結稱,所謂系統承載力,是充沛算力、模型優化能力以及系統調度能力的乘積。只有系統做到更加彈性、穩定、包容,才能接住業務的流量高峰期,並且為潮汐起落的流量匹配最佳的算力投入,實現成本節約。
根據大會的介紹,升級后的火山方舟在系統承載力方面的增強也體現在這三方面。在算力方面,擁有充沛的公有雲GPU資源池,能夠保障資源潮汐調度,流量高峰業務穩定;在優化方面,創建精調模型接入點后5秒即可使用,路由信息持久化保存,即用即達;在調度方面,能夠分鐘級完成千卡擴縮容,有效支撐突發流量和業務高峰。
通常而言,由於一般公司流量的高峰期相對集中,企業自建機房的情況下,平均每天GPU使用時間通常在8-10小時,在4-6小時的高峰期中,GPU用量可以做到效率最高,但是其他時間效率較低,平均成本會被拉高。
在一個具備更強承載力的系統下,火山方舟希望做到的是,在無限短的時間里,讓算力流動到它該出現的地方,當客戶流量爆發時,在毫秒級別的時間里,為這個時段的客戶增加GPU算力;當流量下行時,同樣快速地抽離算力。在保證客戶延遲穩定的情況下,貼合其流量變化,從而最終實現創造最低單位算力成本。
另外,火山引擎在推理層面上做了大量優化,包括算子優化、通信優化、大的集群上主網和儲存的優化,能夠幫助適應異構硬件。
成本更低,大模型價格進入“厘時代”
在眾多限制因素中,由於算力貴帶來的整體大模型使用成本高昂的問題,不僅限制了更多企業在大模型落地方面的創新,也阻礙了企業將大模型落地場景規模化的進程。
QuestMobile數據显示,截至今年3月,基於大模型的AIGC行業用戶量為7380萬,儘管同比增長了8倍,也僅占移動互聯網用戶量的6%。
火山引擎總裁譚待認為,降低成本是推動大模型快進到“價值創造階段”的一個關鍵因素。
會上譚待宣布,豆包大模型的定價大幅低於行業價格:豆包通用模型pro-32k版,模型推理輸入價格僅為0.0008元/千tokens,而市面上同規格模型的定價一般為0.12元/千,是豆包模型價格的150倍。
另外,豆包通用模型pro-128k版本,推理輸入價格為0.005元/千tokens,僅是GPT4-Turbo128K (0.07元/千tokens)定價的7%。
根據火山引擎公布的價格計算,一元錢就能買到豆包主力模型的125萬tokens,大約是200萬個漢字,相當於三本《三國演義》。
譚待表示,大模型降價,不能只提供低價的輕量化版本,主力模型和最先進的模型也要夠便宜,才能真正滿足企業的複雜業務場景需求,充分驗證大模型的應用價值,從而催化出超越現有產品和組織模式的創新。
豐富的插件生態,嵌入抖音頭條底層能力
在本次火山方舟的產品升級中,上述三大升級被認為是火山方舟的三個核心循環層,由這三個循環層共同作用下,能夠幫助客戶解決大模型落地中最重要的三大痛點。
除此之外,本次發布會上,火山方舟還重點提到了,2.0產品對插件生態的進一步豐富,更新后的平台將會上線三個凝結了字節跳動內部強項能力的插件——聯網插件、內容插件以及RAG知識庫插件。
根據吳迪的說法,這三大插件是內外部業務需求分析后,需求量最大的三種類型插件,這三大插件也同時利用了字節跳動本身的技術、內容、生態優勢。
其中,RAG知識庫插件中內嵌的豆包向量模型,來自抖音和頭條兩大產品的底層向量庫引擎,能夠支持200億的庫容量,面對10萬次請求能夠在3-5毫秒的延遲內完成。“這可能是國內唯一一家能夠支持實時索引建庫的知識庫”,吳迪表示。
在抖音內部,這項能力被用來,在幾毫秒到幾十毫秒間,為用戶從數十億乃至上百億的候選視頻內容中,篩選出適合給他推薦的幾十條內容。“從百億個候選里找到Top100,這個能力是抖音的看家本領,(高速精準篩選)這跟企業知識庫的底層需求是完全一致的”。
在企業的外掛知識庫場景中,在技術上,通常需要對數十萬篇文檔進行切片、向量化。然後根據指令從數百萬個切片中找到最相關的,這些切片經過排序之後進行大模型做總結和摘要,最後輸出。在這一個完整流程中,對系統能力的要求與視頻推薦系統篩選的要求具備的一致性是——都需要根據輸入指令快速而準確地找到對應的內容。吳迪強調,這是許多企業都非常渴望的一種效率。
這三大主要插件之外,企業級AI應用開發平台扣子專業版也對外發布。在扣子可視化靈活編排智能體的能力基礎上,扣子專業版提供企業級SLA和多種高級特性,使AI應用更易落地,讓企業更專註於通過智能體創新,驅動業務增長。
拐點將至,大模型落地即將迎來流量爆發
大模型向千行百業落地的進程仍剛剛開啟,吳迪在採訪中坦言,截至目前,大語言模型的調用量級仍然不高,但是到2024年年底或2025年初,將會迎來爆髮式的拐點。而拐點到來的必要條件,是許多充滿活力的創業公司,或者很多強技術能力、強探索精神的企業已經逐漸找到把大模型用好的感覺了,比如汽車、教育、醫療等等行業的公司。
“現在在我眼中,沒有競爭,只有合作和挑戰”,他認為,無論是火山引擎還是其他的同賽道公司,在拐點到來前,大家需要一起去面對共同的問題:
“這是一個未來五年、十年、十五年的長期旅程。當模型效果、成本、系統這些問題都解決了,剩下的就是千行百業的客戶需要針對自己的場景去想,未來的AI時代下,到底會發生什麼事了。火山方舟只是能夠幫助他們更快、更省地推進這個過程,幫助他們解除一些障礙。”
吳迪表示,在拐點到來前,火山方舟會繼續順應實際需求,在模型效果上取得更好的成績、在系統上做到更加彈性和穩定、在成本上,進一步幫助企業降低難度,支持企業更加自信地嘗試和快速迭代,更加無畏地實驗和創新。
© THE END