所有語言
分享
文章來源:Founder Park
昨天,Suno 在 X 上宣布成功完成了 1.25 億美元的 B 輪融資。本輪投資者中,有風險投資公司 Lightspeed Venture Partners,還包括風險投資基金 Founders Collective,以及科技高管和投資者 Nat Friedman。
根據 The Information 的消息來源,本輪融資后 Suno 估值達到 5 億美元。新籌集的資金將用於擴大公司的員工隊伍,截至今年早些時候,公司僅有 12 名員工。
自 8 個月前推出首款產品以來,Suno AI 的用戶群體已迅速增長至超過 1000 萬。微軟公司更是將 Suno 的功能直接整合到了其 Copilot 產品中。
在 Suno 的歌曲排行榜中 ,Stone 是第一首超過 100 萬次收聽的歌曲。如果 AI 音樂在開發一兩年後就能如此流行,難以想象一下五年後它變成什麼樣。
最近,知名科技博主 No Priors 邀請到了 Suno 的聯合創始人兼首席執行官 Mikey Schulman 展開一場精彩的討論。在訪談中,Mikey 分享了與他人合作創辦 Suno 的心路歷程,AI 音樂的難點以及它未來將會如何引爆產業變革。
文章基於 No Priors 對 Mikey Schulman 的訪談編譯,Founder Park 略有增刪。
Sarah:作為一位音樂愛好者,你的轉型之旅相當獨特,從音樂領域跨越到哈佛物理學博士,再到創立數家人工智能企業,能否跟我們分享一下這段歷程?
Mikey:確實,這是一條曲折的路。我玩音樂已經有很長時間了,四歲起學習鋼琴,成長過程中參与了很多樂隊。然而,我意識到雖然我熱愛音樂,但我的專長並不在此。相比之下,物理是更為明智的選擇。我一路求學,從大學到研究生,直到取得物理學博士學位,專註於量子計算的研究。然而,儘管量子計算魅力無限,我內心清楚,它並不是我的終身事業。
Sarah:你是否預想過自己會成為一位理論物理學家?
Mikey:我從來沒有設定過固定的職業路徑,從不限定自己要做什麼或不做什麼。在研究生期間,我接觸到的量子力學研究不僅理論深奧,而且在實踐層面極具挑戰。這一領域在上世紀 50 年代奠定基礎,其中包含許多複雜的低溫微波工程挑戰,這些對於實際應用至關重要,我發現自己在處理這些問題上比一般的物理學家更有天賦。我在這裏找到了自己的優勢,享受着每一個探索的瞬間。
Sarah: 能否談談你是如何從物理學術界轉向創業的?
Mikey: 我的轉折點始於偶然遇見一家名為 Kentro 的小公司,它只有大約 10 名成員,但我立刻被那裡的人和氛圍吸引了。於是,我決定加入他們,成為一名軟件工程師。幸運的是,我入職之後機器學習的機遇便顯現出來,尤其是在 2014 年,有物理學博士學位的我恰好成為了這一新興領域中的一員。我抓住這個機會,快速學習,組建團隊,開發出一些有趣的產品,最終在 2018 年,我們的公司被 S&P Global 收購。
Sarah:你們的起點是基於一個開源模型——Bark。能否分享一下你們最初的靈感來源,以及你們是如何進入音樂生成這片領域的呢?
Mikey:在 Kensho,我們專註於文本處理,直到被 S&P Global 收購后,我們接手了首個音頻相關的項目——將收益電話會議轉錄為文字。你們兩位都閱讀過的收益電話會議記錄,有很大一部分就是 S&P Global 的成果。以往這類工作全靠人工,不僅繁瑣而且費時,但通過自動化,我們顯著提升了效率和處理量,也因此對音頻 AI 產生了濃厚的興趣。雖然我們本身就是音樂愛好者,但恰恰是這樣一個並不那麼吸引人的項目——收益電話會議的音頻轉錄,點燃了我們的熱情。此外,我們觀察到相比於圖像和文本領域,音頻處理技術的發展滯后許多,這一情況在 2020 年尤為明顯,而近年來圖像和文本技術的飛速發展更是加劇了這一差距。
像我之前提到的,我們並沒有一個詳盡的長遠規劃。在開源項目 Bark 的開發過程中,甚至在它發布之前,我們就已經確定語音不是我們的主攻方向。確實,有不少人建議我們投身語音技術領域,他們認為開一個語音公司會更直接,「你會構建一個偉大的 B2B 產品,人們會喜歡它」。但我們太喜歡音樂了。所以我們決定建立一個音樂公司。
Sarah:為何你們決定不專註於語音而是投身音樂?
Mikey:語音雖然迷人,但它缺乏我們所追求的那種創造性的自由度。語音的目的在於準確傳達信息,哪怕稍顯机械或缺乏感情色彩,只要傳達的信息無誤,任務就算完成了。而真正的創造力發生在音頻的一個完全不同的部分,那就是音樂。
Elad:你們在技術實現上有哪些獨到之處,特別是在處理音樂生成上?
Mikey:我們主要採用 Transformer 模型,這得益於我們團隊在文本處理方面的背景,而 Transformer 模型在音樂生成上同樣表現出色。音頻的採樣率極高,每秒達到約 50,000 個樣本點,我們面臨的挑戰在於如何有效地將這種連續信號轉換為可管理的 tokens 集,這是一個需要創新思維的過程。
Sarah:你們如何評估模型生成音樂的質量?
Mikey:音樂的美感是評估的關鍵,這在 AI 領域是一個公認的事實。我們可能在技術指標上達到高準確度,但音樂的感染力和情感表達往往超越了這些量化的標準。音樂評估往往更為主觀,意味着要聽很多東西,並讓人們聽很多東西。在如何評估這些東西的問題上,我們還有很長的路要走,同時這個評估過程也讓我們更深入地理解人類情感。
Elad:你的音樂背景在 Suno 的開發中發揮了怎樣的作用?
Mikey:創辦公司以來,我反而學到了更多關於音樂的新知識,接觸到了之前從沒接觸過的音樂流派。我的音樂背景或許幫助我們避免了模型中的隱性偏見,我們盡量讓模型不受限於傳統的音樂理論框架,就像不要告訴 GPT 這是一個名詞,那是一個動詞,而是讓GPT 自己去理解。如果我告訴我的模型只有 12 種音調,我的模型將只知道如何輸出 12 種音調;如果我告訴我的模型有 50 種不同的樂器,我將永遠無法獲得那種獨特的音色。音樂的無限可能性和多樣性正是我們想要模型能夠自行探索的。
Sarah:在你看來,AI 音樂生成面臨的最大挑戰是什麼?
Mikey:音樂的獨特之處在於它能觸動人心,這是最大的挑戰,因為 AI 音樂的目標正是激發聽眾的情感反應。音樂的多樣性、文化依賴性以及個體差異性都給模型設計帶來了挑戰。
對於那些整天在文本大模型中打轉的人來說,他們很容易想到這樣的事情:「這就是我在法學院入學考試中的表現,我可以用同樣的方法通過律師資格考試。」
這些對我們來說都不存在,就像我做了一首歌,它讓我有了某種感覺,可能是顆粒感的音頻讓我有了某種感覺。我們正在探索如何讓模型不僅能夠生成悅耳的旋律,更重要的是能夠觸動人心。
Elad:Suno 的未來規劃中,你們如何看待普通用戶、專業人士及企業用戶的需求?
Mikey:我想說的是,我們正試圖改變整個世界與音樂的互動方式,併為人們帶來新的體驗。這意味着這是一款消費產品,而不是在 Ableton、Logic 或 Pro Tools 中加入 AI。這適合所有人,比如我媽媽。人們會花大量時間在電腦前享受創作歌曲的樂趣,對於自己的作品,他們感到有創造力和擁有感,並樂於分享它,這與現在的音樂創作方式不同。現在的音樂創作有時很痛苦,但它只為最終產品服務。而我認為,當你向人們開放這一切時,你肯定會關心最終產品,但你也會真正關心這段旅程,關心是否真正享受音樂創作。我做音樂的最大樂趣就是和朋友們一起玩音樂,即興演奏,即使你沒有在錄音。
在商業方面,立刻對產品收費可能並不符合傳統智慧,但這實際上非常重要,因為我們正試圖創造一套並不存在的行為方式,以了解究竟是什麼讓人們願意掏錢,而不僅僅是沿襲現有的 SaaS 定價模式。
Elad:我記得我曾經和一些在 90 年代非常活躍的人交談過,當時網絡瀏覽器真正進入了人們的視野,他們試圖找出適合網頁的商業模式,重點落在了小額支付上,所以每次閱讀《紐約時報》的文章時,你只需支付幾分之一美分的費用。當然,世界最終還是倒向了基於廣告的模式,但和我交談過的那個時代的人中,沒有誰認為廣告模式一定是正確的答案,他們只是覺得這是短期內最容易做的事情。
Mikey:是的。
Sarah: 我記得我們之前討論過創作平台上的一個現象,那就是創作者和觀眾之間的比例通常失衡,並且這種失衡因平台而異。你認為像 Suno 這樣的創新工具能在多大程度上改變這一現狀呢?
Mikey: 我認為,Suno 這樣的平台能夠開啟一個全新的「微創作」時代,我們可以製作我們三個人都會聽的歌曲,因為它捕捉到了我們三個人的某一時刻,就像我們自拍一樣,而現在的音樂中完全沒有這樣的分享動力。Suno 技術的潛力在於,它能模糊創作與消費的界限,使這兩者相互滲透,最終,我們不再區分誰是創作者、誰是消費者,因為所有人都在以自己的方式享受音樂帶來的樂趣。
Elad: 這樣的未來圖景真是令人憧憬,它似乎預示着音樂、音樂產業乃至音樂在社會中的角色都將發生深刻變革。你對五年後這個行業的展望是什麼?
Mikey: 如果我們能夠讓數十億人以新的方式體驗音樂創作,那麼音樂消費的時間和經濟投入都將顯著增長。親自參与創作過程,無疑會加深人們與音樂藝術家之間的情感紐帶。正如数字音頻工作站(DAW)曾經那樣,它降低了音樂製作的門檻,促進了音樂和文化的快速演變。未來,如果你有一副好耳機,你有一雙好耳朵,你願意下功夫學習工具,你就可以在宿舍里做音樂。隨着更多人通過 Suno 這樣的工具輕鬆創作,音樂風格的演變和新音樂的發掘速度將急劇加快。當人們發現製作一張專輯並不需要價值 50 萬美元的 SSL 調音台和 10 名員工時,當有一些 15 歲的年輕人也能被前所未有的發掘出來時,這無疑會是下一場音樂革命。
另外,如果你看看過去十年的音樂,很多變化都是音質上的,因此歌曲的趣味性會稍遜一籌,就像很多数字化的東西一樣。事實上,我很期待相反的結果。人工智能固然能創造出我們從未聽過的聲音,但將這些工具交到人們手中,我們就能解鎖歌曲結構和和弦變化,借鑒不同風格並與其他風格混合,創造出新穎的作品。在我最樂觀的時候,我會在 TikTok 上說, Suno 讓我們每次聽音樂的時間都超過 30 秒。也許我有點天真和樂觀,但我認為這是非常有可能的。