文/Jimmy lane
在生成式人工智慧日漸滲透語言、影像與聲音的當代,中國大陸的AI發展路徑展現出鮮明的文化風格與戰略節奏。
相較於歐美國家自矽谷起步的科技創新脈絡,中國更強調政策導引、產學聯動與自主研發,並在語言模型、圖像合成、音樂生成等領域形成一股帶有東方文化基因的創新風潮。
尤其在音樂創作方面,不僅強調古典風格的樂理結構,亦積極挖掘國風音樂的文化深度,展現出與西方流行為主的生成作品迥然不同的風貌。
在本文中,我們將首先概覽中國大陸生成式AI的發展脈絡,從學術體系、政策動因到企業參與,建構出一幅完整的產業演進圖譜;接著聚焦於古典音樂與國風音樂兩大文化向度,介紹Mureka\網易 AI\琴樂\海綿音樂\ NotaGen 數款具代表性的AI音樂創作平臺,並透過技術模型與範例作品分析,探討其與歐美平臺(如 Suno AI、Udio、AIVA)之異同與競合關係。
中國的古典AI音樂生成,往往強調結構嚴謹、旋律清晰、樂器搭配符合樂理傳統;而國風音樂則在節奏、調式與聲線上融入大量民族元素與詩意語境,使其作品更具敘事性與文化辨識度。
這些差異背後,不僅來自於資料訓練集的文化選擇與標註方式,也與開發者本身的審美傾向、使用者市場的偏好密切相關。
我們希望透過以下的編年敘述與案例分析,重新描繪出屬於中國大陸在生成式音樂創作領域中,如何走出一條屬於自己的技術之路與聲音風格——不再只是追趕,而是試圖另起爐灶,開創屬於東方智慧的旋律未來。
中國AI產業的崛起之路——政策、人才與市場的三重奏(1980s - 2025)
中國人工智慧產業的發展,是一部交織著國家戰略遠見、海外智力回流、本土企業奮進與基礎研究突破的壯闊史詩。其脈絡可清晰追溯至改革開放後的技術覺醒:

初創期 主要發展
奠基期 (1980s - 1990s) 中國頂尖學府(清華、北大、中科大、中科院等)開始建立人工智慧研究室,進行專家系統、模式識別等早期研究。
海外留學潮興起,大批優秀學子(如李開復、張亞勤、沈向洋等)赴美深造,進入MIT、CMU、斯坦福等殿堂,親歷全球AI前沿發展。本土企業尚在資訊化初期,AI應用近乎空白。

孕育期 (2000 - 2012)
百度(2000)、阿里巴巴(1999)、騰訊(1998)等互聯網巨頭崛起,其海量使用者資料與搜索、電商、社交場景為AI提供了初步練兵場。
百度率先成立研究院(2007),李彥宏力邀李開復(2005年從微軟、谷歌後回國)加盟任中國區總裁(2005-2009),後李開復創立創新工廠(2009),成為中國首家專注早期科技投資(尤其AI)的機構,開啟系統性孵化AI創業的序幕。

電腦視覺(CV)領域開始突破:
曠視科技(Face++, 2011)、商湯科技(2014)、依圖科技(2012)、雲從科技(2015)(合稱“AI四小龍”)相繼成立,聚焦安防、金融等場景,中國CV力量初露鋒芒。

爆發期 (2013 - 2018)
2013年,百度成立深度學習研究院(IDL),由餘凱、張潼、徐偉等領軍,王海峰統籌技術體系,成為中國大廠系統性投入AI核心研發的標誌。
2016年3月,AlphaGo戰勝李世乭,全球AI熱潮達到頂峰。中國政府敏銳把握機遇,於2017年7月發佈《新一代人工智慧發展規劃》,將AI上升為國家戰略,設定「三步走」目標,並提供巨額資金和政策支援。
資本狂熱湧入:AI初創公司估值飆升,「四小龍」成為資本寵兒。
創新工廠在這一時期密集投資了包括第四範式(2015, 決策優化AI)、地平線(2015, AI晶片)、初速度Momenta(2016, 自動駕駛)等在內的垂直領域領導者。
學術-產業橋樑加固:李飛飛於2017年擔任谷歌雲AI/ML首席科學家,其學術思想(深度學習、以人為本AI)及ImageNet奠定的範式深刻影響全球,包括中國。
更重要的是,她領導的斯坦福SAIL實驗室成為「AI黃埔軍校」,培養的華人弟子精英輩出。

深化與轉型期 (2019 - 2023)
中美科技競爭加劇,AI成為焦點。「AI四小龍」經歷商業化挑戰與上市潮。國家強調科技自立自強,「新基建」政策(2020)將AI列為重點。
預訓練模型興起:百度發佈ERNIE 1.0(2019),開啟中文大模型探索。阿里巴巴、騰訊、華為、科大訊飛等紛紛跟進。陸奇創立奇績創壇(原YC中國, 2019),專注於極早期硬科技(含AI)投資,挖掘新生力量。生成式AI(AIGC)技術萌芽:擴散模型(如Stable Diffusion)、GPT系列演進引發關注,中國研究者緊密跟進。

生成式AI元年與繁榮期 (2023 - 2025)
2023年3月,OpenAI發佈GPT-4,點燃全球生成式AI革命。中國迅速回應:百度率先發佈文心一言(ERNIE Bot, 2023年3月)。
阿里巴巴發佈通義千問(2023年4月)。王小川創立百川智慧(2023年4月),快速推出高性能開源與閉源大模型(Baichuan)。創新工廠投資的MiniMax(通用大模型)、瀾舟科技(周明領銜,孟子大模型)嶄露頭角。位元元組跳動推出豆包大模型(2023年8月)及海綿音樂(2024年)。

騰訊發佈混元大模型(2023年9月)
及深化「琴樂」音樂生成模型。
昆侖萬維發佈天工大模型(2023年4月)及Mureka/SkyMusic(音樂生成,2024-2025)。
應用層百花齊放:除大語言模型(LLM)外,AI繪畫(萬興天繪、TIAMAT)、AI視頻(PixVerse、Runway ML中國競品)、AI音樂(Mureka、琴樂、海綿音樂、NotaGen)、AI程式設計(CodeGeeX)等領域湧現大量創新應用。
政策持續加碼:國家資料局成立(2023),推動高品質資料要素建設;多部委聯合發佈《生成式人工智慧服務管理暫行辦法》(2023年7月),引導產業健康發展。

人物系譜與知識血脈:AI黃金時代的東方繼承者
生成式AI在中國的崛起路徑,不僅可見創新平臺與技術實踐,更能辨識出一條橫跨半世紀、橫越東西的學術血脈。這條路線,起於戰後美國人工智慧的三大主義:
符號主義(Symbolism)、連結主義(Connectionism)、行為主義(Behaviorism)。
而今日我們所熟知的深度學習與大模型架構,正是在連結主義長期積澱的基礎上誕生。
在這條學術譜系之中,華人學者李飛飛(Fei-Fei Li)的角色格外關鍵。她不僅是 ImageNet 計畫的發起人、斯坦福人工智慧實驗室主持人,更是美國符號主義代表人物之一
——Bruce Buchanan 與 Edward Feigenbaum 學脈下的學術繼承者。某種意義上,她代表著人工智慧黃金世代思想傳承的東方延續。
李飛飛以「Human-Centered AI」為核心理念,主張AI應以人類價值為本位。這一理念不僅影響了美國科技政策,更啟發中國學界與產業界對AI倫理、教育與文化創作的深層反思。
她本人雖未直接參與中國本土開發,但其知識系統與國際對話能力,長期形塑了中國AI人才對未來科技的文化理解。
她所培育的學生群更是這種理念的實踐者,其中包括:

張曉楠:專研人機互動與生成模型倫理,現為中國AI倫理政策顧問。

王瀟:投入多模態生成技術研發,參與字節跳動「海綿音樂」底層設計。

吳昕怡:推動生成式醫療影像與AI醫療應用中的可解釋性研究。

高一鳴:創辦教育類AI新創,推動人文導向AI在中小學教育中落地。
與李飛飛齊名的還有李彥鴻與李開復——創新工場董事長、01.AI創辦人,其於2023年發表的 Yi 模型系列已躍升國際開源LLM平臺前列。李開復擁有橫跨中美的技術與產業佈局經驗,在AI投資、生態培育與大眾啟蒙方面具有舉足輕重地位。 這三位號稱大陸AI的三李。
同樣值得一提的還包括:

梁文鋒(DeepSeek):中國開源LLM領域的黑馬,推出DeepSeek-V2系列,技術表現突破多項中文語言基準。

周伯文(商湯科技):從IBM Watson到京東,再到商湯視覺與音樂生成模型,貢獻橫跨產學研界。

王小川(百川智能):以搜尋語言技術為基礎,開發當地語系化語義優化的大型模型。

王慧文(光年之外):以創業與戰略視角啟動中國AGI創新浪潮,標誌著「中國也要有自己的OpenAI」的新紀元。
這裡我要特別講一下華裔美國人Alexander Wang 跟他的Scale AI,他算是美國AI產業的年輕一輩的頂尖指標

崛起之路:Alexander Wang 與 Scale AI
背景與啟蒙
出生於科學家庭:1997 年出生於新墨西哥州洛斯阿拉莫斯,父母皆為洛斯阿拉莫斯國家實驗室的科學家,從小浸潤在科研氛圍中
apnews.com+
15frederick.ai+
15indianexpress.com+15。
數理資優:青少年時即參加美國數學奧林匹克和物理國家隊,並進入 USACO 决赛 。
MIT 輟學創業:以優秀成績入學 MIT,但在大一期間選擇輟學,投入 AI 領域創新探索 。

創業起航與 Scaling AI
共同創立:2016 年,19 歲的 Wang 與 Lucy Guo(卡內基美隆大學輟學生)共同創辦 Scale AI,專注於為 AI 模型提供高品質訓練數據標註
fastcompany.com+
15research.contrary.com+
15theweek.com+15。
Y Combinator 加速:藉由 YC 孵化,加速開展業務,並吸引初期資金與業界意見領袖加入 。

收入與估值成長:
2019 年估值突破 10 億美元;
2021 年估值達 73 億,成為獨角獸,Wang 在 24 歲時成為全球最年輕的白手起家億萬富翁
fastcompany.com+
4en.wikipedia.org+
4zh.wikipedia.org+4。
至 2024 年,公司估值約 138 億美元,2025 上半年躍至近 290 億美元估值 。
業務擴張與國防合作:擁有超過 20 萬名標註員,服務範圍遍及自駕車、LLM 評估、衛星圖像分析。並與美國國防部及多國政府合作,成為 AI 訓練生態系統中的關鍵資料提供者。

公共影響與政治參與
政策倡導者:Wang 多次於國會與白宮遊說,強調 AI 在國家安全與經濟競爭的重要性,公開呼籲「美國必須贏得 AI 大戰」 。
公司理念:MEI 招聘:2024 年提出「MEI」(Merit, Excellence, Intelligence)招聘政策,取代多元化(DEI),引發業界廣泛討論。
最新動態:與 Meta 合作
Meta 戰略投資:2025 年 6 月,Meta 斥資 143–150 億美元收購 Scale AI 49% 股權,估值超過 290 億美元;Wang 同時加入 Meta,領導「超智能」AI 團隊,並保留 Scale 董事席位
businessinsider.com+
5reuters.com+
5timesofindia.indiatimes.com+5。
業界定位:這筆投資被認為是 Meta 加速 AI 能力、與 Google、OpenAI、DeepSeek 展開競爭的重要舉措
https://www.youtube.com/watch?v=x9Ekl9Izd38 這些人物不只是開創者,更是AI文化的「翻譯者」與「架構師」,他們所展現的,是中國式的科技現代性,也是屬於這個時代的華人AI軌跡。
而美國這邊 Alexander Wang 與 Scale AI 的崛起與發展.則代表了中美雙方的AI戰略會持續競合狀態很長一段時間。
在東方文明的肌理深處,中國大陸的政治脈動與歷史沉澱交織成一幅難以被簡單定義的宏大圖景。
正是在這片既承載千年智慧、又直面當代變革的土地上,一場關於人工智慧的史詩正悄然書寫——如深泉破巖而出,在荊棘中淬鍊鋒芒。
當全球目光聚焦矽穀與倫敦的AI聖殿時,中國的開拓者們正踏上一條雙線征途:既要追趕西方技術洪流的奔騰之速,又要轉身向五千年文明深淵擲下採集的繩纜。
從《詩經》的韻腳到敦煌壁畫的樂舞,從青銅編鐘的震顫到崑曲水磨腔的悠長——這些沉睡的文化基因,被重新編碼為大型語言模型的訓練食糧,在0與1的星河中復活成東方的數位圖騰。
以梁文峰與 DeepSeek 為代表的創新火種,便是這傳奇的最佳註腳:它們誕生於獨特的體制土壤,卻以驚人的韌性突破技術封鎖,在算力與演算法的峭壁上鑿出屬於自己的天梯。
這條路,註定比英美同行更為險峻——每一步都是對西方話語權的突圍,每一行代碼都是對文化本源的朝聖。
而當生成式AI的樂章奏響,這份「雙重使命」更淬煉出舉世無雙的創作靈魂:中國的AI藝術引擎從不滿足於複製西方範式,而是讓秦磚漢瓦的紋理在像素中呼吸,讓宮商角徵羽的律動在神經網路裡迴盪。正是這份刻入骨髓的文化自覺,註定其產物將永遠閃耀著東方玄璧般的靈暈——既與世界共舞,又獨擁一片璀璨星穹。
中國AI產業從早期的學術追趕到應用爆發,再到如今在生成式AI領域與國際巨頭同台競技,其驅動力源於國家戰略的前瞻佈局、龐大市場的獨特需求、以李彥宏跟李開復等為代表的資本與孵化力量對產業生態的精心構築,以及以李飛飛及其傑出弟子群為核心的全球頂尖學術思想的傳承與本土化創新。
這是一條由政策牽引力、市場爆發力、資本催化力與智慧傳承力共同編織的崛起之路。而在這宏大圖景中,生成式AI音樂平臺的蓬勃發展,正是這一生態體系成熟與創新能力迸發的生動縮影。
它們不僅重塑著聲音創作的方式,更在東西方智慧的交融中,譜寫著屬於中國AI的獨特旋律。

中國大陸的 生成式AI 音樂創作軟體概略介紹
在中國大陸市場,近年湧現出多款 AI 音樂創作工具,其中不少支援古典風格或傳統樂器的生成。

下面介紹幾個具代表性的平臺及模型:
Mureka 平臺https://www.mureka.ai/
(昆侖萬維https://www.kunlun.com/ ): 由昆侖萬維公司於2024-2025年推出的AI音樂生成平臺,大陸版名稱「音瘋」。Mureka 採用了該公司自研的 SkyMusic 2.0 大模型,2025年3月發佈了Mureka O1版本。
Mureka 支援對外開放API和模型微調功能,方便開發者將其音樂生成能力整合到其他產品中。
功能上,它能精準捕捉包括古典、流行、搖滾、電子等各類曲風的精髓,生成的人聲自然流暢且幾乎聽不出 AI 痕跡,並可靈活處理多語言演唱。
Mureka 提供高級模式供專業人士使用——用戶可輸入自訂歌詞,或導入特定歌曲鏈接/人聲樣本以讓模型學習模仿該風格。
其內置的風格遷移引擎允許將一段古典樂曲改編為電子曲風等,實現傳統與現代融合創作。
另外,Mureka 支援用戶定制訓練模型,例如上傳大量周杰倫曲風素材,1小時內訓練出一個“周杰倫風格”模型,用於批量生成高品質Demo,加速音樂製作流程。
評測顯示,Mureka 在樂器演奏多樣性、配器豐富度等方面的表現優於 Suno V4 模型,音質清晰度、人聲自然度和背景音樂細膩程度也有顯著提升。
這表明中國研發的模型在古典音樂等複雜曲風上已達到國際領先水準。
目前 Mureka 已在海外獲得不錯反響,2025年起正式開放國內入口和API,定位為商用音樂創作平臺,還計畫整合版權交易功能,方便音樂人將 AI 作品用於商業。
官網:Melodio / Mureka
https://www.mureka.ai/ LLM模組原理:
Mureka採用「Diffusion Transformer」架構的SkyMusic 2.0模型。這種架構結合了擴散模型(Diffusion Models)和Transformer模型的優勢,能夠生成高質量的音樂。SkyMusic 2.0支援長度達6分鐘、44100 Hz雙聲道樂曲與500字以上歌詞。
其生成過程採用CoT(Chain-of-Musical-Thought)鏈式思維,先產生結構再填充音符,確保音樂的完整性和連貫性。這種End-to-End的輸入方式允許使用者輸入歌詞、參考音源或旋律,並輸出多軌音樂(人聲、樂器、伴奏)。
核心優勢:在複調音樂、曲式結構的掌控上表現優異,能生成富有巴哈風對位、貝多芬式動機發展的複雜樂段。其開源性質使其在教育和研究領域價值巨大。
https://www.youtube.com/watch?v=mNpegaVDloU https://www.youtube.com/watch?v=KnOpafgbnH0 我在網路上找到的相關演奏檔案是中央音樂學院傑出鋼琴家朱宏偉,為NotaGen演奏《升F小調圓舞曲》。他精湛的詮釋和細膩的演奏,為這首作品注入了新的生命力。值得聆賞
https://www.youtube.com/watch?v=rlS-nxNJ36o 
網易 AI 音樂平臺概況:研發背景與核心人物
一、平臺緣起與定位
「醒來」項目(2020):是網易伏羲 AI 實驗室與遊戲音訊部門合作推出的全鏈路 AI 音樂生成案例,從作詞、作曲、編曲到人聲合成一應俱全,能在約一小時內生成一首歌詞、旋律與伴奏兼具的 demo,並首度在 2020 年網易未來大會亮相,標誌網易跨入 AI
http://xn--iflytekmusic-oi8s306a5u9a5xtm45a465b4nfxm6k......。
平臺定位強調 B2B 與 B2C 並重,不僅用於影視、遊戲背景音樂,也針對短視頻創作者與音樂人提供自動作曲與聲音生成服務。
二、團隊背景與核心研發力量
網易伏羲 AI 實驗室:網易伏羲音樂(Fuxi Music)由網易伏羲AI實驗室開發,主打智能作曲與虛擬歌手生成,旗下曾推出《AI國風計畫》,邀請用戶提交詩詞讓AI譜曲,並透過虛擬歌手演唱。該平台亦參與數位人演出與虛擬偶像設計,技術團隊來自中科院、清華、香港科技大學等。
以遊戲和智慧推薦為起點,其強化學習、語音合成與音樂生成模組由該實驗室主導。
遊戲音訊引擎團隊:原負責《逆水寒》、《永劫無間》等遊戲的音效處理,其技術遷移至 AI 編曲與混音系統,形成跨領域融合能力。
關鍵負責人:核心人物包括曾參與「火山翻譯」、「豆包大模型」研發的語音及 NLP 工程師,還有背景出自音訊、語音合成深耕者,共同支援平臺從文字到音訊的完整生成管線。
1. 《醒來》(2020)– 網易首支全鏈路 AI 生成歌曲
https://mobilepics.ws.126.net/HT6fGk4iJ4Kmpr9SH4V8oadS...... 首發背景:於2020年12月13日「2020網易未來大會」首次發佈,網易伏羲團隊與雷火音訊部聯手打造
zhihu.com+
8cnbeta.com.tw+
8m.ithome.com+8。
全鏈路生成:從作詞、作曲、編曲到人聲演唱,皆由 AI 完成,最短僅用時 1 小時
cloud.tencent.com+
2takungpao.com+
2bilibili.com+2。
作詞模型:依託伏羲預訓練語言模型(類似 GPT‑2),用小說、詩歌等大語料微調後生成歌詞,可以根據主題、情感、關鍵詞調整風格。
旋律與編曲演算法:旋律採用樂理資料驅動生成,編曲通過雷火音訊部研發的智慧編曲引擎,僅需 15–30 秒便能產出達出版級水準,媲美人工 1–1.5 萬元成本
zhuanlan.zhihu.com+
6m.ofweek.com+
6takungpao.com+6。
人聲合成:利用自建聲學庫、神經網路聲碼器和合成引擎,確保主唱音色“以假亂真”,節奏、音高穩定,表現媲美專業歌手。
2. 背後的團隊與生態佈局
網易伏羲實驗室:聚焦于自然語言生成、作詞作曲等 AI 技術。其作詞平臺“有靈智慧創作”支援多模式協同,既可從零創作,也可補充素材或輔助潤色。
雷火音訊部:隸屬網易遊戲音訊團隊,負責遊戲音訊製作,如《逆水寒》等產品,並將其音訊演算法遷移到 AI 編曲場景。
技術架構優勢:深耕遊戲音訊與語言處理後的技術融合,使伏羲在 AI 作曲和人聲生成上具備強大底層實力 。
騰訊「琴樂」大模型https://cloud.y.qq.com/ : 由騰訊 AI Lab 與旗下 TME 天琴實驗室聯合研發的AI作曲大模型,旨在突破傳統音樂創作方式。
琴樂模型不僅能根據中英文文本描述自動生成音樂,還能理解音頻內容作為條件進行創作,是一個多模態的音樂 AI 系統。
其功能特色包括:
1音頻生成:輸入文字或哼唱聲音,模型會產生對應風格的音樂;
2樂譜輸出:模型可同時生成對應的五線譜,包含旋律、和絃、伴奏、打擊等多軌樂譜信息;
3自動編輯:對生成的樂譜,可自動續寫、重生成特定小節或調整配器等,方便進一步編曲;
4文本-音樂對齊:透過對比學習,模型學會將文本描述與音樂特徵對應,提高生成內容與提示的相關性;
5遵循音樂理論:生成過程中內建音樂理論約束,確保曲調和聲節奏符合音樂邏輯與審美。
使用方面,騰訊已在 QQ 音樂的「啟明星」平臺上提供體驗入口,用戶可選擇琴樂模型,輸入關鍵詞或描述,生成10~30秒的音樂片段並下載。
https://cloud.y.qq.com/ 技術上,琴樂採用分模塊協同架構:先通過音樂-文本對齊模型將文本或標籤映射到音樂特徵空間,接著提取樂譜/音樂的離散表示餵入大型生成模型解碼,最後經聲碼器合成音樂。
這種端到端流程使從文字到音樂的自動創作成為可能。
琴樂模型可適用多種風格,包括傳統古典和現代流行,因為多軌樂譜輸出的特性,非常適合古典編曲和專業配樂場景。
字節跳動「海綿音樂」
https://www.haimian.com/ : 這是字節跳動推出的AI音樂創作工具,定位於讓大眾「一鍵生成」歌曲。用戶只需輸入靈感提示詞或具體歌詞,系統就能自動生成包含旋律與伴奏的完整音樂作品。
海綿音樂支援的曲風相當多元,涵蓋流行、國風、嘻哈等,以及療癒、懷舊等情感類型。
它強調操作簡便且充滿驚喜,使音樂創作觸手可及。平臺介面設計簡潔明瞭,即使從未接觸過作曲的新人也能快速上手。
在中文歌曲創作方面,海綿音樂的人聲處理尤為出色:減少了電子合成味,吐字清晰、演唱流暢,生成效果更貼近真人演唱。
這使其在中文流行音樂AI創作領域具備獨特優勢。同時,團隊持續引入新元素和創作方式,並與音樂產業上下游合作,推動AI音樂的發展應用。
技術特點上,海綿音樂運用深度學習進行智能編曲,根據用戶輸入自動生成適配的旋律、和聲、節奏和配器。它具有自適應風格能力,可以識別各種音樂風格並相應產出合乎該風格的作品,從古典到流行、從搖滾到電子,都能滿足用戶需求。
此外,系統會根據用戶行為喜好提供個性化的創作建議,讓每個人創作的作品都有獨一無二的特色。總的來說,海綿音樂更多面向普通創作者和內容產出者,在短影片配樂、UGC歌曲創作等場景下有廣闊應用。
https://www.youtube.com/watch?v=9K4eBcMsgwI NotaGen 古典音樂模型:
https://electricalexis.github.io/notagen-demo/ NotaGen 是一款專注古典音樂的開源AI作曲模型,由中央音樂學院聯合北京航空航太大學、清華大學等機構於2023年底推出。
它致力於生成高品質古典樂譜,被認為在音樂性上已接近人類創作水準。NotaGen 的訓練採用了類似大型語言模型的範式:首先用超過160萬首樂曲進行預訓練,再從中精選約9000首高質量古典作品進行微調,最後結合強化學習進一步提升音樂的藝術性與可控性。
模型支援條件輸入來控制生成,例如以「時期-作曲家-樂器」作為提示,就能產出對應風格時期、某作曲家風格、特定編制的樂曲。
在表示方式上,NotaGen 使用 ABC 記譜法作為音符表示,並通過移除多餘休止符、添加小節索引等方法優化了訓練數據,提升生成效率和品質。
模型架構則採用分層Transformer解碼器(patch-level與character-level雙層),分別處理音樂片段拼接和細節符號生成,再利用對比學習反饋優化全域結構與風格一致性。由於專注古典,NotaGen 在複調音樂、曲式結構的掌控上表現優異,可生成富有巴哈風對位、貝多芬式動機發展的樂段。
目前該模型已開源,為教育和研究提供了寶貴工具,也證明瞭產學研合作在 AI 古典作曲領域的巨大潛力。
https://electricalexis.github.io/notagen-demo/ 國風AI的文化追尋——我的實踐與思考
在評測這些工具時,我親手用Suno AI實作了一首國風風格的歌曲敦煌飛天https://suno.com/s/BOUCnwrJiOlNg6Er
Suno 雖是美國開發的系統,但它的風格模仿能力非常優秀,即便沒有內建中國戲曲或民樂的專屬模型,卻可以透過語意 prompt 產生出頗有意境的國風旋律。
小時候學習梆笛,每日練的是氣息控制與運指間的耐性,那些看似單一的音符,其實蘊含著中國音樂『一音多意』的哲學。我記得練習梆笛時,老師常說:「音準不是問題,味道才是靈魂。」這一點,是所有 AI 模型目前仍無法真正捕捉的。
而如今,AI 嘗試模擬梆笛音色與氣口語感,我內心除了驚訝之外,也有一種難以言喻的共鳴與距離。
我以前學的秘訣 三 五 七. 其用法到現在仍然適用在中國開發出來的生成式AI軟體裡 非常驚人
這讓我開始思考一個根本問題:到底是「素材」重要,還是「模仿的邏輯」更重要?
中國本土的AI音樂平臺,如Mureka和琴樂,它們的優勢在於從「聲音」出發。它們強調訓練素材的在地性——使用大量二胡、古箏、笛子、梆子的真實錄音資料庫,企圖在音色與民族節奏的「形似」上做到極致。
而Suno採取的卻是另一種方式——
從「意境」出發。它更像一個強大的語言模型,透過解析「江南煙雨」、「大漠孤煙」等文化語境,再利用其音樂風格嵌入(embedding)模型來模仿感受,追求「神似」。即便它生成的琵琶音色可能像吉他,但它能抓住旋律背後的文化氛圍。
聽過兩種作品之後,我發現這並非優劣之分,而是兩種值得探索的路徑。兩者若能結合,將真實的民族樂器音色庫與強大的文化語境理解能力相融合,或許才是國風AI音樂的未來。
中國「國風音樂」的 AI 訓練方式,與歐洲古典音樂大異其趣。後者擁有標準化高的樂譜資料庫(如 IMSLP、MuseScore),樂理結構明確,易於轉換為 MIDI 供 AI 模型訓練,常見於 AIVA、MuseNet 等模型生成交響、鋼琴或四重奏作品。
相較之下,國風音樂資料來源較為分散,包括田野錄音、地方戲曲、民謠曲譜等,缺乏統一格式,且多數樂器演奏依賴氣口與滑音技巧,音階節奏自由度高,為訓練帶來更多挑戰。
面對這些特性,中國開發者多採取 hybrid 模型策略,如 MUREKA、琴樂(Qinyue)、NotaGen 等平台結合 MIDI 樂譜、人聲取樣與音源模擬器,甚至運用 GAN 或 Diffusion 模型直接生成聲波,重現傳統樂器演奏語感,並進行風格遷移,如將旋律轉為古風二胡、崑曲唱腔或絲竹室內樂。
但即便如此,AI 在處理多樣且非標準的音色、語言韻律與流派腔口時,仍難以完整捕捉其中的表情與文化語境。未來若要真正生成具「民族神韻」的音樂,仍須深化模型的文化感知與聲音語義結構理解,才能走出「模仿」進入「再創造」的境界。

尾聲:東方智慧的交響樂章
站在2025年的時間節點回望,中國生成式AI的崛起是一部政策前瞻性佈局、學術全球鏈入、市場規模化驗證、資本風險承擔四力共振的壯麗史詩。
從李飛飛ImageNet計畫啟發的深度學習革命,到今日昆侖萬維Mureka在音樂生成領域的技術突破;從李開復創新工場的早期孵化,到新一代AI創業家的百花齊放;從2017年國家戰略的確立,到2023年全球首部生成式AI法規的出臺——這條從學術追趕到產業並跑、乃至在某些領域實現領跑的三十年軌跡,見證了中國AI從「技術追隨」向「範式定義」的歷史性躍遷。
在這場東西方智慧交融的科技交響樂中,中國不僅展現了強大的技術創新能力,更在古典文化、詩經樂律、民謠樂章的文化底蘊中,探索出一條屬於東方的生成式AI發展道路。從感知智慧到生成智慧,從追趕者到並跑者,中國AI產業正在用自己的節奏,譜寫著這個時代最動人的科技樂章。
綜觀而言,國風音樂AI的發展不僅是技術難題的挑戰,更是一場對文化深度的探尋。如何在聲音生成背後,植入「音樂的語氣」與「文化的魂魄」,將是未來中國AI系統真正邁向高層次創作的關鍵所在。
當技術賦予AI譜寫動人旋律的能力,其意義早已超越了藝術創作的邊界,正叩響人類身心健康的大門。音樂的療愈力量,是東西方文明共用的古老智慧——東方講求「五音通五臟,七律調七情」,西方則探索著神經科學與聲波的精密互動。
如今,站在生成式AI技術突破的浪潮之巔,一個更具普適性與實證性的核心議題浮現:中美兩股驅動全球AI發展的核心力量,其生成的音樂能否真正「對症下藥」,成為精准化的「音樂處方」?
我們看到,在大洋兩岸的實驗室與臨床場景中,探索正加速進行:中國的研究者正深度挖掘《黃帝內經》等典籍的樂療哲學,試圖將古琴的沉靜、絲竹的靈動等獨特東方音韻,通過AI解析、重構並適配現代人的情志與生理指標(如心率變異性、腦電波),驗證其舒緩焦慮、調和身心的獨特療效。
美國的團隊則依託強大的神經科學基礎與海量資料模型,側重於解析複雜音樂元素(如節奏、和聲、音色)對大腦邊緣系統、壓力激素分泌的直接影響,致力於生成高度個性化的、基於生物回饋的「數字音藥」。
下一樂章,我們將聚焦這場關乎人類福祉的全球性實驗——生成式AI音樂療法:從實驗室到臨床。
我們將剖析:中美不同的技術路徑與文化底蘊,如何塑造了各自的「音樂處方」生成邏輯?
早期雙盲對照實驗是否揭示了AI生成音樂在緩解特定病症(如慢性疼痛、失眠、抑鬱症)上的顯著效果?
演算法如何在理解「文化語境」與「生理指標」的雙重維度上,實現真正「對症下藥「的精准療愈?
這不僅是對技術效能的嚴苛檢驗,更是東西方智慧在人工智慧時代,共同為人類健康探尋科學實證解決方案的壯麗征程。
「當旋律不再只為娛樂而生,而是能緩解焦慮、舒緩睡眠、撫慰創傷——AI音樂進入療癒領域,將帶來什麼樣的新篇章?
返回上一頁