專欄

【AI 專欄】藝文人士的AI課 011

22

Nov
2024

\
文/NoblerSubtlety793

針對2024年生成式AI和藝術表演領域的發展,我會聚焦在2024年4月前已確認的重要進展,同時討論這產業的現況與趨勢,在講後續的生成式軟體詳解之前,要先講一下開源軟體平臺的演變歷史,因為現在所有的生成式AI軟體,幾乎都是在這類平臺上發表的,而也因為開放式軟體跟開源式平臺由來已久,所以有必要加以說明。
 
💢💢開源軟體平臺的歷史:從共用到革新: 

👉開源軟體(Open Source Software,OSS)的概念雖然在近年來廣為人知,但其發展歷程卻可以追溯到更早的時代。以下將帶您回顧開源軟體平臺的發展歷程,瞭解其如何從最初的共用概念,演變成如今驅動科技創新的重要力量。 

👉早期萌芽:共用與合作的種子 
UNIX系統: 1970年代,貝爾實驗室開發的UNIX系統被認為是開源軟體的先驅。雖然當時並未明確使用「開源」一詞,但UNIX的原始碼被廣泛分享,並成為許多其他操作系統的基礎,如Linux。 

👉GNU計畫: 1983年,Richard Stallman發起了GNU計畫,旨在建立一套完全自由的操作系統。GNU計畫強調軟體的自由使用、修改和分發,為後來的開源運動奠定了基礎。 

💢💢開源運動的崛起 

👉開放原始碼倡議(OSI): 1998年,開放原始碼倡議(OSI)的成立,為開源軟體提供了一個統一的定義和標準。OSI定義了一系列的開源許可證,如GPL、BSD等,這些許可證保障了軟體的自由使用和修改。 

👉Linux的成功: Linus Torvalds在1991年發布了Linux內核,並以GPL授權方式釋出。Linux的成功證明瞭開源軟體的活力和可行性,吸引了全球大量的開發者參與。 
 
💢💢自由軟體運動(FSF)的開源貢獻 

自由軟體基金會(Free Software Foundation, FSF)於1985年由Richard Stallman創立,為開源運動奠定了重要的思想和法律基礎: 

📌核心理念 
提出四大自由:使用、研究、分享和改進軟體的自由 
強調軟體應該服務於社會公益 
建立了"copyleft"的概念,確保衍生作品同樣保持開放 

📌重要貢獻 
創立GNU計畫,開發自由的作業系統 
制定GNU通用公共許可證(GPL),成為最具影響力的開源授權 
建立了軟體自由的法律框架 

📌歷史影響 
推動了Linux核心的開發和普及 
影響了Mozilla Firefox等重要開源專案 
形成了全球性的自由軟體社群 

📌現代意義 
持續影響開源軟體的發展方向 
為AI開源運動提供了ethical guidelines 
推動軟體透明度和用戶權利保護 

FSF的理念和實踐,為後來的開源運動和生成式AI的開放發展建立了重要基礎,其影響一直持續到今天。 

📌開源軟體的蓬勃發展 

雲端運算與容器化: 近年來,雲端運算和容器化技術的興起,為開源軟體提供了更廣闊的發展空間。Docker、Kubernetes等開源工具,大大簡化了應用程式的部署和管理。 

AI與機器學習: 開源深度學習框架如TensorFlow、PyTorch等,加速了人工智慧的發展。這些框架的開放性,使得研究人員和開發者能夠快速構建和部署AI模型。 

大數據: Hadoop、Spark等開源大數據平臺,為處理海量數據提供了高效的工具,推動了大 
數據分析的應用。 
 
除了 Linux 之外,還有其他一些免費開源的作業系統。 

例如Ubuntu 是一個著名的桌面 Linux 發行版,其核心重點是成為大多數用戶的 Windows 替代品。 Ubuntu 是用戶友好的並且隱藏了許多 Linux 的「技術」內容。 

由於其受歡迎程度,Ubuntu 提供了大量的開發人員支援以及對 Windows 遊戲的良好支持,以及相當多在其上運行良好的本機 Linux 移植。 
Canonical 是負責管理 Ubuntu 的公司,在支援該作業系統方面有著悠久的歷史。 對於這個 Linux 發行版,你不必擔心的一件事是它會在一夜之間突然被拋棄。 

另外還有其他的免費開源的作業系統如: 
OpenWrt  ..FreeNAS .Manjaro Linux. 
Fedora Linux .  FreeBSD . Elementary OS. 
ReactOS . Zorin OS . Linux Mint .這些變種分支作業系統 我就不再細講出處了 ,

💢💢開源軟體對科技產業的影響 

📌加速創新: 開源軟體的快速迭代和社群驅動的開發模式,促使科技產業不斷創新。 

📌降低開發成本: 開發者可以利用現有的開源軟體,減少重複開發的工作,降低成本。 

📌提高軟體品質: 開源軟體經過眾多開發者的檢驗和改進,通常具有更高的穩定性和可靠性。 

📌促進合作: 開源軟體促使開發者之間的合作,形成了龐大的開發者社群。 
未來展望 

📌開源生態系的持續擴大: 開源軟體將繼續在各個領域滲透,形成更加完善的生態系統。 

📌雲原生與Serverless的推動: 雲原生和Serverless技術將進一步推動開源軟體的發展。 

📌AI與開源的深度融合: AI技術將與開源軟體深度融合,催生出更多創新應用。 

💢💢結論 

開源軟體從最初的共享概念,發展成為如今驅動科技創新的重要力量。它的開放性、協作性和創新性,使其在軟體開發領域佔據了越來越重要的地位。未來,隨著技術的進步和產業的變革,開源軟體將繼續為我們帶來更多的驚喜。 
目前在開源軟體平台上,有許多用於生成影像和聲音的 AI 軟體。這些工具的出現,大大降低了 AI 生成內容的門檻,讓更多人能夠參與到 AI 創作中。
 
👉生成影像的開源軟體 

📌Stable Diffusion: 這是一款非常流行的文生圖模型,可以根據文字描述生成高品質的圖像。它提供了高度的客製化能力,使用者可以微調模型以產生符合自己需求的圖像風格。 

📌Midjourney: 雖然不是完全開源,但 Midjourney 提供了免費的 Discord 伺服器,讓使用者可以免費體驗 AI 圖像生成 現在已經關閉這功能.原因是遭到濫用。 

📌DALL-E mini: 雖然原始的 DALL-E 是封閉模型,但 DALL-E mini 是其開源版本,同樣可以根據文字生成圖像。DALL-E mini已改名為CRAYION 
 
📌Artbreeder :這是一個基於GAN(生成對抗網絡)的平台,用戶可以混合不同的圖像來創造新的藝術作品。 Artbreeder 使得用戶能夠在視覺上進行實驗。 特點:易於使用,適合藝術創作和概念設計。 
 
📌DeepAI :提供多種AI 工具,包括圖像生成、風格轉換等。用戶可以透過API 存取這些功能。 特點:支援多種應用場景,並且有豐富的文檔資源。 
  
📌Runway ML  :這是一個專注於創意工作流程的平台,提供影片、圖像和音訊內容生成工具。 特點:支援多種AI 模型,可以輕鬆整合到創意項目中。 
 
📌OpenAI CLIP :CLIP 是一個強大的模型,可以將文字與圖像進行匹配,用於改進圖像生成品質。 特點:能夠理解文本與圖像之間的關係,提高生成結果的相關性。  
 
📌PaddlePaddle :由百度開發的一個深度學習平台,支援多種AI 應用,包括影像生成。 特點:具有良好的中文支持,適合國內開發者使用。 
 
📌AI ART :AI ART 是一個專門用於創作和分享AI生成藝術作品的平台。它利用生成對抗網絡(GAN)和其他先進的AI技術來生成獨特的藝術作品。 
特點:藝術創作:用戶可以通過簡單的輸入創建精美的藝術作品。 

多樣風格:支援多種藝術風格,從抽象藝術到具象繪畫。 

👉社群分享:平台提供社群功能,用戶可以分享和評論彼此的作品,交流創作經驗。 

生成流行音樂的開源軟體 

開源音樂生成軟體的分類和功能概述如下: 

📌Suno AI 
功能:開源版本,可生成完整歌曲,支持多種流行音樂風格,包括歌詞和旋律生成。 
特點:適合各類音樂創作需求。 

📌Udio 
功能:部分開源組件,可快速生成流行歌曲,支持多種語言,風格客製化高。 
特點:適合多語種的音樂創作。 

📌MusicGen (Meta開源) 
功能:由Meta研發,可生成多種流行音樂風格,支持文字和旋律條件生成,GitHub開源。 
特點:具有高靈活性和多樣性。 

📌AudioCraft 
功能:Meta開源音樂生成工具,支持各類音樂風格,高質量音訊生成。特點:提供專業級的音訊生成效果。 
古典音樂生成軟體 

📌OpenAI MuseNet 
功能:部分開源,可生成古典音樂,支持多種樂器組合。 特點:適合多元化的音樂創作。 

MIDI生成工具 

📌Magenta (Google開源):專注古典和藝術音樂,支持鋼琴、弦樂等樂器。 

📌Maestro:開源古典音樂生成,支持樂理和作曲邏輯。通用音樂生成軟體 

📌Stable Audio Open 
功能:完全開源,支持多種音樂風格,靈活的生成參數。特點:適合多樣化的音樂生成需求。 

📌Bark 
功能:開源音訊生成,支持語音和音樂,由Suno團隊開發。 特點:適合語音和音樂的創作。 

📌Riffusion 
功能:即時音樂生成,基於Stable Diffusion,開源專案。 特點:適合即時音樂創作和實驗。 

📌AudioLDM 
功能:文字到音訊生成,支持音樂和音效。  特點:高靈活性和多樣性。 

📌TTS (Text-to-Speech) 模型: 許多 TTS 模型都是開源的,例如 Tacotron 2、FastSpeech 2 等。這些模型可以將文字轉換為自然流暢的語音。 

📌Music Generation Models: 有一些開源模型可以生成音樂,例如 MusicLM。這些模型可以根據給定的提示生成不同風格的音樂。 
開源音樂AI生態 

📌GitHub:是主要的資源平台。 

📌Hugging Face:提供模型。 

📌Discord:社群活躍,技術迭代快速。 
全球範圍內主要的開源軟體平台歷史整理 

幾個不同屬性的綜合開源平台 
Hugging Face  和 GitHub     與Civitai  和中國大陸的liblib.art  

GitHub 
📌主要功能: 一個版本控制系統,用於軟體開發中的協作。它提供了一個雲端空間,讓開發者可以儲存、管理和分享他們的程式碼。 

歷史: 成立於 2008 年,最初由三位共同創辦人開發。GitHub 的出現,大大改變了軟體開發的方式,促成了眾多開源項目的誕生。 

特色:  

📌Git 版本控制:使用 Git 作為底層的版本控制系統,提供強大的版本管理功能。 

📌Pull Request:促進了團隊協作,讓開發者可以提交代碼變更並進行審查。 

龐大的社群:擁有全球最大的開發者社群,是許多開源項目的發源地。 

本地部署:將模型的程式碼下載到本地電腦,並使用 Python 等程式語言進行調用。 

雲端服務:一些雲端平台提供了預訓練好的模型,使用者可以直接通過 API 進行調用。 

Hugging Face 

📌Hugging Face:專門為機器學習社群提供了一個平台,上面有大量的預訓練模型,包括自然語言處理、電腦視覺等領域。 

主要功能:是一個 AI 模型的集散地,特別專注於自然語言處理。提供了一個平台,讓 AI 研究者和工程師可以分享、交流和合作。 

📌歷史:成立於 2016 年,最初由三位共同創辦人開發,旨在打造一個更友善的 AI 社群。近年來,隨著 Transformer 模型的興起,Hugging Face 
迅速崛起,成為全球最大的 AI 模型庫之一。 

📌特色:  
Transformers library:提供了一個強大的 Transformers library,簡化了 Transformer 模型的訓練和部署。 

社群驅動:鼓勵社群參與,共同建設一個繁榮的 AI 生態系。 

多樣化的模型:不僅限於自然語言處理,還涵蓋了電腦視覺、語音識別等多個領域。 

Civitai
 
主要功能:專門用於分享 Stable Diffusion 模型、提示詞和數據集的平台。 
歷史:相對較新,主要是在 Stable Diffusion 迅速流行後興起的。 
特色:模型多樣性: 提供了大量的 Stable Diffusion 模型,涵蓋了各種藝術風格和主題。 
社群驅動: 鼓勵使用者分享自己的模型和提示詞,形成了一個活躍的社群。 

liblib.art 
主要功能:中國大陸的一個 AI 生成藝術平台,類似於 Civitai。 
歷史:相對較新,具體成立時間不詳,但隨著國內對 AI 生成藝術的興趣日益濃厚,該平台也迅速發展。 
特色:本土化: 主要面向中國大陸使用者,提供中文介面和相關資源。 
模型多樣性:提供了許多中文模型和提示詞。 
 
其他重要的全球AI開源平台:
 
📌Papers with Code(2019年推出) 
將學術論文與代碼實現連接 
提供機器學習任務的基準測試 
擁有大量實現代碼的論文資源 

📌ModelScope(阿里巴巴) 
專注於AI模型的開源平台、提供模型訓練和部署服務、支持多種AI應用場景 

📌OpenI.ai(商湯科技) 
中國開源AI模型平台、提供預訓練模型和數據集、支持產業應用落地 

📌TensorFlow Hub(Google) 
提供預訓練TensorFlow模型、支持模型再訓練和部署、完整的文檔和社區支持 

📌PyTorch Hub(Facebook/Meta) 
PyTorch生態系統的模型庫  提供預訓練模型   支持研究和產業應用 
 
📌AI Gallery(微軟) 
提供Azure AI解決方案  支持企業級AI應用  包含預建模型和工作流 

📌Google Colaboratory: 一個免費的 Jupyter Notebook 環境,可以直接在瀏覽器中運行 Python 程式碼,非常適合機器學習和數據科學的研究。 

📌Kaggle: 一個資料科學競賽平台,提供大量的公開数据集和工具,可以幫助你學習和實踐機器學習。 

📌Papers With Code: 一個收集機器學習論文和相關程式碼的平台,可以幫助你找到最新的研究成果。 

📌OpenAI:  
雖然 OpenAI 的 GPT-3 等模型不是完全開源的,但他們也發布了一些開源的工具和模型如WHISPER,對 AI 社群貢獻很大。 

Discord  

Discord 是由 Discord Inc. 這家公司所開發和運營的的跨平台多人聊天應用,提供了一個以音訊和視頻通話為主的功能。它在 2015 年推出,並迅速成為全球性的社交媒體工具之一。 

研發過程: 
Discord 的前身是 "DNN"(Discord Network),最初是一個用於建立群組的服務器架構。 
在 2013 年左右,Discord Inc公司開始開發一個叫做 "Twitch Streamer" 的應用程序,這個產品被認為是現在的 Discord 的原型。 

研發歷史: 
Discord 開始發展時,它最初只是一個群組管理工具。然而,在 2015 年初,Discord 收購了 Twitch 資料庫的一部分,並開始開發一款新的聊天應用程序。 
在此期間,Discord Inc 公司還投入了大量的資源來提升 Discord 的功能和性能。 

研發影響: 
隨著時間的推移,Discord 成為了一個全球性的社交媒體工具。它不僅提供了群組管理的功能,還提供了一些視頻通話、音訊傳播等功能。 
除了Discord Inc公司外,還有許多其他公司也在開發和優化 Discord 的功能。 
我們接下來要講的許多生成式AI軟體都在這裡有大量群組跟討論區能透過這社群使用這些軟體 

💢💢這些平台的共同點 

這些平台的主要特點: 

共同點:都支持模型共享和下載  擁有活躍的開發者社區  提供某種形式的免費資源 

支持模型部署和應用 
社群驅動: 這些平台都依賴於使用者生成的內容和社群的參與。 
開放性: 鼓勵共享和合作,促進了 AI 技術的發展。 
工具豐富: 提供了豐富的工具和資源,降低了 AI 開發的門檻。 

差異: 
針對用戶群體不同(研究者/開發者/藝術家) 
專注領域不同(通用/專業/特定任務)  商業模式不同 

未來展望 
隨著 AI 技術的快速發展,我們可以期待會有更多更強大的開源 AI 模型出現。這些模型將在藝術創作、遊戲開發、教育等領域發揮越來越重要的作用。 
 
生成式AI軟體官方網站 
👉 Stable Diffusion: https://stablediffusion.com/ (雖然是開源模型,但官方網站提供許多相關資源) 
👉 Midjourney: https://www.midjourney.com/ (目前已關閉免費Discord伺服器) 
👉 DALL-E mini: https://huggingface.co/spaces/stabilityai/stable-diffusion (已更名為 Craiyon,模型託管在 Hugging Face) 
👉 Artbreeder: https://artbreeder.com/ 
👉 DeepAI: https://deepai.org/ 
👉 Runway ML: https://runwayml.com/ 
👉 OpenAI CLIP: https://openai.com/blog/clip/ (模型本身,而非獨立平台) 
👉 PaddlePaddle: https://www.paddlepaddle.org.cn/ 
👉 AI ART: (未找到官方網站,可能為社群或平台內的專案) 
👉 Suno AI: (未找到官方網站,可能為開源項目,建議在GitHub搜索) 
👉 Udio: (未找到官方網站,可能為開源項目,建議在GitHub搜索) 
👉 MusicGen: [已移除無效網址] (Meta AI研究成果) 
👉 AudioCraft: [已移除無效網址] (Meta AI研究成果) 
👉 OpenAI MuseNet: (未找到獨立網站,可能整合在OpenAI其他產品中) 
👉 Magenta: https://magenta.tensorflow.org/ 
👉 Maestro: (未找到獨立網站,可能為研究項目或開源項目) 
👉 Stable Audio Open: (未找到官方網站,可能為開源項目,建議在GitHub搜索) 
👉 Bark: (未找到官方網站,可能為開源項目,建議在GitHub搜索) 
👉 Riffusion: https://github.com/riffusion/riffusion (GitHub項目) 
👉 AudioLDM: (未找到官方網站,可能為開源項目,建議在GitHub搜索) 

開源平台官方網站 
👉 GitHub: https://github.com/ 
👉 Hugging Face: https://huggingface.co/ 
👉 Civitai: https://civitai.com/ 
👉 liblib.art: https://www.liblib.art/ 
👉 Papers with Code: https://paperswithcode.com/ 
👉 ModelScope: https://modelscope.cn/ 
👉 OpenI.ai: https://openi.ai/ 
👉 TensorFlow Hub: https://tfhub.dev/ 
👉 PyTorch Hub: https://pytorch.org/hub/ 
👉 AI Gallery: [已移除無效網址] 
👉 Google Colaboratory: https://colab.research.google.com/ 
👉 Kaggle: https://www.kaggle.com/ 
👉 Papers With Code: https://paperswithcode.com/ 
👉 OpenAI: https://openai.com/ 
👉 Discord: https://discord.com/ 

注意事項:
👉部分軟體或平台可能已經更新名稱或網址,建議您直接在搜尋引擎上搜索。 
👉一些開源項目可能只在GitHub或其他代碼託管平台上提供,沒有獨立的官方網站。 
👉部分平台可能需要註冊或登錄才能訪問所有功能。 

補充資訊: 
👉 Hugging Face 是目前最受歡迎的開源模型庫之一,提供了大量的預訓練模型和工具,涵蓋了自然語言處理、電腦視覺等多個領域。 
👉 GitHub 是全球最大的程式碼託管平台,許多開源項目都託管在GitHub上。 
👉 Civitai 專注於 Stable Diffusion 模型的分享和交流。 
👉 liblib.art 是中國大陸的一個 AI 生成藝術平台,提供中文模型和提示詞。 
👉 Papers with Code 將學術論文與代碼實現連接,方便研究者快速找到相關的實現。 
👉 ModelScope 和 OpenI.ai 是中國本土的開源 AI 模型平台。 

建議: 
👉定期關注這些平台的更新: 開源社區發展迅速,新的模型和工具會不斷湧現。 
👉參與社群討論: 通過參與社群討論,您可以獲取最新的資訊,解決遇到的問題,並結識更多的同行。 
👉嘗試不同的工具: 不同的工具有不同的優缺點,您可以根據自己的需求選擇最適合的工具。 

祝您在生成式AI的探索中取得更多的成果! 

下一期,我們將揭開生成式AI影音界的神秘面紗,帶您一探究竟,那些能將你的想像力轉化為現實的頂尖工具,究竟是如何運作的?敬請期待四位天王與眾多新星的精彩對決!  返回上一頁