[AQ AI]藝文人士的AI課012_專欄_AQ廣藝誌

專欄

【AQ AI】藝文人士的AI課012

Dec
2024

文／NoblerSubtlety793

💥序言：AI藝術的群星閃耀，從夢想到現實的創造之旅💥

自人類開始以畫筆與顏料記錄世界，藝術創作便象徵著情感的表達與文化的傳承。而如今，隨著生成式人工智慧（Generative AI）的快速發展，我們正見證藝術與科技相遇後迸發的全新火花。從科幻故事中的虛構場景到現實中觸手可及的數位畫布，AI不僅解放了創意的邊界，更重新定義了藝術的可能性。

生成式AI已從簡單的圖像模擬進化為深度參與創作過程的智慧工具，它們能夠分析人類藝術的精髓，學習不同風格的特徵，並透過強大的模型生成令人驚嘆的視覺作品。

在這場變革中，四大影像生成工具——MidJourney、Stable Diffusion、Leonardo.ai 與 Adobe Firefly，宛如藝術世界的新星，不僅承載著技術的突破，更成為數百萬創作者的靈感夥伴。

至於一般人可能是最常用也最入門的智慧型助理 Microsoft 的人工智能助手：Copilot 與 Bing AI最後也會加以介紹

本文將深入探討這些生成式AI的發展歷程、核心技術與應用場景，並描繪出它們如何推動藝術與科技的融合，助力每個人都能參與到創作之中。
無論您是專業設計師、業餘愛好者，抑或僅僅對未來充滿好奇，都可以在這些工具的加持下，探索藝術創造的新篇章。

以下是MidJourney、Stable Diffusion、Leonardo.ai 與 Adobe Firefly 這4個使用率最高相關論壇也多的繪圖影像軟體概略介紹，

💢💢MidJourney的前世今生：AI藝術與設計的璀璨新篇章

MidJourney，這款風靡全球的生成式AI藝術工具，以其鮮明的藝術風格和易用的界面征服了無數創作者。讓我們一同回顧其從概念萌芽到實踐應用的成長故事，探討它如何在數字藝術領域掀起革命。

💢💢深度學習與生成藝術的背景

MidJourney的出現，建立在深度學習的基石之上，尤其受益於生成對抗網路（GAN）和擴散模型的快速發展。這些技術讓AI得以學習人類的創作模式，模擬藝術風格，並開啟全新創意的大門。

關鍵技術：

自然語言處理（NLP）：用戶僅需輸入簡單的文字提示，模型便能理解並轉化為圖像。

👉多模態學習：結合文字與圖像嵌入技術，確保生成內容符合用戶的描述。

MidJourney 是一款由獨立實驗室 MidJourney Lab 開發的生成式 AI 工具，專注於藝術圖像生成。以下是關鍵人物：
成立時間：2022年3月
公司總部：舊金山
創始人：David Holz
背景：此前曾是 Leap Motion 的聯合創始人，曾在NASA從事機器人研究
MidJourney 原始研發成員專注於手勢控制和虛擬現實技術。David 在創立 MidJourney 後，專注於將生成式 AI 應用於藝術與設計領域，強調通過工具啟發用戶的創意。

開發團隊與社群：MidJourney 的開發和迭代受到大量社群用戶的測試與反饋影響，因此具體的核心技術成員信息未完全公開，但整體以藝術家、設計師和工程師為主.我只能找到下列資訊。

MidJourney 的開發團隊中，除了創始人 David Holz（Leap Motion 的聯合創始人）外，還包括其他關鍵成員和顧問，這些人從不同領域提供專業知識和支持：

👉顧問團隊：
Jim Keller：曾任 Apple、AMD 和 Tesla 的領導，主導 X86-64 架構的設計。
Nat Friedman：GitHub 的前任 CEO 和 GNOME 基金會的主席。
Philip Rosedale：Second Life 的創始人。
Bill Warner：Avid Technology 的創辦人，開創了非線性影片剪輯技術

👉研究與工程團隊：這部分核心技術成員包括 Daniel、Max、Jack、Thomas、Red 等人。他們負責研發和改進平台的生成式 AI 功能，但詳細的專業背景並未公開

👉社群與管理： MidJourney 的 Discord 社群由一群經驗豐富的管理員和指導者運作，例如 Katryna（fnuckle）和其他社群成員，他們幫助用戶測試和提供反饋，進一步促進平台的發展
這些成員和顧問的多樣背景和豐富經驗促成了 MidJourney 的成功，使其成為當今生成式 AI 藝術領域的領導者之一。

👉早期發展
1.2020-2021：AI繪圖概念初步構想
2.2022年2月：內部小規模測試
3.2022年3月：公開Beta測試
4.2022年7月：正式開放公眾使用

👉技術特點

基於擴散模型(Diffusion Model)
重點關注藝術美學
強調圖像的質感和風格一致性
採用大規模多模態AI訓練

👉版本迭代歷程
V1（2022年3月）：初始測試版
V2（2022年4月）：畫質顯著提升
V3（2022年7月）：風格更加穩定
V4（2022年11月）：細節表現更精細
V5（2023年3月）：寫實度大幅提升
V5.1（2023年5月）：進一步優化
V6（2023年12月）：更精確的提示詞理解

👉商業模式
訂閱制：
Basic Plan：每月10美元
Standard Plan：每月30美元
Pro Plan：每月60美元
Discord平台免費試用
社群驅動的產品迭代模式

Midjourney
特色：藝術風格強烈，質量穩定。
應用：藝術創作、概念設計。
平台：Discord整合。
個人覺得網頁版比較好用

這是Midjourney從誕生到今天的全面發展歷程。每一個版本和里程碑都見證了AI藝術生成技術的快速進化。
Stable Diffusion 的前世今生：AI藝術與設計的璀璨新篇章
Stable Diffusion 是一款開源的文本到圖像生成模型，自2022 年推出以來，迅速成為生成式AI 領域的重要工具。它的出現不僅改變了數字藝術的創作方式，也為無數創作者提供了全新的靈感來源。讓我們一起回顧其發展歷程，探索它如何在數字藝術領域掀起革命。

👉起源與早期發展
2021年：AI 影像生成技術的初步構想。
研發機構：CompVis 實驗室、Runway ML、Stability AI 聯合開發。
核心研究人員：Robin Rombach、Patrick Esser 等。
Stable Diffusion 的研發始於 Stability AI 公司，該公司由 Emad Mostaque 創立，他是這項計畫背後的主要推動者之一。然而，Stable Diffusion 的發展是一個多方合作的成果，包含多位來自學術界和技術界的專家，以下是一些關鍵成員和團隊的背景：

1. Emad Mostaque
身份：Stability AI 的創始人兼 CEO
角色：整個 Stable Diffusion 項目的主要發起人，負責確保開源技術的開展與推廣，並領導 Stability AI 與各合作團隊的協作。
背景：原本是金融業分析師，後來投身於 AI 領域，致力於用開源技術推動生成式 AI 的普及化。

2. CompVis 團隊（德國海德堡大學的視覺學習研究小組）
角色：CompVis 實驗室負責了 Stable Diffusion 的核心模型訓練，特別是在使用擴散模型 (Diffusion Model) 方面的研究。
代表人物：
Robin Rombach
在擴散模型應用於生成式圖像的研究中發表過多篇重要論文，特別是 Latent Diffusion Models (LDM) 的主要作者之一。
Patrick Esser
專注於視覺生成模型的研究，與 Stable Diffusion 背後的技術息息相關。

3. LAION 團隊（Large-scale AI Open Network）
角色：提供 Stable Diffusion 的訓練數據集，例如 LAION-5B，這是一個龐大的開放圖片與文字對應數據集，對模型的訓練至關重要。
代表人物：
Christoph Schuhmann
LAION 團隊的負責人，專注於建立大型開放數據集，並推動其在開源社區中的應用。

4. Runway ML
角色：與 Stability AI 合作進行模型的設計和優化，Runway ML 是一個為創作者設計的 AI 工具平台，協助將 Stable Diffusion 的技術應用到實際場景中，如影像編輯和視頻生成。

5. 其他貢獻者
社群開發者：Stable Diffusion 是開源專案，許多社群貢獻者參與了工具整合、界面優化和插件開發，如 AUTOMATIC1111 等開發者。
Hugging Face：作為合作夥伴，提供了模型的托管、分發和部署，讓研究者和開發者更方便使用 Stable Diffusion。
Stable Diffusion 的誕生是一個開放合作的成果，結合了多個領域專家的技術創新。這樣的協作模式也正是生成式 AI 社群繁榮發展的關鍵。

👉關鍵里程碑

2022年2月：初步研究開始，團隊進行不同模型架構的測試。
2022年8月：第一個公開版本Stable Diffusion 1.0 發布，迅速引起廣泛關注。
2022年10月：開源社群迅速擴大，許多用戶分享生成作品。

👉深度學習與生成藝術的背景
Stable Diffusion 的出現，建立在深度學習和生成對抗網絡（GAN）技術的基礎之上。這些技術使得AI 能夠學習人類的創作模式，模擬藝術風格，並開啟全新創意的大門。

👉關鍵技術：
潛在擴散模型（Latent Diffusion Model）：透過將影像壓縮到潛在空間中進行處理，提高了生成效率和品質。
自然語言處理（NLP）：用戶只需輸入簡單的文字提示，模型便能理解並轉化為圖像。
多模態學習：結合文字與影像的嵌入技術，確保產生內容符合使用者的描述。

👉術特點
完全開源：Stable Diffusion 採用開源授權，允許自由修改和使用。
低成本本地部署：使用者可以在本地環境中運行模型，降低了使用門檻。
高度可客製化：支援多種插件指令，如LORA 和銓重，使得使用者可以根據需求進行調整。
版本迭代歷程
V1（2022年9月）：初始版本，快速獲得使用者關注。
V1.4（2022年10月）：畫質顯著提升。
V1.5（2022年11月）：穩定性增強。
V2.0（2023年2月）：架構重大升級，引入更有效率的推理演算法。
V2.1（2023年5月）：細節表現更精細。
SD XL（2023年7月）：大幅提升生成能力，特別是在寫實度方面。
SD 3.0（2024年初）：引進更先進的模型架構，進一步提高生成品質與效率。

👉商業模式
Stable Diffusion 完全開源，依靠社群貢獻和捐款來持續發展。 Stability AI 提供商業支持，以促進技術的應用和推廣。

👉社群影響
GitHub 星標超過25000
全球數百萬開發者參與
衍生出大量定制模型和擴展

👉技術創新
Stable Diffusion 支援文生圖、圖生圖等多種功能，其高度可自訂的模型架構使得低資源設備也能運作。

👉應用領域
Stable Diffusion 的應用範圍廣泛，包括：
藝術創作
遊戲設計
產品原型
電影概念設計
個人創意項目

👉未來發展方向
未來Stable Diffusion 將專注於：
更精確的多模態生成
降低硬件門檻
提升生成的創造性
解決版權和倫理問題
重大的挑戰
儘管取得了顯著成就，但Stable Diffusion 仍面臨一些挑戰，包括：
生成內容的版權爭議
偽造和誤用風險
持續的技術迭代需求

原核心成員Black Forest Labs團隊出走的經過
隨著Stable Diffusion 的成功，一些核心團隊成員選擇脫隊並成立了Black Forest Labs，推出了FLUX.1。這個新項目旨在進一步推動圖像生成技術的創新。
Black Forest Labs團隊成員包括：
📌Patrick Esser
Stability AI 的首席研究科學家，早期核心開發成員之一，負責FLUX.1 項目的主要研發。

📌Robin Rombach
CompVis 實驗室聯合創始人，原始論文的主要作者之一，深度參與FLUX.1 的技術研發。

📌Dominik Lorenz
Stability AI 的資深研究工程師，在Stable Diffusion 模型優化上有重要貢獻，是FLUX.1 開發團隊的關鍵成員。

📌Andreas Blattmann
CompVis 實驗室研究員，在Stable Diffusion 早期模式架構設計中扮演重要角色，是FLUX.1 技術創新的推動者。
這些成員帶著在Stable Diffusion 獲得的經驗和技術基礎，致力於開發更先進的圖像生成工具。

Black Forest Labs團隊離開後，隨後推出了FLUX.1系列繪圖模組
而Stable Diffusion 3.5 也已於 2024 年 10 月 25 日正式發布。此版本對文字呈現、影像質量以及生成的一致性進行了顯著的改進，並專注於
提升用戶的自訂化能力。其主要特點包括：
支持多樣化風格：如 3D 圖像、攝影及繪畫。

硬體優化：可在標準消費級硬體上運行。

高效生成：使用精簡步驟加速影像生成過程。

開放授權：允許非商業用途及年收入低於 100 萬美元的商業用途
您可以通過平台（例如 Hugging Face 或 Stability AI API）使用該模型，也可以下載模型進行本地運行總結
Stable Diffusion 自成立以來，不斷推陳出新，在AI 影像生成領域提供了強大的工具。從最初的概念到如今的實踐，它不僅改變了我們對圖像生成的理解，也為未來的創作提供了無限可能性。隨著FLUX.1 和其他相關技術的不斷演進，我們期待這一領域將帶來更多驚喜與突破。

Stable Diffusion 的生態系統非常活躍，用戶經常安裝各種針對不同用途的繪圖模型來實現特定風格或應用需求。以下是一些常見的繪圖模型分類與代表性模型：

1. 基礎模型（Base Models）
這類模型是 Stable Diffusion 官方或社群提供的通用模型，可用作其他模型的基礎。

Stable Diffusion Base Models
v1.4 / v1.5：適合通用創作，支持多種風格，但生成效果略基礎。
v2.1：改進對現實場景的處理，提升解析度和細節表現。
SDXL 1.0 / 1.5：提供更高的解析度和語義理解能力，是目前的主流選擇之一。

2. 人物與角色模型（Character Models）
這些模型專注於生成高質量的二次元或寫實風格角色圖像。

Anime-focused Models（動漫向）
Anything v4.0 / v5.0：針對二次元動漫風格的生成，非常受動漫愛好者歡迎。
Counterfeit v2.5 / v3.0：平衡日式風格與寫實風格，適合混合應用。
Realistic Models（寫實向）
DreamShaper：適合寫實人像和角色設計，細節表現出色。
ChilloutMix：專注於寫實美學，適合照片風格的人像生成。

3. 插畫與藝術風格模型（Illustration & Art Styles）
這些模型模擬特定的藝術風格或插畫風格，用於創作具有獨特視覺效果的作品。

Eimis Anime Diffusion：模仿插畫師風格的動漫模型，支持多種細膩效果。

Protogen Models
Protogen v3.4 / v5.3：平衡寫實與

Stable Diffusion 旗下有三大使用率最高的介面 comfyui \fooocus \ webui 跟不同繪圖模組大集合.
它也可以說是各類外掛指令LORA 權重之類的指令玩法大亂鬥
以下對這三大介面以及相關特性做一些簡要解析：

1. ComfyUI
特色：
以模組化的圖形化界面著稱，用戶可以通過拖拉節點的方式組合不同的生成流程。
非常靈活，特別適合進階用戶設計複雜的創作管線，比如多階段渲染、精調生成流程等。
適用場景：
專業創作流程設計。
自定義化生成邏輯。

2. Foocus
特色：
以簡單、乾淨的界面設計為主，專注於易用性。
面向不想花太多時間研究技術細節的用戶。
適用場景：
初學者使用，快速上手。
基本創作需求，注重效率和便利性。

3. Stable Diffusion WebUI (A1111)
特色：
功能最全面，支持多種插件與模組，包括 LoRA、ControlNet、權重混合等。
用戶社群活躍，更新與擴展速度快。
適用場景：
中高階用戶，對生成效果有較高要求。
使用大量外掛和自定義指令的用戶。
模組與擴展功能的大集合
LoRA（Low-Rank Adaptation）：
用於快速調整模型風格，甚至專門針對某一特定角色或風格進行微調。
ControlNet：
提供細緻的生成控制，允許用戶透過草圖、姿勢圖等輸入進一步引導圖像生成。
各類權重文件：
用於融合不同模型特性（如寫實風、二次元風）來生成混合風格。
Prompt 指令玩法：
用戶可以使用正向提示與負向提示來精細調整生成結果，這是一項核心創作技術。
外掛系統：
各類插件（如 X/Y plot、顯示網格、批量處理工具）讓創作更加高效。
Stable Diffusion 的核心魅力就在於它開放、靈活、多樣化，無論是初學者還是進階用戶，都能找到適合自己的玩法。

📌📌另外針對企業級用戶Stable Diffusion 也有雲端安裝版本使用的是Google Colab 跟騰訊雲的雲端運算平台服務
我來詳細解釋一下雲端運算平台的GPU服務和定價：
GPU雲端服務比較：詳細指南

1.Google Colab服務免費版特點：
提供T4 GPU
每日使用時間受限
12小時連續使用限制
隨機分配GPU
Pro版特點：
月費約320-350台幣
可使用V100或A100 GPU
優先GPU資源分配
更長運行時間

2.GPU服務pricing（台幣/小時）
T4：約150-250台幣
V100：約600-1,200台幣
A100：約1,500-3,000台幣
H100：約2,500-5,000台幣

3.GPU選擇建議
基礎運算：T4最適合
深度學習：V100或A100
大規模訓練：A100或H100

4.個人用戶推薦方案
Google Colab免費版
Kaggle Notebooks
本地GPU
購買二手顯卡

5.注意事項
企業級服務成本高
個人用戶應選擇低成本方案
根據實際需求選擇合適GPU

匯率參考：
1美元 ≈ 32台幣
1人民幣 ≈ 4.5台幣
對 Adobe Firefly 的創作潛能是否充滿好奇？想知道 Microsoft Copilot 能為你的工作和生活帶來怎樣的革新與便利？

在下一期中，我們將為你逐一解密，深入剖析這些強大的 AI 工具如何助你突破創作與效率的邊界。不僅如此，我們還會精選介紹幾個極具影響力的 AI 藝術社群，從技術分享到創作欣賞，讓你在激發靈感的同時，結識志同道合的創作者，找到更多支持與成長的機會。

無論你是剛剛入門的新手，還是已在這條道路上耕耘多年的資深創作者，我們相信，這些內容都將為你的 AI 藝術之旅注入新的火花與力量！讓我們共同期待這段豐富的探索之旅吧！返回上一頁