我需要GPU以進行穩定擴散嗎? PC指南,穩定的擴散基準測試:GPU運行AI最快(更新)|湯姆的硬件
穩定的擴散基準測試:GPU運行AI最快(更新)
我們稍後將獲得其他一些理論計算績效編號,但再次將RTX 2080 TI和RTX 3070 TI作為示例. 2080 Ti張量芯不支持稀疏性,最多具有108個Tflops FP16計算. RTX 3070 TI用174個TFLOPS FP16或87 TFLOPS FP16支持無稀疏性的稀疏性. 2080 Ti擊敗3070 TI的事實顯然表明稀疏不是一個因素. 相同的邏輯也適用於其他比較,例如2060和3050,或2070 Super和3060 Ti.
我需要GPU以進行穩定擴散嗎?
您是否想知道是否需要GPU進行穩定擴散? 你來對地方.
穩定的擴散無疑是一種快速而直觀的AI創生工具,例如Dall-E和Midjourney. 它的結果令人印象深刻,因此目前擁有數百萬用戶. 但是,如果您想在PC上使用它,請確保滿足要求,尤其是在圖形卡方面. 說到哪個,我們將討論穩定的擴散是否可以在沒有GPU的情況下工作,或者您是否仍然需要圖形卡才能正常運行.
GPU或圖形卡是小型技術,它將認真升級任何遊戲或創意專業體驗. 它們對於在更商業或專業的層面上創建AI生成的藝術是必不可少的.
必需的AI工具
獨家交易10,000免費獎金積分
無論您在哪裡創建,品牌AI內容. 100,000多個客戶與Jasper創建真實內容. 一個AI工具,最好的模型.
體驗提供高級的AI內容生成器的全部功能. 800萬用戶喜歡撰寫博客10倍,毫不費力地創建更高的轉換社交媒體帖子或編寫更多引人入勝的電子郵件. 註冊一個免費試用版. 閱讀更多
只有$ 0.每個單詞00015!
溫斯頓AI探測器
溫斯頓AI:最受信任的AI探測器. Winston AI是領導AI內容檢測工具的行業,可幫助檢查Chatgpt,GPT-4,Bard,Bing Chat,Claude和更多LLMS生成的AI內容. 閱讀更多
只有$ 0.每100個單詞01
獨創性.AI是最準確的AI檢測.在1200個數據樣本的測試數據集中,它的準確度為96%,而其最接近的競爭對手只能達到35%. . 檢測到電子郵件,Google文檔和網站. 閱讀更多
*價格隨時可能更改. PC指南是讀者支持的. 當您通過我們網站上的鏈接購買時,我們可能會獲得會員委員會. 了解更多
因此,您需要從穩定擴散中的圖形卡以使其工作? 還是一個可以替換另一個? 讓我們找出答案.
是穩定擴散所需的GPU?
是的,為了穩定的擴散在沒有任何問題的情況下順利進行工作,您必須在PC上擁有GPU. 至少要查看8-10 GB NVIDIA型號. 此外,請確保您在PC系統中有16 GB的PC RAM,以避免任何不穩定.
GPU將運行穩定的擴散,而不會遇到較慢的響應速度等問題. 要說穩定的擴散專門在圖形卡上運行最好是不會的. 至於使用哪種GPU,我們建議使用16或24 GB VRAM的NVIDIA RTX 4080和4090型號以獲得最佳結果. 這些是強大的套件,可以保證您快速服務.
是否可以在AMD GPU上運行穩定的擴散?
是的,除了NVIDIA系列模型外,您也可以在AMD GPU上進行穩定的擴散. 但是,要使用AMD,請確保您在RX470上方具有模型. 此外,為了獲得最佳效果,請確保再有8GB或以上以避免任何不便.
常見問題解答
可以在Apple Mac處理器上進行穩定的擴散工作?
是的,穩定的擴散支持Apple Mac書籍. 但是,它僅支持基於矽的M1和M1最新型號. 在此之前的任何模型都不是為了獲得最佳結果. 即使是較舊的M1和M2模型,如果滿足要求.
結論
在當今的技術世界中,擁有GPU是強制性的要求. 嘗試擁有GPU或其他圖形支持的最新,最快的模型. 因此,對於穩定的擴散,最好擁有GPU. 儘管有幾種沒有GPU運行的方法,但它們並不像看起來那樣可靠. 因此,在運行穩定擴散之前,請確保擁有一張好的圖形卡,以獲得最佳結果.
總體上,圖形卡也是一個好主意,可以充分利用PC. 他們改善了遊戲和創造性的體驗十倍. 如果您需要關於要去哪一個的想法,請在此處查看我們最好的圖形卡的綜述.
穩定的擴散基準測試:GPU運行AI最快(更新)
如今,人工智能和深度學習一直處於頭條新聞,無論是chatgpt產生糟糕的建議,自動駕駛汽車,被指控使用AI的藝術家,AI的醫療建議等等. 這些工具中的大多數都依賴於帶有大量硬件進行培訓的複雜服務器,但是可以在PC上使用訓練有素的網絡使用其圖形卡來完成推理. 但是,消費者GPU進行AI推理的速度有多快?
在最新的NVIDIA,AMD甚至Intel GPU上,我們已經基準了穩定的擴散,這是一個流行的AI圖像創建者,以查看它們如何堆疊. 如果您偶然地試圖在自己的PC上啟動並運行穩定的擴散,那麼您可能會對複雜或簡單有所了解! – 那可能是. 簡短的摘要是,Nvidia的GPU統治著Roost,大多數使用CUDA和其他NVIDIA工具集設計的軟件. 但這並不意味著您無法在其他GPU上穩定擴散.
我們最終使用了三個不同穩定的擴散項目進行測試,這主要是因為每個GPU都沒有單個軟件包. 對於NVIDIA,我們選擇了自動1111的WebUI版本。它表現最好,有更多的選擇,並且很容易運行. 使用點頭測試AMD GPU.AI的鯊魚版本 – 我們檢查了Nvidia GPU的性能(在Vulkan和Cuda模式中),發現它是. 不足. 由於缺乏支持,讓英特爾的弧GPU運行更加困難,但是穩定的擴散OpenVino給了我們一些 非常 基本功能.
免責聲明. . 我們相對有信心,NVIDIA 30系測試在接近最佳性能方面做得很好,尤其是當啟用Xformers時,這提供了額外的增強性能(儘管以降低的精度可能會影響質量). 同時,RTX 40系列結果較低,但是George SV8ARJ提供了此修復程序,在此更換Pytorch Cuda DLL可以使性能促進健康的增強.
AMD結果也有點混合袋:rDNA 3 GPU的性能很好,而RDNA 2 GPU似乎相當平庸. 點頭.AI讓我們知道他們仍在為rDNA 2開發“調整”模型,一旦可用. 最後,在Intel GPU上,即使最終的性能似乎與AMD選項保持一致,但實際上,渲染的時間要長得更長 – 需要5-10秒才能開始實際的一代任務,並且可能很多正在發生額外的背景問題,使它減慢.
由於選擇了軟件項目,我們還使用不同的穩定擴散模型. 點頭..1,而自動1111和OpenVino使用SD1.4(儘管有可能啟用SD2.1在自動1111上). 同樣,如果您對穩定擴散有一些內部知識,並且想推薦可能比我們使用的更好的開源項目,請在評論中告知我們(或者只是電子郵件jarred).
我們的測試參數對於所有GPU都是相同的,儘管在英特爾版本上沒有負面提示選項的選項(至少不是我們可以找到). 上面的畫廊是使用NVIDIA GPU上的自動1111的WebUI生成的,具有更高的分辨率輸出(這需要很多, 很多 更長的時間). 這是相同的提示,但針對2048×1152而不是我們用於基準測試的512×512. 請注意,我們選擇的設置被選為所有三個SD項目。一些可以改善吞吐量的選項僅在自動1111的構建中可用,但稍後會提供更多信息. 這是相關設置:
正提示:
世界末日後蒸汽朋克城市,探索,immatic,逼真的,超詳細的,逼真的最大細節,體積光,((((focus))),寬角,((((((((亮度亮麗)亮燈))))),((((((((植物))))),閃電,藤蔓,破壞,破壞,沃爾頓,廢墟
負提示:
(((((模糊)))),(((霧)),((((((((((daind)))
腳步:
分類器免費指導:
15.0
一些Euler變體(自動1111上的祖先,AMD上的鯊魚Euler離散)
採樣算法似乎並不主要影響性能,儘管它可能會影響輸出. 自動1111提供了最多的選項,而英特爾OpenVino構建沒有任何選擇.
這是我們測試AMD RX 7000/6000系列,NVIDIA RTX 40/30系列的結果. 請注意,每個NVIDIA GPU都有兩個結果,一個使用默認的計算模型(較慢且黑色),第二個使用Facebook的更快的“ Xformers”庫(更快,綠色)使用速度。.
. . 生成每個圖像僅需三秒鐘以上,甚至RTX 4070 TI也能夠通過3090 TI吱吱作響(但如果您禁用Xformers).
從3090到3050. 同時,AMD的RX 7900 XTX將RTX 3090 Ti綁定(額外重新測試後),而RX 7900 XT將RTX 3080 TI綁定. 7900張卡片看起來不錯,而每張RTX 30系列卡最終都擊敗AMD的RX 6000系列零件(目前). 最後,Intel Arc GPU幾乎進入了最後,只有A770超過RX 6600. 讓我們更多地談論差異.
適當的優化可以使RX 6000系列卡上的性能增加一倍. 點頭.AI說,在接下來的幾天裡,應該對RDNA 2進行調整,這時總體地位應該開始與理論性能更好地相關聯. 談到點頭.AI,我們還使用該項目對一些NVIDIA GPU進行了一些測試,而使用Vulkan模型,NVIDIA卡的速度大大慢於自動1111的構建(15..31在4080,11.41在3090 Ti上,10.76在3090中 – 我們無法測試其他卡,因為需要先啟用它們).
根據使用調諧型號的7900張卡的性能,我們也對Nvidia卡以及他們從張量的核心中受益多少好奇. 從表面上看,4090的性能是RX 7900 XTX的五倍以上 – 和2.即使我們打折稀缺,表現也是7倍. . 同樣的邏輯也適用於英特爾的弧卡.
Intel的ARC GPU當前提供非常令人失望的結果,尤其是因為它們支持FP16 XMX(MATRIX)操作,該操作應作為常規FP32計算最多提供4倍的吞吐量. 我們懷疑我們使用的當前穩定擴散openvino項目也為改進留出了很大的空間. 順便說一句,如果您想嘗試在弧GPU上運行SD,請注意您必須編輯’stable_diffusion_engine.py’文件並將“ CPU”更改為“ GPU” – 否則它不會使用圖形卡進行計算,而花費更長的時間.
總的來說,使用指定版本,NVIDIA的RTX 40系列卡是最快的選擇,其次是7900張卡片,然後是RTX 30系列GPU. RX 6000系的表現不佳,並且ARC GPU通常看起來很差. 更新的軟件可能會發生根本性的變化,並且鑑於AI的普及,我們希望看到更好的調整隻是時間問題(或找到已經調整以提供更好性能的正確項目).
我們還對傳統GPU進行了一些測試,特別是NVIDIA的Turing Architecture(RTX 20和GTX 16系列)和AMD的RX 5000系列. RX 5600 XT失敗了,因此我們在RX 5700上進行了測試,而GTX 1660超級速度足夠慢,以至於我們不需要對下層零件進行任何進一步的測試. 但是這裡的結果很有趣.
首先,RTX 2080 TI最終優於RTX 3070 TI. 通常不會發生這種情況,在比賽中,即使是香草3070,也傾向於擊敗前冠軍. .
我們稍後將獲得其他一些理論計算績效編號,但再次將RTX 2080 TI和RTX 3070 TI作為示例. 2080 Ti張量芯不支持稀疏性,最多具有108個Tflops FP16計算. RTX 3070 TI用174個TFLOPS FP16或87 TFLOPS FP16支持無稀疏性的稀疏性. 2080 Ti擊敗3070 TI的事實顯然表明稀疏不是一個因素. 相同的邏輯也適用於其他比較,例如2060和3050,或2070 Super和3060 Ti.
. 5700 XT在6650 XT之前登陸,但5700降落在6600. 在紙上,XT卡應高達22%. 但是,在我們的測試中,它快37%. 無論哪種方式,在我們的初始穩定擴散基準中,較舊的Navi 10 GPU都不特別表現.
最後,紙上的GTX 1660 Super應使用RTX 2060的理論性能,使用後者的張力核. 如果我們將著色器性能與FP16一起使用(Turing在FP16著色器代碼上的吞吐量是兩倍),則差距狹窄僅為22%的赤字. .
同樣,目前尚不清楚這些項目的優化如何. 目前尚不清楚這些項目是否完全利用了Nvidia的張量核心或英特爾的XMX內核. 因此,我們認為查看各種GPU的最高理論表現(TFLOPS)將很有趣. 以下圖表顯示了每個GPU的理論FP16性能(僅查看最新的圖形卡),使用張量/矩陣內核(適用). NVIDIA的結果還包括稀缺性 – 基本上可以跳過0的能力,以獲取矩陣中多達一半的單元格,據說這是一個非常頻繁的發生,而深度學習工作負載很頻繁.
NVIDIA上的那些張量芯顯然會打一拳(灰色/黑色條沒有稀疏性),顯然我們的穩定擴散測試與這些數字完全不匹配 – 甚至沒有接近. 例如,在紙上,RTX 4090(使用FP16)的速度比RTX 3090 Ti快106%,而在我們的測試中,它的速度快43%,沒有Xformers,而使用Xformers的速度更快為50%。. .
同時,看看弧GPU. 他們的矩陣核心應提供與RTX 3060 TI和RX 7900 XTX相似的性能,給予或接受,而A380圍繞RX 6800. . RX 6600和RX 6600 XT之間最快的A770 GPU土地,A750落在RX 6600後面,而A380大約是A750速度的第四個. 因此,它們都是預期性能的四分之一,如果不使用XMX核心,這將是有道理的.
不過,弧線的內部比率確實正確. A380上的理論計算性能約為A750的四分之一,這就是它在穩定的擴散性能方面的地位. 弧GPU最有可能以完整的精度FP32模式使用著色器進行計算,並且缺少一些其他優化.
要注意的另一件事是,與RX 6000系列相比. 我們必須查看調諧的6000系列模型是否截斷了差距,.AI說,RDNA 2的性能會提高2倍. .
這是對理論FP16性能的不同看法,這次僅著眼於各種GPU可以通過著色器計算做什麼. NVIDIA的Ampere和ADA體系結構以與FP32相同的速度運行FP16,因為假設為FP16以使用張量核. 與FP32相比.
顯然,對FP16計算的第二種看法與我們的實際性能不比張量和矩陣內核更好,但是設置矩陣計算還需要其他復雜性,因此全部性能需要. 額外的東西. 這使我們進入了最後一個圖表.
最終圖顯示了我們高分辨率測試的結果. 我們沒有測試新的AMD GPU,因為我們必須在AMD RX 6000系列卡上使用Linux,顯然RX 7000系列需要一個較新的Linux內核,我們無法使其正常工作. 但是,請查看RTX 40系列結果,然後更換火炬DLL.
. 4080還以/沒有Xformers為單位的3090 TI擊敗55%/18%. 4070 TI有趣的是沒有Xformer的3090 Ti慢22%,但使用Xformers快20%.
看來2048×1152的更複雜的目標分辨率開始更好地利用潛在的計算資源,並且較長的運行時間意味著張量的核心可以完全彎曲其肌肉.
最終,這充其量是穩定擴散性能的快照. 我們正在看到頻繁的項目更新,對不同培訓庫的支持以及更多. 我們將看到有關在來年對此主題進行更多重新訪問的內容,希望能為所有各種GPU提供更好的優化代碼.
留在最前沿
加入專家,他們在愛好者PC Tech News上閱讀Tom的硬件進行內部軌道 – 並且擁有25年以上. 我們將對CPU,GPU,AI,Maker Hardware以及更多直接發送到您的收件箱,向CPU,GPU,AI,Maker Hardware發送突發新聞和深入評論.
通過提交您的信息,您同意條款和條件和隱私政策,並年齡在16歲或以上.
Jarred Walton是Tom的硬件的高級編輯,專注於GPU. 自2004年以來,他一直擔任科技記者,為Anandtech,Muxigar PC和PC遊戲玩家寫作. 從第一個S3 Virge“ 3D減速器”到今天的GPU,Jarred都跟上所有最新的圖形趨勢,並且是詢問遊戲性能的人.