? Ръководство за компютър, стабилна дифузионна ориентир: Кой GPU работи AI най -бързо (актуализиран) | TOM S HARDWARE
Стабилна дифузионна ориентир: Кой GPU работи AI най -бързо (актуализиран)
Ще стигнем до някои други теоретични изчислителни резултати за миг, но отново помислете за RTX 2080 Ti и RTX 3070 Ti като пример. Тензорните ядра на Ti Ti не поддържат оскъдността и имат до 108 tflops от FP16 Compute. RTX 3070 TI поддържа SSRARSITY със 174 Tflops от FP16 или 87 Tflops FP16 без SPARSITY. Фактът, че 2080 Ti побеждава 3070 Ti, ясно показва, че SSARSITY не е фактор. Същата логика важи за други сравнения като 2060 и 3050, или 2070 супер и 3060 TI.
Имам ли нужда от GPU за стабилна дифузия?
? .
Стабилната дифузия несъмнено е бърз и интуитивен инструмент за генериране на изкуство като Dall-E и Midjourney. Резултатите му са впечатляващи, така че в момента има милиони потребители. . Говорейки за това, ще говорим за това дали стабилната дифузия може да работи без графичен процесор или все пак ще ви трябва графична карта, за да функционирате правилно.
Графични процесори или графични карти са малки парчета технологии, които сериозно ще надграждат всякакви игри или творчески професионален опит. .
Основни AI инструменти
Ексклузивна сделка 10 000 безплатни бонус кредита
Съдържание на марка AI, където и да създадете. 100 000+ клиенти, създаващи истинско съдържание с Jasper. Един инструмент AI, всички най -добри модели.
Изживейте пълната мощност на генератора на съдържание на AI, който дава премиум резултати за секунди. 8 милиона потребители се радват да пишат блогове 10 пъти по -бързо, без усилие да създават по -високи публикации в социалните медии или да пишат по -ангажиращи имейли. . Прочетете още
Само $ 0.!
Уинстън Ай детектор
. Winston AI е водещият в индустрията инструмент за откриване на съдържание на AI, за да помогне за проверка на AI съдържание, генерирано с Chatgpt, GPT-4, Bard, Bing Chat, Claude и много други LLMS. Прочетете още
.01 на 100 думи
Оригиналност AI детектор
Оригиналност..В набор от данни за тестване от 1200 проби от данни той постигна точност от 96%, докато най -близкият му конкурент постигна само 35%. Полезно разширение за хромиране. Открива в имейли, Google документи и уебсайтове.
*Цените подлежат на промяна. Ръководството за компютър е подкрепено от Reader. . Научете повече
Така че имате ли нужда от графична карта от стабилна дифузия, за да работи? Или може да се замени другия? Нека разберем.
Е графичен процесор, необходим за стабилна дифузия?
Да, за да работи стабилно дифузия безпроблемно без проблеми, трябва да имате GPU на вашия компютър. За минимум погледнете 8-10 GB NVIDIA модели. Освен това, уверете се, че имате 16 GB PC RAM в компютърната система, за да избегнете някаква нестабилност.
. Да се каже, че стабилната дифузия изключително работи най -добре на графична карта, няма да е сгрешило. Що се отнася до кой GPU да използваме, предлагаме моделите NVIDIA RTX 4080 и 4090 с 16 или 24 GB VRAM за най -добри резултати. Това са сериозно мощни парчета комплект, които ще ви гарантират бързо обслужване.
?
. . Освен това, за най -добри резултати, не забравяйте да имате още 8 GB или по -горе, за да избегнете неудобства.
Често задавани въпроси
Може ли стабилна дифузионна работа върху процесорите на Apple Mac?
Да, стабилната дифузия поддържа Apple Mac Books. Въпреки това, той поддържа само най-новите модели на M1 и M1 на силиций. Всеки модел преди това не е за най -добри резултати. Дори по -стар модел M1 и M2 ще се оправи, ако изпълни изискванията.
Заключение
Наличието на графичен процесор е задължително изискване в днешния технологичен свят. Опитайте се да имате най -новия и най -бърз модел за GPU или други графични опори. Следователно за стабилна дифузия е най -добре да имате GPU. Въпреки че има няколко начина да го стартирате без графичен процесор, те не са толкова надеждни, колкото може да изглеждат. Така че, не забравяйте да имате добра графична карта, преди да стартирате стабилна дифузия за най -добри резултати.
Графичната карта също е добра идея като цяло за извличане максимално от вашия компютър. Те подобряват игрите и творческите преживявания десетократно. Ако имате нужда от идеи към коя да отидете, вижте нашия кръг от най-добрите графични карти тук.
Стабилна дифузионна ориентир: Кой GPU работи AI най -бързо (актуализиран)
Изкуственият интелект и дълбокото обучение са постоянно в заглавията в наши дни, независимо дали става дума за чат, генерирайки лоши съвети, самоуправляващи се автомобили, художници са обвинени в използване на AI, медицински съвети от AI и други. Повечето от тези инструменти разчитат на сложни сървъри с много хардуер за обучение, но използването на обучената мрежа чрез извод може да се направи на вашия компютър, като се използва графичната му карта. Но колко бързи са потребителските графични процесори за извършване на AI изводи?
Ние сравняваме стабилната дифузия, популярен създател на изображения на AI, в най -новите NVIDIA, AMD и дори Intel GPU, за да видим как се подреждат. Ако случайно сте се опитали да получите стабилна дифузия и да работите на собствения си компютър, може да имате някакво манипулиране на това колко сложно – или просто! – Това може да бъде. Краткото обобщение е, че графичните процесори на NVIDIA управляват Roost, като повечето софтуер са проектирани с помощта на CUDA и други набори от инструменти NVIDIA. Но това не означава, че не можете да получите стабилна дифузия, работеща на другия график.
В крайна сметка използвахме три различни стабилни проекта за дифузия за нашето тестване, най -вече защото нито един пакет не работи на всеки графичен процесор. За Nvidia избрахме автоматичната версия на WebUI на Automatic 1111; тя се представи най -добре, имаше повече възможности и беше лесно да се работи. AMD GPU бяха тествани с помощта на NOD.. липсващ. Поставянето на Arc GPU на Intel беше малко по -трудно, поради липса на подкрепа, но стабилната дифузия OpenVino ни даде някои много .
Отказът от отговорност е в ред. Не кодирахме нито един от тези инструменти, но потърсихме неща, които бяха лесни за работа (под Windows), които също изглеждаха разумно оптимизирани. Сравнително сме уверени, че тестовете за 30 серии NVIDIA вършат добра работа за извличане на близо до оптимална производителност-особено когато са активирани Xformers, което осигурява допълнителен ~ 20% увеличение на ефективността (макар че при намалена точност, което може да повлияе на качеството). Резултатите от 40 серии RTX първоначално бяха по-ниски, но Джордж SV8ARJ предостави тази поправка, където замяната на Pytorch Cuda DLLS даде здравословен тласък на производителността.
Резултатите от AMD също са малко смесена торбичка: rDNA 3 GPU се представят много добре, докато rDNA 2 графичните процесори изглеждат доста посредствени. Кимване.AI ни уведомете, че все още работят върху „настроени“ модели за RDNA 2, които трябва да повишат производителността доста (потенциално двойно), след като са налични. И накрая, на GPU на Intel, въпреки че върховното представяне изглежда прилично се подрежда с опциите на AMD, на практика времето за изобразяване е значително по -дълго – отнема 5–10 секунди, преди да стартира действителната задача за поколение и вероятно много от много от се случват допълнителни неща, които го забавят.
Използваме и различни модели за стабилна дифузия, поради избора на софтуерни проекти. Кимване.Версията за акули на AI използва SD2.1, докато автоматично 1111 и OpenVino използват SD1.4 (въпреки че е възможно да се активира SD2.1 на автоматично 1111). Отново, ако имате някои вътрешни познания за стабилна дифузия и искате да препоръчате различни проекти с отворен код, които могат да работят по -добре от това, което използвахме, уведомете ни в коментарите (или просто изпратете имейл).
Нашите параметри за тестване са еднакви за всички графични процесори, въпреки че няма опция за отрицателна опция за бърза версия на версията на Intel (поне не че бихме могли да намерим). Горната галерия е генерирана с помощта на Automatic 1111’s WebUI на графични процесори на Nvidia, с изходи с по -висока разделителна способност (които отнемат много, много по -дълго за завършване). Това са същите подкани, но насочени към 2048×1152 вместо 512×512, които използвахме за нашите показатели. Обърнете внимание, че настройките, които избрахме, бяха избрани да работят по трите SD проекта; Някои опции, които могат да подобрят пропускателната способност, са достъпни само при автоматично изграждане на 1111, но повече за това по -късно.
Отрицателна подкана:
(((замъглено))), ((мъгливо)), (((тъмно))), ((монохром)), слънце, (((дълбочина на полето)))))
Стъпки:
100
Класификатор безплатни насоки:
15.0
Алгоритъм за вземане на проби:
Алгоритъмът за вземане на проби изглежда не влияе основно на производителността, въпреки че може да повлияе на изхода. Автоматичното 1111 предоставя най -много възможности, докато Intel Openvino Build не ви дава никакъв избор.
Ето резултатите от нашето тестване на AMD RX 7000/6000-серия, NVIDIA RTX 40/30-серия и GPU за Arc Arc Arc. Обърнете внимание, че всеки графичен процесор NVIDIA има два резултата, един, използващ изчислителния модел по подразбиране (по -бавен и в черно), а секунда, използвайки по -бързата библиотека „Xformers“ от Facebook (по -бързо и в зелено).
. С DLL Fix за факла на място, RTX 4090 осигурява 50% повече производителност от RTX 3090 Ti с Xformers и 43% по -добра производителност без Xformers. Отнема малко повече от три секунди, за да се генерира всяко изображение и дори RTX 4070 Ti е в състояние да проклина покрай 3090 Ti (но не и ако деактивирате Xformers).
Нещата падат по доста последователен начин от най -добрите карти за NVIDIA GPU, от 3090 до 3050. Междувременно RX 7900 XTX на AMD обвързва RTX 3090 Ti (след допълнително повторно тестване), докато RX 7900 XT обвързва RTX 3080 Ti. Картите 7900 изглеждат доста добре, докато всяка карта с 30 серии RTX завършва с битките на RX RX серия части на AMD (засега). И накрая, графичните процесори на Arc Intel идват почти последни, като само A770 успява да изпревари RX 6600. Нека поговорим малко повече за несъответствията.
Правилните оптимизации могат да удвоят производителността на картите с 6000 серии RX. Кимване.AI казва, че в следващите дни трябва да има настройки за RDNA 2, в този момент цялостното положение трябва да започне да корелира по -добре с теоретичното представяне. .AI, направихме и някои тестове на някои графични процесори на NVIDIA, използвайки този проект, а при моделите Vulkan картите NVIDIA бяха значително по -бавни, отколкото при автоматичното изграждане на 1111 (15.52 It/s на 4090, 13.31 На 4080, 11.41 на 3090 Ti и 10.76 На 3090 – не можахме да тестваме другите карти, тъй като те трябва първо да бъдат активирани).
Въз основа на производителността на 7900 карти, използвайки настройкини модели, ние също сме любопитни за картите на Nvidia и колко са в състояние да се възползват от своите ядра на Tensor. На хартия 4090 има над пет пъти по -голяма от работата на RX 7900 XTX – и 2.7 пъти по -голямо от представянето, дори ако отстъпваме с недостиг на. На практика 4090 в момента е само с около 50% по -бърз от XTX с версиите, които използвахме (и това спада до само 13%, ако пропуснем резултата от по -ниската точност на Xformers)). Същата тази логика се прилага и за дъговите карти на Intel.
Arc GPU на Intel понастоящем дават много разочароващи резултати, още повече, че те поддържат операции на FP16 XMX (Matrix), които трябва да доставят до 4x пропускателната способност като редовни изчисления на FP32. Подозираме, че настоящият стабилен проект за дифузия OpenVino, който използвахме, също оставя много място за подобрение. .PY ‘файл и променете “процесора” на “GPU” – в противен случай той няма да използва графичните карти за изчисленията и отнема значително по -дълго време.
Като цяло, използвайки посочените версии, картите RTX 40-серия на NVIDIA са най-бързият избор, последван от 7900 карти, а след това RTX 30-серии GPU. RX 6000-серията по-ниски и дъговите графични процесори изглеждат като цяло бедни. Нещата могат да се променят коренно с актуализиран софтуер и предвид популярността на AI, очакваме, че е само въпрос на време, преди да видим по -добра настройка (или да намерим правилния проект, който вече е настроен да осигури по -добра производителност).
Също така проведохме някои тестове на Legacy GPU, по-специално архитектурата на Turing на NVIDIA (RTX 20- и GTX 16-серия) и RX 5000-серия на AMD. RX 5600 XT се провали, така че оставихме с тестване на RX 5700, а GTX 1660 Super беше достатъчно бавен, че не чувствахме нужда да правим допълнителни тестове на части от по -ниско ниво. Но резултатите тук са доста интересни.
Първо, RTX 2080 TI завършва превъзхождайки RTX 3070 Ti. Това обикновено не се случва и в игрите дори ванилията 3070 има тенденция да победи бившия шампион. По -важното е, че тези числа предполагат, че оптимизациите на “SSARSITY” на NVIDIA в ампер архитектурата изобщо не се използват – или може би те просто не са приложими.
Ще стигнем до някои други теоретични изчислителни резултати за миг, но отново помислете за RTX 2080 Ti и RTX 3070 Ti като пример. Тензорните ядра на Ti Ti не поддържат оскъдността и имат до 108 tflops от FP16 Compute. RTX 3070 TI поддържа SSRARSITY със 174 Tflops от FP16 или 87 Tflops FP16 без SPARSITY. Фактът, че 2080 Ti побеждава 3070 Ti, ясно показва, че SSARSITY не е фактор. Същата логика важи за други сравнения като 2060 и 3050, или 2070 супер и 3060 TI.
Що се отнася до картите на RDNA на AMD, RX 5700 XT и 5700, има широка пропаст в производителността. 5700 Xt се приземяват точно пред 6650 Xt, но 5700 се приземяват под 6600. На хартия картата XT трябва да бъде до 22% по -бърза. . Така или иначе, нито един от по -старите графични процесори на Navi 10 не е особено изпълнен в първоначалните ни показатели за стабилна дифузия.
И накрая, GTX 1660 Super On Paper трябва да бъде около 1/5 теоретичните показатели на RTX 2060, използвайки тензорни ядра на последния. . Но в нашето тестване, GTX 1660 Super е само около 1/10 Скоростта на RTX 2060.
Отново не е ясно точно колко оптимизиран е някой от тези проекти. Също така не е ясно дали тези проекти се използват напълно неща като тензорни ядра на Nvidia или XMX ядра на Intel. Като такива, ние решихме, че би било интересно да разгледаме максималните теоретични показатели (TFLOPS) от различните графични процесори. Следващата диаграма показва теоретичната ефективност на FP16 за всеки графичен процесор (гледайки само по -новите графични карти), използвайки тензорни/матрични ядра, където е приложимо. Резултатите на NVIDIA включват също недостиг – основно способността да се прескача умноженията по 0 до половината клетки в матрица, което уж е доста често срещано с дълбоки учебни натоварвания.
Тези тензорни ядра на Nvidia ясно опаковат удар (сивите/черните пръти са без оскъди) и очевидно нашето стабилно тестване на дифузия не съвпада точно с тези фигури – дори не е близо. Например, на хартия RTX 4090 (използвайки FP16) е до 106% по -бърз от RTX 3090 Ti, докато в нашите тестове беше 43% по -бърз без Xformers и 50% по -бърз с Xformers. Обърнете внимание също така, че приемаме, че проектът за стабилна дифузия, който сме използвали (Automatic 1111), не използва новите инструкции FP8 на GPU на ADA Lovelace, което потенциално би могло да удвои производителността на RTX 40-серия отново.
Междувременно, погледнете арвалните графични процесори. Матричните им ядра трябва да осигурят подобна производителност на RTX 3060 Ti и RX 7900 XTX, дават или вземат, с A380 надолу около RX 6800. На практика дъговите графични процесори никъде не са близо до тези марки. Най -бързата земя на A770 GPU между RX 6600 и RX 6600 xt, A750 пада точно зад RX 6600, а A380 е около една четвърта скоростта на A750. Така че те са около една четвърт от очакваното изпълнение, което би имало смисъл, ако XMX ядрата не се използват.
Вътрешните съотношения на дъгата обаче изглеждат правилно. Теоретичната изчислителна ефективност на A380 е около една четвърт A750 и там се приземява по отношение на стабилната дифузионна ефективност в момента. Най -вероятно, ARC GPU използват шейдъри за изчисленията, в пълен прецизен FP32 режим и изпускат някои допълнителни оптимизации.
Другото, което трябва да забележите, е, че теоретичното изчисление на RX 7900 XTX/XT се подобри много в сравнение със серията RX 6000. .AI заяви, че очаква около 2x подобрение на производителността на rDNA 2. Широчината на паметта не беше критичен фактор, поне за целевата резолюция 512×512, която използвахме – модели 3080 10GB и 12 GB се приземяват сравнително близо един до друг.
Ето различен поглед върху теоретичното представяне на FP16, този път се фокусира само върху това, което различните графични процесори могат да направят чрез изчисления на шейдъра. Амперът и ADA архитектурите на Nvidia работят FP16 със същата скорост като FP32, тъй като предположението е FP16, може да бъде кодирано, за да се използват тензорните ядра. AMD и Intel GPU за разлика от тях имат двойна производителност при изчисления на шейдърите на FP16 в сравнение с FP32.
Ясно е, че този втори поглед на FP16 Compute не съответства на действителната ни производителност по -добре от диаграмата с тензорни и матрични ядра, но може би има допълнителна сложност при настройването на изчисленията на матрицата и затова изисква пълната ефективност. нещо допълнително. Което ни довежда до една последна диаграма.
. Не тествахме новите GPU на AMD, тъй като трябваше да използваме Linux на AMD RX 6000-сериални карти, а очевидно RX 7000-серията се нуждае от по-ново ядро на Linux и не можахме да го накараме да работи. Но вижте резултатите от RTX 40-серията, като са заменени DLL на факела.
. 4080 също бие 3090 Ti с 55%/18% с/без Xformers. 4070 TI интересно е 22% по -бавен от 3090 Ti без Xformers, но с 20% по -бързо с Xformers.
Изглежда, че по -сложната целева разделителна способност 2048×1152 започва да се възползва по -добре от потенциалните изчислителни ресурси и може би по -дългите времена на изпълнение означават, че тензорните ядра могат напълно да огънат мускула си.
В крайна сметка това е в най -добрия случай моментна снимка във времето на стабилна дифузионна ефективност. . Ще видим за преразглеждането на тази тема повече през следващата година, надяваме се с по -добре оптимизиран код за всички различни графични процесори.
Останете на режещия ръб
Присъединете се към експертите, които четат хардуера на Том за вътрешната песен на ентусиастите PC Tech News – и имат повече от 25 години. Ще изпращаме Breaking News и задълбочени отзиви за процесори, графични процесори, AI, хардуер на производителя и по-направо към вашата пощенска кутия.
Изпращайки вашата информация, вие се съгласявате с Общите условия и Политика за поверителност и сте на възраст 16 или повече години.
Jarred Walton е старши редактор в Hardware на Tom, фокусиран върху всичко на GPU. . От първите 3D делератори на S3 Virge до днешните графични процесори, Jarred е в крак с всички най -нови тенденции в графиката и е този, който трябва да пита за представянето на играта.