Loading...
Attēlu ģenerēšana un rediģēšana ar Z-Image. Uzlabota reālisms, skaidrāka teksta ģenerēšana un nacionāla rediģēšanas iespējas, ko patstāvīgi nodrošina uzlabotas AI tehnoloģijas.
Z-Image ir spēcīgs AI modelis ar lieliskām iespējām fotogrāfijas reālisma attēlu ģenerēšanā, precīza ķīniešu un angļu valodas teksta atveidošanā un spēcīga divvalodu norādījumu ievērošanā. Tas sasniedz sniegumu, kas ir līdzvērtīgs vai pārsniedz vadošos konkurentus ar tikai 8 soļiem.
Z-Image modelis pieņem mērogojama vienas plūsmas DiT (S3-DiT) arhitektūru. Šis dizains apvieno dažādu nosacījumu ievades (piemēram, teksta un attēla iestrādes) ar trokšņainu attēlu latentiem vienā secībā, ko pēc tam padod Transformer atskaņas struktūrai. Teksts, vizuālie semantiskie marķieri un attēla VAE marķieri tiek savienoti secības līmenī, lai kalpo kā vienota ievades plūsma, maksimāli palielinot parametru efektivitāti, salīdzinot ar duālo plūsmu pieejām.
6 miljardus parametru lielam modelim tas darbojas izņemami labi attēlu ģenerēšanā. Testēšanas laikā ModelScope platformā (kas izmanto NVIDIA A10 GPU), lielākā daļa ģenerāciju aizņēma maksimāli tikai 2 sekundes ar tikai 9 soļiem. Uz augstpakāpes patērētāju GPU (piemēram, RTX 3090 vai 4090), tas aizņemtu aptuveni 2 līdz 3 sekundes, savukārt vidējā diapazona kartes varētu aizņemt 4 līdz 5 sekundes.
Z-Image izcelas attēlu ražošanā ar fotošķēluma reālismu, demonstrējot detaļu, apgaismojuma un tekstūru smagu kontroli. Tas līdzsvaro augstu ticamību ar spēcīgu estētisko kvalitāti kompozīcijā un vispārējā atmosfērā. Ģenerētie attēli ir ne tikai reālistiski, bet arī vizuāli pievilcīgi.
Z-Image var precīzi atveidot ķīniešu un angļu valodas tekstu, vienlaikus saglabājot sejas reālismu un vispārējo estētisko kompozīciju, un rezultāti ir salīdzināmi ar augstākas klases slēgtā koda modeļiem. Plakāta dizainā tas parāda spēcīgas kompozīcijas prasmes un labu tipografijas izjūtu. Tas var atveidot augstās kvalitātes tekstu pat sarežģītos scenārijos ar maziem fontu izmēriem, nodrošinājot dizainus, kas ir gan tekstuāli precīzi, gan vizuāli pievilcīgi.
Spēcīgais uzvednes uzlabošanas rīks (PE) izmanto strukturētu spriešanas ķēdi, lai iemantotu loģiku un veselo saprātu, ļaujot modelim apstrādāt sarežģītus uzdevumus, piemēram, "vistu un trušu problēmu" vai klasiskās ķīniešu poēzijas vizualizāciju. Rediģēšanas uzdevumos, pat pašreizējot neskaidru lietotāja norādījumiem, modelis var pielietot savas spriešanas iespējas, lai secinātu pamatā esošo nolūku un nodrošinātu loģiski saskaņotas rezultātas.
Z-Image-Edit parāda spēcīgu divvalodu rediģēšanas norādījumu izpratni, ļaujot iztēles spējai un elastīgai attēlu transformācijai. Iebūvētās rediģēšanas funkcijas ļauj sekmīgi modificēt bez ārējiem rīkiem.
Z-Image atbilst vai pārsniedz vadošos konkurentus ar tikai 8 soļiem. Tas nodrošina subsekundi izejas latenci uz uzņēmuma klases H800 GPU un ērti iekļaujas 16G VRAM patērētāju ierīcēs.
Saskaņā ar Elo bāzētu cilvēku preferencu novērtējumu (Alibaba AI arēnā), Z-Image parāda augsti konkurējošu sniegumu pret citiem vadošajiem modeļiem, vienlaikus panākot pašreizējā mākslā esošus rezultātus atvērtā koda modeļu vidū.
Izveidojiet fotogrāfijas reālisma attēlus ar precīzu divvalodu teksta atveidošanu tikai 8 soļos. Pieredziet zibens ātruma ģenerēšanu ar profesionālas kvalitātes rezultātiem.
Aprakstiet savu attēlu ar detalizētām uzvenēm. Z-Image izcelas sarežģītu divvalodu norādījumu izpratnē un var apstrādāt gan angļu, gan ķīniešu valodas teksta atveidošanu ar precizitāti.
Iebūvētais Uzvednes Uzlabošanas rīks (PE) izmanto strukturētu spriešanu, lai iemantotu loģiku un veselo saprātu. Tas var atrisināt sarežģītus uzdevumus un secināt jūsu nolūku pat no neskaidra norādījuma.
Ģenerējiet tikai 8 soļos ar subsekundi latenci. Izmantojiet Z-Image-Edit radošām transformācijām ar divvalodu rediģēšanas norādījumiem un nacionālām rediģēšanas iespējām.
Skaidri norādiet divvalodu teksta prasības precīzai ķīniešu un angļu valodas atveidošanai
Aprakstiet apgaismojumu, ēnas un tekstūras fotošķēluma reālismam
Izmantojiet uzvednes uzlabošanu sarežģītiem radošajiem uzdevumiem un spriešanai
Izmantojiet ātro 8 soļu ģenerēšanu ātrai atkārtošanai
Izmantojiet kompozīcijas prasmes plakātu dizainam un tipografijai
Uzticieties modeļa spriešanai neskaidru radošo norādījumu apstrādei
Z-Image ir spēcīgs AI modelis ar lieliskām iespējām fotogrāfijas reālisma attēlu ģenerēšanā, precīza ķīniešu un angļu valodas teksta atveidošanā un spēcīga divvalodu norādījumu ievērošanā. Tas sasniedz sniegumu, kas ir līdzvērtīgs vai pārsniedz vadošos konkurentus ar tikai 8 soļiem.
Z-Image izmanto mērogojamas vienas plūsmas DiT (S3-DiT) arhitektūru, kas apvieno tekstu, vizuālos semantiskos marķierus un attēla VAE marķierus secības līmenī kā vienotu ievades plūsmu. Tas maksimāli palielina parametru efektivitāti, salīdzinot ar duālo plūsmu pieejām.
Z-Image nodrošina subsekundi izejas latenci uz uzņēmuma klases H800 GPU. Uz NVIDIA A10 GPU, lielākā daļa ģenerāciju aizņem maksimāli 2 sekundes ar tikai 9 soļiem. Uz patērētāju GPU, piemēram, RTX 3090/4090, tas aizņem aptuveni 2-3 sekundes, savukārt vidējā diapazona kartes aizņem 4-5 sekundes.
Jā, Z-Image izcelas precīzā ķīniešu un angļu valodas teksta atveidošanā, vienlaikus saglabājot sejas reālismu un vispārējo estētisko kompozīciju. Tas parāda spēcīgas kompozīcijas prasmes un tipografijas izjūtu, pat sarežģītos scenārijos ar maziem fontu izmēriem.
Uzvednes uzlabošanas rīks izmanto strukturētu spriešanas ķēdi, lai iemantotu loģiku un veselo saprātu, ļaujot modelim apstrādāt sarežģītus uzdevumus, piemēram, "vistu un trušu problēmu" vai klasiskās ķīniešu poēzijas vizualizāciju. Tas var secināt pamatā esošo nolūku pat no neskaidra norādījuma.
Saskaņā ar Elo bāzētu cilvēku preferencu novērtējumu Alibaba AI arēnā, Z-Image parāda augsti konkurējošu sniegumu pret citiem vadošajiem modeļiem, vienlaikus panākot pašreizējā mākslā esošus rezultātus atvērtā koda modeļu vidū.
Pieredziet fotogrāfijas reālisma attēlu ģenerēšanu ar precīzu divvalodu teksta atveidošanu tikai 8 soļos. Zibens ātruma sniegums saskaņā ar pašreizējā mākslā esošu kvalitāti.
Z-Image nodrošina fotošķēluma reālismu, precīzu ķīniešu un angļu valodas teksta atveidošanu un uzlabotas spriešanas iespējas caur uzvednes uzlabošanas rīku. Ģenerējiet profesionālas kvalitātes attēlus 2-5 sekundēs uz patērētāju GPU.
Pieredziet Z-Image - pašreizējā mākslā esošo atvērtā koda attēlu ģenerēšanu ar S3-DiT arhitektūru