Selektivno unapređivanje rendera enterijera korišćenjem Stable Diffusion-a Faza II – Geometrija i vizuelizacija slobodnih formi

Korišćeni model: realisticVisionV60B1_v51HyperVAE.safetensors

– Ovaj model je napredna verzija Realistic Vision 6.0 B1, optimizovana za fotorealističnu generaciju slika. Koristi HyperVAE, naprednu varijantu VAE (Variational Autoencoder), koja poboljšava detalje, dubinu i teksture u generisanim slikama.

-razlog upotrebe ovog modela je jer generiše slike sa visokim stepenom realizma, uključujući detalje kao što su senke, teksture i osvetljenje. Takođe omogućava stabilnost– pruža dosledne rezultate bez prekomernih distorzija ili “umetničkih” efekata.

Opcije generisanja u Stable Diffusion-u:

Text-to-Image: Generiše sliku od samog prompta.

Image-to-Image (img2img): Uzima postojeću sliku i menja je prema promptu.

Inpaint: Menja samo obojeni/maskirani deo slike, ostalo ostaje isto.

*Koristila sam inpaint upload opciju tako što sam izvezla maske iz 3ds Max-a i ubacivala ih u Stable Diffusion radi preciznijeg obeležavanja delova rendera koje sam želela da menjam.

Ključni parametri:

Koristila sam iste promptove za sve iteracije, jer parametri u Stable Diffusion-u su ključni za postizanje željenog efekta.

Prikaz promt-a i Negative promt-a

*CFG Scale je parametar koji kontroliše koliko će generisana slika pratiti tekstualni prompt. Što je veća vrednost, slika će se više pridržavati opisa u promptu, dok niže vrednosti omogućavaju veću kreativnost modela. To ne znači da vrednost treba uvek da bude podešena na maksimum, jer veće navođenje znači manje raznolikosti i kvaliteta.

*Ostali parametri- Sampling Steps- 20, Denoising Strength- 0,4

Prvo sam postavila podlogu (pomoću inpaint opcije obojila sam deo sa kamenom teksturom na kojoj sam želela da unapredim teksturu kamena), dodavajući nepravilsnoti, senke za efekat displacement-a kako material ne bi bio previse “flat”, nemenjajuci previse originalan materijal.

Kada sam stavila CFG Scale = 1, model je imao potpunu slobodu i promenio je kamen na način koji nisam želela, tako da rezultat nije odgovarao mom promptu. Sa CFG Scale = 8, model je najbolje pratio moj prompt: senke i sitne nepravilnosti kamena su se jasno istakle, a originalni materijal je ostao netaknut. Kada sam povećala na CFG Scale = 15, model je previše striktno pratio prompt – za neke detalje je bio precizan, ali je u isto vreme menjao boju kamena, što nisam želela, pa rezultat nije bio idealan.

Preporuka: Koristititi vrednost skale smernica od 7-9. Povećati je kada generisana slika ne prati upit. Kloniti se ekstrema od 1 i 20.

*Sampling Steps u suštini kontroliše “dubinu i preciznost iterativnog procesiranja latentnog prikaza”, odnosno koliko temeljno model razvija strukturu, senke, teksture i mikrodetalje slike. Više koraka = veća preciznost i detaljnost, manje koraka = brža, ali grublja generacija

*Latentni prikaz je unutrašnja matematička reprezentacija slike koju model koristi dok je generiše ili obrađuje. Tokom Sampling Steps, model iterativno menja ovaj latentni prikaz, postepeno uklanjajući šum i razvijajući detalje, dok se konačno “dekodira” u vidljivu, fotorealističnu sliku.

Kada sam stavila Sampling Steps = 1, model je tek počeo proces generisanja, pa se kamen uopšte nije video. Jasno je da jedan korak definitivno nije dovoljan da bismo videli željeni efekat.

Preporuka: Oko 25 koraka je obično dovoljno da se postignu slike visokog kvaliteta. Korišćenje više koraka može proizvesti malo drugačiju sliku, ali ne nužno i bolji kvalitet. Pored toga, iterativna priroda procesa usporava generisanje; što više koraka, to će biti duže vreme za generisanje slike. U većini slučajeva, ne isplati se dodatno vreme čekanja.

*Ostali parametri- CFG- 8, Denoising Strength- 0,4

*Denoising Strength je ključni parametar u Stable Diffusion-u koji kontroliše koliko model može da menja početnu sliku tokom generisanja. Ovaj parametar je posebno važan u img2img i inpainting režimima rada.

-To je proces uklanjanja šuma iz latentnog prikaza slike, a taj šum predstavlja nasumične promene koje model dodaje kako bi generisao nove detalje i strukture prema tekstualnom promptu.

-Niže vrednosti zadržavaju osnovnu strukturu i boju materijala, dok više vrednosti omogućavaju drastičnije transformacije latentnog prikaza u skladu sa promptom.

Kada je postavljeno 20, gotovo da se nije videla razlika u odnosu na početnu sliku koja je služila kao podloga. Pri vrednosti 50, uvedene su izmene koje nisam želela. Sa vrednošću 80, rezultat je potpuno odstupio od željenog efekta i stvorio neželjene promene.

Preporuka: koristiti vrednosti između 0.25–0.35 za optimalan rezultat.