21. Yüzyıl’ın Tüm Sanat Akımlarından İzler Taşıyan Ressamı: DALL-E

GPT-3 teknolojisini anlattığımız yazımızda da sizlere bahsettiğimiz gibi, biz daha şiir yazıp tarihi karakterlerle röportaj yapabilen bir yapay zekâyı anlamaya çalışırken, OpenAI, GPT-3’ün farklı bir sanat dalında uzmanlaşmış bir varyasyonunu geliştirdi bile.

Bu öyle bir varyasyon ki resim çizebiliyor, tasarım yapabiliyor, hiç çekilmemiş fotoğrafları çekiyor ve hatta illüstrasyon dahi yapabiliyor. Dahası, hayvanların ve nesnelerin antropomorfik* versiyonlarını oluşturabiliyor. Bu teknolojinin en ilginç yanı ve diğerlerinden ayıran özelliği ise, tüm bu eserleri tamamen kendi yaratıyor. Adını da tüm bu özelliklerine yakışır şekilde sevimli robot Wall-E ve Ressam Salvador Dali’den alıyor: DALL·E.

OpenAI’nin tanımladığına göre, GPT-3 gibi DALL·E de bir dönüştürücü dil modeli. Hem metni hem de resmi 1280 kadar simge içeren tek bir veri akışı olarak alıyor ve tüm simgeleri birbiri ardına oluşturmak için maksimum olasılıkla eğitiliyor. Yani en basit haliyle DALL·E, kelime ve görsellerden oluşan büyük data setlerinden besleniyor. DALL·E, GPT- 3’deki gibi bir sinir ağı ile yalnızca metin değil, aynı zamanda yüksek kaliteli görseller de oluşturulabileceğini kanıtlıyor.

Biz insanlar için alfabemizdeki her harf bir simgedir. DALL·E’de ise hem metin hem de resim kavramları için simgeler bulunuyor. İşin teknik kısmına bakarsak, her görüntü başlığı, 16384 kelime boyutuna sahip maksimum 256 BPE kodlu simge kullanılarak temsil ediliyor ve görüntü, kelime boyutu 8192 olan 1024 simge kullanılarak sembolize ediliyor. Peki bu neyi ifade ediyor? Şöyle ki, siz sadece birkaç kelimeyle aklınızdan geçenleri yazın, o size alternatifli görseller oluştursun. Üstelik görsellere bakınca o kadar profesyonel ve yaratıcı ögeler içeriyor ki, bir makine tarafından yapıldığını anlamak imkânsız.

Teknolojinin asıl amacı, hayatı kolaylaştırmaktır öyle değil mi? Peki nasıl hayatımızı kolaylaştıracak bu DALL·E? Endüstriyel tasarımdan moda sektörüne, mimariden ev dekorasyona ve hatta sinema sektörüne kadar her alanda devrim yaratabilecek bir teknoloji. Nereden mi bu kanıya vardık? İnsanların günlerce üzerinde düşünerek ortaya çıkarabilecekleri tasarımları anında alternatifli önümüze sunuyor. Örneğin birbirinden alakasız iki kavram olan “avokado” ve “koltuk” kelimelerini bir araya getirelim ve “avokado desenli koltuk” isteyelim. Bizlere sunulan bu örnekleri DALL·E tamamen kendi yaratıyor (Resim 1). Fikrimizi mi değiştirdik? Donut şeklinde bir koltuk isteyelim o zaman. Alternatifler anında önümüzde (Resim 2)! Ve emin olun, bu tasarımları başka hiçbir yerde bulamayacaksınız.

Resim 1

DALL·E illüstrasyon da yapabiliyor. Siz sadece ilgili veya ilgisiz, aklınızdan geçenleri yazın ve gerisini onun hayal gücüne (ya da 12 milyar parametresine) bırakın. Örneğin “tütü giymiş köpek gezdiren bir turp” isteyin, ne kadar uçuk bir talep öyle değil mi? Ama DALL·E için değil (Resim 3). ?

DALL·E moda sektörüne de el atıyor demiştik. Aklınızdan geçen kombini ona anlatın ve yeni sezonun modası karşınızda! Ondan siyah ceket ve altın rengi etek giymiş bir model oluşturmasını isteyin (Resim 4). Beğenmediniz mi? Eteği gümüş rengi yapalım? Acaba etek pilili mi olsun yoksa düz mü? Karşınızda ünlü bir moda tasarımcısı yok, bir yapay zekâ var.

Resim 4

DALL·E’nin yetenekleri gerçekten çok çeşitli. Fakat, bu çaplı bir yapay zekâ teknolojisinin kötüye kullanım riskleri tabii ki mevcut. Örneğin GPT-3’ün yalan medya haberleri ve makaleler yazabileceğinden bahsetmiştik. DALL·E ise bunu görselleştirebilir, gerçek olmayan olaylar ile ilgili fotoğraflar üretebilir. Yine de her teknoloji pekâlâ kötüye kullanılabileceği için, biz DALL·E’nin yeteneklerine odaklanarak, tıpkı bir ressamın yaptığı gibi hayal gücü ile nasıl tasvirler yaratabileceğine ve hayatımızı ne ölçüde kolaylaştırabileceğine odaklanalım.

Peki sizlerin bu konudaki görüşleri nelerdir? DALL·E de GPT-3 gibi bir devrim mi, Distopya mı?

*Antropomorfizm; İnsani niteliklerin başka bir varlığa atfedilmesidir.

Kaynaklar:

OpenAI