Sinir bilimciler; onlarca yıldır, nesneleri çabucak tanımak gibi insan beyninin kesin ve hızla yaptığı görsel becerileri taklit edebilen bilgisayar ağlarını tasarlamaya uğraşıyor. Nihayet, en yeni bilgisayar sinir ağları görsel nesneleri primat beyin kadar tanımlıyor.

Şimdiye kadar, hiçbir bilgisayar modeli kısacık bir bakışla görsel nesne tanımada primat beyinle boy ölçüşememişti. Ancak, MIT’den sinirbilimcilerin yaptığı yeni bir çalışmada, “derin sinir ağları” denilen son nesil bir bilgisayar modeli primat beyinden aşağı kalmıyor.

GÖRSEL: MIT’li sinirbilimcilerden oluşan bir araştırma ekibi, bazı bilgisayar programlarının yukarıdaki görüntülerde yer alan nesneleri primat beyin kadar iyi tanımlayabildiğini buldu.
CREDIT: MIT

PLoS Computational Biology’de yayınlanan çalışmanın yazarlarından, MIT – Beyin ve Bilişsel Bilimler bölüm başkanı, sinirbilim profesörü James DiCarlo’ya göre, bu ağların ortaya çıkışında; sinirbilimcilerin beynin nesneleri tanırkenki çalışma şekline ilişkin şu andaki anlayışları rol oynuyor; üstelik son ağların başarısı, sinirbilimcilerin bu anlayışlarının ne kadar haklı olduğunu da gösteriyor.

Araştırmada yer alan, MIT McGovern Enstitüsü’nden Dr. Charles Cadieu’ya göreyse primat beynin işleyişine ilişkin bu gelişmiş anlayış daha iyi bir yapay zekaya ve günün birinde görmeyle ilgili fonksiyon bozukluklarını giderebilecek yeni yöntemlere öncülük edebilir.

Master öğrencileri Ha Hong ve Diego Ardila, araştırmacı bilimci Daniel Yamins, MIT’nin eski master öğrencilerinden Nicolas Pinto, eski lisans öğrencilerinden Ethan Solomon ve katılımcı araştırmacı Najib Majaj bu önemli çalışmada yer alan öteki araştırmacılar.

Beyinden Esinlenmek

Bilimciler görsel bilgiyi işlemek, konuşmayı tanımak ve dili anlamak üzere beynin yeteneklerini taklit etmek umuduyla 1970’lerde sinirsel ağların yapımına başladı.

Görmeye dayalı sinir ağları için bilimciler görsel bilginin beyindeki hiyerarşik sunumundan esinlendi. Görsel girdi retinadan beynin görsel korteks’ine, ardından da beynin inferotemporal (IT) korteks’ine akarken, her bir düzeyde işleniyor ve nesneler ancak tanımlanır olunca daha açık ve anlaşılır hale geliyor.

İşte, sinirsel ağ tasarımcıları bu işleyişi taklit etmek için, modellerinde birkaç hesaplama katmanı yarattı. Her katman, “doğrusal iç çarpım” gibi bir matematiksel işleyişi yerine getiriyor. Öte yandan her katmanda, nesnenin yeri ya da hareketi gibi gereksiz bilginin atılmasına karşın, görsel nesnelerin sunumu giderek daha da karmaşıklaşıyor.

Cadieu, her bir elemanın genellikle çok basit bir matematiksel ifade olduğunu söylüyor; ancak ham sinyallerden nesneyi tanımanın mümkün olduğu çok iyi bir sunum elde edinceye kadar binlerce, milyonlarca matematiksel ifade bir araya getirildiğinde, gerçekten çok karmaşık dönüşümlerin oluşuverdiğini vurguluyor.

Bu çalışmada, araştırmacılar önce primat beynin nesne tanıma yeteneğini ölçtü. Hong ve Majaj’ın önderliğinde, araştırmacılar elektrot dizilerini bazı hayvanların beynindeki IT korteks’e yanı sıra da IT korteks’i besleyen görsel sistemin bir parçası olan V4 alanına yerleştirdiler. Bu sayede araştırmacılar, hayvanların baktığı her nesne için, sinirsel sunumları –yanıt veren sinirlerin toplam sayısı- görebilmeyi başardı.

Böylece araştırmacılar daha sonra, sistemdeki her sayısal elemandan üretilmiş bir sayı matrisini içeren derin sinir ağlarından yarattıkları sunumları, hayvanlardan elde etikleri bu verilerle karşılaştırabilir. Her bir görüntü farklı bir sayı dizisi üretir. Yaratılmış sunumun içindeki kümelerle, bunlara benzeyen nesnelerin gruplanıp gruplanamadığı da modelin doğruluğunu belirler.

Cadieu’ya göre, bu sayısal dönüşümlerin ve ağ katmanlarının her biri aracılığıyla, belirli nesneler ya da görüntüler, farklı olanlardan ayrılarak, birbirine daha yaklaşır.

Daha Güçlü İşlemci

Daha önce, en iyi bilgisayar sinir ağlarından biri New York Üniversitesi’nden araştırmacılarca geliştirilmişti. Bu ağ nesneleri makak maymunu beyni kadar sınıflandırabilmişti.

Cadieu, bu tür sinir ağının son başarısının iki büyük etkenle açıklanacağını söylüyor: İlki, sayısal işlemci gücünün sağlanabilirliğindeki önemli sıçrama. Araştırmacılar, video oyunları tasarlanmış grafik işlemci birimlerinin (GPU) avantajlarından yararlanmıştır.

İkinci etkense, şimdilerde araştırmacıların algoritmalarını besleyen büyük veri setlerine erişmiş olması. Bu veri setleri milyonlarca görüntü içeriyor; üstelik her biri insanlar tarafından farklı tanımlamalarla açıklanıyor. Örneğin bir köpek fotoğrafı “hayvan, köpekgillerden, evcilleştirilmiş köpek, köpek ırkı” gibi adlarla etiketlenmiş olabiliyor.

Önceleri, bilgisayar sinir ağları bu görüntüleri tanımlamada iyi değildi, ama çok daha fazla görüntü gördükçe ve nerede hata yaptıklarını çözdükçe, görüntüleri tanımak üzere hesaplar daha da gelişiyor.

Cadieu, araştırmacıların farklı nesnelerin ayırtedilmesi için bu ağların tam olarak ne sağlayacağını bilmediğini belirtiyor; ağların olumlu ve olumsuz yanlarına değiniyor: “Nesnelerin ayıt edilmesinde bu şeylerin ne yaptığını bilmek zorunda olmayışımız çok olumlu. Öte yandan, bu ağları denetlemek, içine bakmak ve gerçekte ne yaptıklarını anlamak gerçekten çok zor –ki, bu büyük bir olumsuzluk. Cadieu’ya göre insanlar, şimdilik bu şeylerin iyi çalıştığını görebilir; ama ağların içinde ne olup bittiğini anlamak için daha da çok çalışacaklar.

Birleşik Krallık Tıp Araştırma Kurumu Bilişsellik ve Beyin Bilimleri Birimi baş araştırmacısı Nikolaus Kriegeskorte, değerlendirdiği araştırmayı şöyle yorumluyor: “En son bilgisayar modellerinin yüksek performansı yalnızca bir mühendislik harikası olarak heyecan verici değil, aynı zamanda, insan beyninin de içinde olduğu biyolojik beyinlerin çalışmasına ilişkin modellemeler için, bize çok daha iyi sayısal araçlar veriyor. Öteki son iki çalışmayla birlikte bu araştırma, derin öğrenme modellerinin biyolojik beyinlere az çok benzeyen yöntemlerdeki karmaşık görsel ayrım görevini çözebileceği izleninimi veriyor.”

James DiCarlo ve arkadaşları şimdilerde, hareketin izlenmesini ve üç boyutlu şekillerin ayrılmasını içeren öteki görsel işleyişleri taklit edebilecek modelleri yaratmak için çalışmayı planlıyor. İnsan görme sisteminde görülen geri bildirim izdüşümlerini içeren modelleri yaratmayı da istiyorlar. Şu anki ağlar retinadan IT korteks’e yalnızca “ön bildirim” izdüşümlerini modelliyor.

Bu çalışma ABD’de, Ulusal Göz Enstitüsü, Ulusal Bilim Vakfı ve Savunma Bakanlığı İleri Araştırma Projeleri Ajansı’nca desteklendi.

KAYNAK