Büyük veri, miktar ve çeşitliliği itibarıyla birçok yazılım teknolojisi kullanılarak, bizim için daha anlamlı hale dönüşüyor. Ama, anlamlı olduğunu düşündüğümüz bu rafine bilginin özünde “görsel araçlar”ın sundukları ve insan beyni tarafından bu bilginin yeniden özümsenmesi sırasında, veri kaynaklarındaki anormallikleri anında filtreleyip görsel-anlık olarak yeniden düzenlemek mümkün: Görsel veri izleme araçları, anormal sonuçlar üreten veri kaynaklarını saptayıp, bu kaynakların içinde sonucu bozan verileri göz ardı ederek, görselliği yeniden hesaplayabilir.

MIT’de, Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı’nda, Veri Tabanı Grubu’nun ürettiği veri gözlemleme aracı; yalnızca görsel verilerdeki ve desenlerdeki sapmaların kullanıcılarca belirlenmesini değil, sapmadan hangi veri kaynağının sorumlu olduğunun da bulunmasını sağlıyor: Gözlemleme aracı, düzinelerce sensör içinde, hem düzenli üretilen hem de toplam verinin kalitesini bozan birkaç sensörün belirlenmesi; ya da, bir şirketin satış şemalarında, oynamalara neden olan birkaç bayinin bulunması; ya da, bir hastanede, çalışmayan bir iki vantilatörün saptanarak genel sağlık riskinin ortadan kaldırılması gibi işlerde kullanışlı olmaya aday.

Büyük Veri, Büyük İş demek

Büyük Veri’nin görselleşmesi büyük bir iş alanı. Örneğin Tableau Yazılım, görsel araçlar satan 4 Milyar USD’lik bir işletme. Görsel yazılımlar bilgilendirici grafiklerini üretirken, birçok işe yarar veriyi de ortadan kaldırıyor. Bilgisayar Bilimleri ve Mühendislik Fakültesi, Veritabanı grup lideri, Profesör Samuel Madden’a göre, insanların mevcut görsellik üretme yönteminde, ellerindeki büyük miktarda, milyarlarca satırdan oluşan veriler azaltılıp, birkaç bin satıra indirildikten sonra görsel oluşturuluyor. Madden, “Bu tarz bir azaltmada, azaltılan verilerin sonuca olan etkisini de aslında ortadan kaldırmış olursunuz. Bunlardan biri oldukça aykırı bir veriyse, geri dönüp veri kümenize, ‘Bu veri nereden gelmişti ve özellikleri neydi?’ diye sorma şansınızı da kaybedersiniz.” diyor.

İşte bu sorun, görsel denetim aracı, DBWipes, tarafından çözüldü. Bitirme tezi olarak, Madden ve Yardımcı Doçent Michael Stonebraker ile DBWipes’ı hazırlayan Bilgisayar Bilimleri ve Mühendislik master öğrencisi Eugene Wu, büyük veri seti içinde “verinin kökeninin izini süren” yazılımı geliştirdi.

Bir görselleştirme aracı 100 milyon veri parçacığını, ekranda gösterebilmek için 100’e indiriyorsa, ortalama her nokta 1 milyon veri parçacağının özeti demek olacaktır. Wu’nun geliştirdiği sistem, kullanıcıların geriye giderek, her özet noktanın kaynağı olan verinin ya da tersine, kaynak verilerin nasıl süzülerek pixel’e dönüştüğünün izini sürebiliyor.

Wu ve Madden’in makalesindeki “Scorpion” (akrep) algoritması, geçen yılki Çok Büyük Veritabanı Konferansı’nda en iyiler arasında yer buldu. Algoritma, DBWipes görseli içindeki belirli bölüme ait olan kayıtların geriye dönük izini sürüp, gerektiğinde bu veriler olmadan ya da sadece bu verileri öne çıkaracak şekilde görseli yeniden oluşturabiliyor.

Görselin bir bölümü düzenli deseni adresleyen noktalar ise, kullanıcı burayı “normal veri”, bir başka bölümü ise deseni bozduğu için kullanıcı tarafından “bozuk veri” olarak adlandırılabilir. Bu işaretlemeden sonra “Akrep”, veriyi geriye doğru inceleyip, bozuk desene sebep olan veriyi filtreleyebilir.

Madden’in söylediğine göre, Akrep projesinin esin kaynağı, Boston Hastanesindeki bir araştırma görevlisinin, koğuşlardan birindeki tedavi maliyetinin ötekilere göre aşırı oluşunu farketmesinden kaynaklanmış. Bu artışın nedeni örneğin, hastanın yaşı ve genel sağlık durumu, durumunun aciliyeti, hastalık belirtileri, gibi sıradan bir etken olabilirmiş.

Ancak sıkı durun! Altı aylık bir çalışma, hastaların tedavi maaliyetlerindeki en önemli değişkenin hastayı tedavi eden doktorun kendisi olduğunu ortaya çıkarmış. Hastanedeki üç doktor, diğerlerine göre çok daha fazla müdahalede bulunmuş.

İşte Akrep algoritaması bu veri üzerinde denendi. Beş dakika sonunda sonuçlar gösterdi ki, hastanın tedavi masrafı ile en etkili veri ilişkisi doktorun adıyla bağlantılı. Öteki büyük veri data algoritmalarında oldugu gibi, Akrep de sonucun doğruluğunun hassasiyetinden bir miktar vazgeçerek, üç yerine on doktor adını içeren bir liste üretti, ama söz konusu üç doktorun adı da listedeydi!

Madden’e göre, algoritma, en azından nereye bakılması gerektiğinin yerini doğru adresleyebiliyor.

KAYNAK