GELECEĞİN TRENDİ BÜYÜK VERİ (BİG DATA)

Günümüzde bilişim teknolojileri o kadar hızlı gelişiyor ki takip etmeyi bırakalım haberdar olmamız bile güçleşmiş durumdadır. Çünkü biz o yeni teknolojiden haberdar olana kadar bazen onun bir üst versiyonu ya da yerini alabilecek teknoloji çıkmış olabiliyor.

Şu anda da birçok IT uzmanı tarafından konu edilen Büyük Veri kavramı çıktı ortaya. Henüz yaygınlaşmasa da şimdiden birçok kişinin hedeflerinde yer almış durumda ve ilerleyen zamanlarda çok etkin bir şekilde kullanılacağı kesin. Peki, nedir bu Büyük Veri?

İnternet öncesi bilişim teknolojilerinde veriler büyük bir yer kaplamazdı ve tutulacak olan veri miktarı da azdı. Ne zaman internet herkesin hayatına girdi, gelişen teknoloji ile elimizden akıllı telefon düşmez oldu ve veri depolama üniteleri ucuzladı işte o zaman internette dolanan veri miktarında büyük bir artış oldu. Sosyal platformların gelişmesi, hayatın bir çok alanında veri toplayan akıllı sensörlerin yaygın kullanımı inanılmaz büyüklükte veri oluşumuna sebep oldu. Örnek vermek gerekirsek; Google’da her gün 5 milyar arama yapılıyor, günde 500 milyon tweet atılıyor, ayda 4 milyar video sadece Youtube’dan izleniyor. Bir yolcu uçağının 45 dakikalık uçuşunda 250 Gb’lık veri kaydediliyor.

2000 yılında dünyadaki veri miktarı 800.000 Petabyte (1 Petabyte= 1000Terabyte) iken 2020 yılında ise bu miktarın 35 Zetabyte (1 Zetabyte= 1000 Eksabyte ve 1 Eksabyte= 1000 Petabyte) olacağı öngörülüyor. 2012 yılında ise 2.7 Zetabyte veri olduğu tahmin ediliyor. Üstelik bu verinin %90’nı sadece son 2 yılda oluşturulmuş. Örneğin; Twitter her gün ortalama 7 TB, Facebook 10TB veri saklıyor. Firmalar bu muazzam verileri saklayabilmek için özel soğutma sistemlerine sahip sabit disk tarlası diyebileceğimiz yerler oluşturuyor. Aslında Büyük Veri kavramı her gün artan veri miktarından ziyade bu kadar çok veriden bir sonuç veya anlam çıkarmaya çalıştığımızda oluşacak yorumlamanın çok büyük olmasını belirtir.

Eskiden her kurumun kendi veri tabanı olur ve bu veri tabanına göre sorgulama yaparak bir rapor çıkarırdı. Ama gelişen zamana göre bu raporlar artık iyi bir sonuç verememektedir. Şu anda internette inanılmaz bir veri yığını vardır ve bu yığına bakmayı bilen insanlar rapor değil sonuç çıkarabilir. Tıpkı binlerce resmi belli dizilişte bir araya getirdiğinizde bir yüz oluşması gibi. Ama Büyük Veri’ de dizilimleri belirleyemiyoruz. İnanılmaz bir veri yığınına bakıyoruz ve bir resim, desen görmeye çabalıyoruz. Bazen bu istediğimiz bir desen olmuyor. Bakmasını bilmeyenler veya ne aramak istediklerini bilmeyenler ise o deseni asla göremiyor.

Örnek verelim. Bu kadar veri yığını içinde veri madenciliği teknolojisi kullanarak istediğiniz ham verileri elde eden bir sunucunuz olduğunu varsayalım. Sizde bu sunucunun sahibisiniz. Bir SQL sorgusu yapmak isterseniz bu işlem o kadar yavaş sürecektir ki hem güncelliğini yitirmiş olacak hem de bir rapordan başka bir sonuç veremeyecektir. Bu rapor şu şehirde şu yaş aralığında şu kadar kişi vardır diye örneklendirebiliriz. Ama Büyük Veri sonuçlarında bir rapor değil direk sonuç ve anlam çıkar. İnsanların istekleri şu yöne kaymış, bu yaz şu tatil köyüne rağbet var gibi direk sonuçlara ulaşabilirsiniz. Ama bir SQL sorgusu ile bunu yapamıyorsak nasıl bir teknoloji gerekir?

Aslında uzun zaman öncesine kadar bu verilerin %80’i IT uzmanları ve kurumlar tarafından gereksiz bir yığın olarak görülüyordu. Fakat Google klasik yöntemleri bir kenara bırakarak ihtiyacı olan teknolojiyi geliştirdi ve bu verilerin ne kadar işe yarar olduğunu ispatladı. Google milyarlarca web sayfasının indeksini Google File System üzerinde tutuyor ve veri tabanı olarak Big Table kullanıyor. Bu verileri işlemek içinse MapReduce kullanıyor. Bu teknoloji düşük maliyetli binlerce bilgisayarın bir arada kümeler üzerinde çalışmasıdır. Benzer bir sistemi Amazon da kullanmaktadır.

Big Data2

Büyük Veri’yi daha iyi anlamak için onu oluşturan bileşenleri inceleyelim;

Büyük veri platformunun oluşumunda beş bileşen vardır. Bunlar; variety, velocity, volume, verification ve value ‘dir. Genel olarak 5v diye açıklandığı için İngilizce karşılıklarına yer verilebilir.

  • Variety (Çeşitlilik): Üretilen verinin % 80’i yapısal değil ve her yeni üretilen teknoloji, farklı formatlarda veri üretebiliyor. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte “Veri Tipi” ile uğraşılması gerekiyor. Bir de bu verilerin farklı dillerde, Non-Unicode olabileceğini düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gerekli.
  • Velocity (Hız): Büyük Veri’nin üretilme hızı çok yüksek ve gittikçe artıyor. Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğuruyor.
  • Volume (Veri Büyüklüğü): IDC istatistiklerine göre 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak. Şu anda kullanılan, “büyük” diye adlandırdığımız kapasiteleri ve “büyük sistemleri” düşünüp, bunların 44 kat büyüklükte verilerle nasıl başa çıkacaklarını hayal etmek gerekiyor! Kurumun veri arşivleme, işleme, bütünleştirme, saklama vb teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekli hem de hemen.
  • Verification (Doğrulama): Bu bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer bileşen. Akış sırasında, doğru katmadan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekiyor.
  • Value (Değer): En önemli bileşen ise değer yaratması. Bütün yukarıdaki eforlarla tariflenen Büyük Veri’nin veri üretim ve işleme katmanlarınızdan sonra kurum için bir artı değer yaratıyor olması lazım. Karar veriş süreçlerinize anlık olarak etki etmesi, doğru kararı vermenizde hemen elinizin altında olması gerekiyor. Örneğin sağlık konusunda stratejik kararlar alan bir devlet kurumu anlık olarak bölge, il, ilçe vb detaylarda hastalık, ilaç, doktor dağılımlarını görebilmeli. Hava Kuvvetleri, bütün uçucu envanterindeki taşıtlarının anlık yerlerini ve durumlarını görebilmeli, geriye dönük bakım tarihçelerini izleyebilmeli. Bir banka, kredi vereceği kişinin, sadece demografik bilgilerini değil, yemek yeme, tatil yapma alışkanlıklarını dahi izleyebilmeli, gerekirse sosyal ağlarda ne yaptığını görebilmeli.

Kaynak

Big Data3

Bu bileşenler ham veriyi oluşturur. Veri madenciliği ile istenilen veriler elde edilir. Daha sonra bu elde edilen verilerden gereksiz olanları temizlenir. Daha sonra analiz ve modelleme işlemleri yapılır ve çıkan sonuca göre yorumlama elde edilir. Bu verileri işleyecek algoritmanın çalışma sistemi budur. Bu sistemi oluşturmak çok masraflı olacağından ileride birçok kurum bu hizmeti verecek firmaları tercih edecektir. Şu an Türkiye’de olmasa da yurt dışında bu hizmetlere başlamış kurumlar bulunmaktadır. Bazıları Facebook, Twitter gibi platformlardan veri madenciliği yaptığı gibi web sayfalarından, bloglardan, e-ticaret sitelerinden, anketlerden veri madenciliği yapanlarda bulunmakta.

Büyük Veri özellikle bazı bölümler için çok faydalı olabilmekte. Örnek vermek gerekirse pazarlama departmanları için müşterilerinin hangi ürünü istedikleri ve hangi hizmete veya ürüne meyil oldukları çok önemli bir bilgidir. Bunu sıradan raporlama sistemi ile öğrenemezler. Bunun içni Büyük Veri sonuçları çok uygundur. Büyük Veri’den çıkabilecek en etkin sonuçları listelersek eğer;

  • Kullanıcıların davranış ve reaksiyonlarını çevrimiçi anlamak,
  • Eğilimler ve popular konuları sosyal medya analizleri ile anlayabilmek,
  • Reklam kampanyalarını doğru hedeflemek ve optimize etmek,

olarak sıralayabiliriz.

Şu anda bile birçok konuda Büyük Veri etkin bir şekilde kullanılmaktadır. Örnek;

  • Hastaneler; hastalarına yönelik etkili, bireysel, kişiselleştirilmiş, tıbbi hizmetler sunabilmek için, bireysel bazdaki verileri kendi sayısal ortamlarında depolamaktalar.
  • Hükümetler; yurttaşlarına yönelik bilgi ve hizmetleri işleyip, saklama konusunda oluşan çok büyük ölçekli veri ile çalışmak zorundadırlar. Örneğin, RTÜK kararları gereği, ülkemizdeki televizyon kanallarının son bir yıllık yayınlarını saklama zorunluluğu var. Saklanacak bilgiler, “Büyük Veri” olarak tanımladığımız türden.
  • İnternet üzerindeki üretici ve tüketicilerin veri üretimini hızlandırması, başta servis sağlayıcı firmalara olmak üzere, büyüyen bilgiyi harmanlayıp, anlamlı biçime dönüştürerek kullanıma yeniden sunma görevi yüklüyor.
  • Bankalar, müşterileriyle ilgili olarak toplayıp sakladıkları bilgiler yoluyla, kullanıcısını tanıyan, internet şubesine o gün ne için girdiğini bilen ve buna göre ana sayfayı, menüyü en etkin hale getiren, müşterisine hatırlatmalar yapan, özelleştirilebilir ara yüzler sunan, zengin içerikli, hızlı ve kullanışlı bir 7/24 şube haline geldi.
  • Enerji firmaları, akıllı şebeke ve sayaçlar kullanarak, abonelerinin bireysel kullanımlarıyla ilgili oluşan verileri, saklayıp, işlemek durumundalar.
  • İlaç sanayisinde; örneğin “kanser araştırmaları” için oluşturulan büyük genomik veri tabanları, araştırmacıların sürekli erişimine açık olmak durumundadır.

Şu anda bile birçok konuda etkin olarak kullanıldığını düşünürsek Pazar stratejilerinde rakip firmalara göre daha büyük bir koz olarak kullanılmak istenileceğinden dolayı gelecekte vazgeçilmez bir teknoloji olacağı görülecektir. Hatta geleceğin pazarlama stratejileri tamamen bu teknoloji üzerine kurulabilir. Şu an tahminlere göre tam anlamıyla kullanımına başlanılması için 2015 yılı gösteriliyor.

Erhan Kılıç

0 0 votes
Article Rating
Subscribe
Notify of
guest

This site uses Akismet to reduce spam. Learn how your comment data is processed.

1 Comment
Newest
Oldest Most Voted
Inline Feedbacks
View all comments

[…] hayatımızda. Mesela büyük veri ile (bununla ilgili yazıma buradan ulaşabilirsiniz – GELECEĞİN TRENDİ BÜYÜK VERİ (BİG DATA) – ) hangi gün ne ile ilgilendiğinizi, neyi araştırdığınızı, ne satın […]