web analytics

Veri Madenciliği Nedir? Veri Madenciliği Süreci Ve Uygulama Alanları

Veri madenciliği, büyük miktardaki gözlenmiş verilerden kuralların, örüntülerin ve modellerin ortaya çıkarılmasıdır. Bir başka ifade ile veri madenciliği, veri tabanları veya veri ambarlarında yer alan yığın veri içindeki gizli örüntüleri ve ilişkileri bulmak için istatistiksel algoritmaları ve yapay zeka yöntemlerini kullanan karmaşık bir veri arama yeteneği olarak tanımlanabilir. Veri madenciliği; aynı zamanda bilgisayar bilimini, makine öğrenmesini, veri tabanı yönetimini, matematiksel algoritmaları ve istatistiği birleştiren disiplinlerarası bir alandır. Veri madenciliğini farklı araştırmacılar tarafından,

  • Veri madenciliği büyük veri kümeleri içinde saklı olan, faydalı bilgilerle genelde tahmin edilemeyen eğilim ve ilişkilerin keşfedilmesi için bir eleme faaliyetidir.
  • Veri madenciliği veritabanı sahibi için büyük miktardaki veriden bilinmeyen ilişki ve düzenlerin keşfedilmesi ile faydalı ve net sonuçlar elde etmeyi hedefleyen seçme, araştırma ve modelleme sürecidir.
  • Veri madenciliği, bilinmeyen ilişkilerin bulunması ve verinin değişik şekillerde özetlenmesi için gözlemsel verilerin, veri sahibi için anlaşılır ve yararlı olacak şekilde analiz edilmesidir

olarak ifade edilmektedir.

Veri madenciliği, veritabanındaki bilgi keşfi sürecinin bir adımıdır. Bilgi keşfi sürecindeki adımlarını şu şekilde sıralayabiliriz. Bu süreçler interaktif olup gerektiği durumlarda sıralaması değişmektedir.

  1. Veri temizleme: Gürültülü ve tutarsız verileri çıkarmak
  2. Veri bütünleĢtirme: Farklı veri kaynaklarını birleştirmek
  3. Veri seçme: Uygulanacak analizle ilgili olan verileri belirlemek
  4. Veri dönüĢümü: Verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek
  5. Veri madenciliği: Verideki örüntülerini yakalayabilmek için teknikleri uygulamak
  6. Bilgi sunumu: Mmadenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek.

Veri madenciliğinde örüntü tanıma faaliyetleri üç temel sınıfta toplanabilir. Bunlar; keşif (discovery), tahmin edici modelleme (predictive modelling) ve adli analizdir (forensic analysis). Keşif, bir veri yığınındaki gizil örüntüleri önceden belirlenmiş bir fikir veya hipotez olmadan ortaya çıkarma sürecidir. Başka bir ifade ile verilerin içinde saklı olarak bulunan, hangi ürünlerin birlikte satıldığı veya hangi grup müşterilerin hangi zaman aralıklarında bir hizmeti kullandıkları gibi davranışları ortaya çıkarmaya yarar. Tahmin edici modelleme, ortaya çıkardığı örüntüler ile geleceği tahmin etmede kullanılmaktadır. Başarılı bir kredi verme işlemi veya bir hata olasılığı belirleme işlemi tahmin edici modelleme ile gerçekleşebilmektedir. Adli analiz ise ortaya çıkarılmış örüntülerin, kural dışı veya anormal veri elemanlarını bulmak için kullanılması süreci olarak tanımlanabilir.

Veri madenciliği, kavramsal olarak 1960‟lı yıllarda, bilgisayarların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır. Veri madenciliği kavramı ortaya atılmadan önce, veri taraması (data dredging) ve veri yakalanması (data fishing) gibi isimler kullanılmaktaydı. 1960‟lı yıllarda veri toplama ile başlayan bu süreç, 1970‟ lerde veritabanlarının oluşturulması ile devam etmiştir. 1990‟lı yıllara gelindiğinde ise veri madenciliği ismi, Rakesh Aggrawal öncülüğünde bazı bilgisayar mühendisleri tarafından ortaya atılmıştır. Bundan sonra ise veri madenciliğine çeşitli yaklaşımlar getirilmeye başlanmıştır. Bu yaklaşımların kökeninde istatistik, makine öğrenimi (machine learning), veritabanları, otomasyon, pazarlama, araştırma gibi disiplinler ve kavramlar bulunmaktadır.veri madenciliği

Veri Madenciliği Süreci

Veri madenciliği, aynı zamanda bir süreçtir. Gerçek dünyada verilerin büyük miktarlarda olmaları, kayıp olan veriler, yanlış işlenmiş ya da kodlanmış verilerin olması, hatalı ya da sapan değerler içeren gürültülü verilerin olması gibi nedenler dolayısıyla kaliteli ve kullanışlı veri madenciliği sonuçları elde edebilmek için veri madenciliği süreçleri uygulanmadan önce veri işleme tekniklerinin uygulanmasına ihtiyaç duyulur. Veri yığınları arasında, soyut kazılar yaparak veriyi ortaya çıkarmanın yanı sıra, bilgi keşfi sürecinde örüntüleri ayrıştırarak süzmek ve bir sonraki adıma hazır hale getirmek de bu sürecin bir parçasıdır. Üzerinde inceleme yapılan işin ve verilerin özelliklerinin bilinmemesi durumunda ne kadar etkin olursa olsun hiçbir veri madenciliği algoritmasının fayda sağlaması mümkün değildir. Bu sebeple, veri madenciliği sürecine girilmeden önce, analizlerin ilk şartı, iş ve veri özelliklerinin detaylı analiz edilmesidir.

Problemin tanımlanması: Veri madenciliği çalışmalarında en büyük şart, problemin tanımlanması olarak bilinmektedir. Problemdeki amacın net bir şekilde ifadesinin yapılması gerekmektedir. Problemin hangi işletme amacı için yapılacağının ve elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceğinin tanımlanması en önemli aşamadır.

Verilerin hazırlanması: Problem durumunun hazırlanmasından sonraki aşama olan verilerin hazırlanması; çalışmaya temel oluşturacak son verilere dönüştürülme aşamasıdır. Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Verilerin hazırlanması, “toplama”, “değer biçme”, “birleştirme ve temizleme”, “örneklem seçimi” ve “dönüştürme” aşamalarından oluşmaktadır.

Modelin kurulması ve değerlendirilmesi: Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir.

Modelin kullanılması: Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak kullanılabilir.

Modelin izlenmesi: Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan değişiklikler, kurulan modellerin sürekli olarak izlenmesini ve yeniden düzenlenmesini gerektirecektir.

Veri Madenciliği Uygulama Alanları

Veri madenciliğinin uygulama alanları oldukça geniştir. Farklı bilim dallarında ve sektörlerde uygulama alanları, analiz edilen verinin yapısı ve boyutuna göre farklılaşmakdır. Veri madenciliğinin uygulama alanlarını kısaca aşağıdaki şekilde özetlenebilir:

Pazarlama; müşterilerin satın alma alışkanlıklarının belirlenmesi, müşterilerin demografik özellikleri arasındaki bağlantıların bulunması, posta kampanyalarında cevap verme oranının artırılması, mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması, pazar sepeti analizi, müşteri ilişkileri yönetimi, müşteri değerlendirmesi, satış tahmini, çapraz satış analizi, mevcut müşterilerin elde tutulması için geliştirilecek pazarlama stratejilerin oluşturulması.

Bankacılık; farklı finansal göstergeler arasında gizli korelasyonların bulunması, kredi kartı dolandırıcılıklarının tespiti, kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, kredi taleplerinin değerlendirilmesi, müşteri dağılımı, usulsüzlük tespiti, risk analizleri.

Sigortacılık, yeni poliçe talep edecek müşterilerin tahmin edilmesi, sigorta dolandırıcılıklarının tespiti, riskli müşteri örüntülerinin belirlenmesi.

Perakendecilik, satış noktası veri analizleri, alış-veriş sepeti analizleri, tedarik ve mağaza yerleşim optimizasyonu, hisse senedi fiyat tahmini, genel piyasa analizleri, alım-satım stratejilerinin optimizasyonu.

Endüstri, kalite kontrol analizleri, lojistik, üretim süreçlerinin optimizasyonu olarak belirtilebilir.

Etiketler

Benzer Yazılar