web analytics

Metin madenciliği nedir ? Metin madenciliği uygulama alanları

Metin madenciliği en kısa tanımla veri madenciliğinin dokümanların barındırdığı metinler üzerinde uygulanmasıdır. Günümüzde matbu olarak basılı dokumanların yanısıra dijital dokümanların boyutu oldukça fazladır, ve gün geçtikçe artmaktadır. Dijital olarak dokümanlar, internet ortamındaki dokümanlar, web sayfaları, epostalar ve yazılı ortamlarda bulunan dokümanların dijital ortama aktarılmasıyla elde edilen metinler olarak örneklendirilebilir. Bu dokümanlar büyük ölçekte yapısal olmayan veri barındırmaktadır. Yapısal olmayan verilerin işlenmesi ve analiz edilmesi, sayısal verilere göre farklılık göstermektedir.metin madenciliği

Metin madenciliğinin uygulamaları farklı isimler alabilmektedir. Örneğin sosyal medyada yer alan kısa metinler sosyal medya analizi, metinlerdeki duygu ve fikir ifade eden terimler ise duygu analizi(sentiment analysis) ve fikir analizi(opinion mining), sadece internet sitelerinin incelenmesi ise internet(web mining) analizi olarak isim alabilmektedir. Bu uygulamalarda çoğunlukla sınıdlandırma, kümeleme ve birliktelik analizleri kullanılmaktadır. Metinlerden oluşan veri setinin bir ağ yapısı barındırması durumunda, bu analizlere ek olarak ağ analizi de dahil edilmektedir.

Metin madenciliği, analiz edilen doküman üzerinde iki ana yaklaşımı barındırır. Bunlardan ilki bilgisayar bilimlerinin bir branşı olan doğal dil işlemedir. Doğal dil işlemede incelenen dokümanın yazıldığı dilin gramatik yapısı da gözönünde bulundurularak doküman bir bütün olarak analiz edilir. Türk Dili üzerinde bu yaklaşımın uygulanabilirliği, günümüzde yeterli yetkinlik seviyesinde değildir. “Bag of words” olarak adlandırılan diğer yaklaşım, dokümanları parçalayarak inceler, gramer ve sektans yapısını dikkate almaz. Metin önce kelimelere, daha sonra kelimelerin köklerine ayrılır ve köklerin frekansları üzerinde analizler gerçekleştir.

Türk Dili üzerinde bu yaklaşımını kullanan çalışmalar, özellikle sosyal medya analizinin de popülerleşmesiyle giderek ivme kazanmaktadır. Fakat her iki yaklaşımda da karşılaşılan en büyük problem, doküman üzerinde analizlerin gerçekleşmesi için gereken Tükçe bir sözlüğün henüz tam olarak oluşturulmamasından kaynaklanmaktadır. Bu konu üzerinden güncel son çalışmalar, İstanbul Teknik Üniversitesi Bilgisayar be Bilişim Fakültesi‟nde Doğal Dil İşleme Grubu‟nun oluşturduğu İTÜ Doğal Dil İşleme Yazılım Zinciri web arayüzü ve Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği bölümü Kemik Doğal Dil İşleme Grubu‟nun geliştirdiği java tabanlı Kemik isimli sözlük programıdır. Diğer akademik araştırmalar, araştırmacıların kendi oluşturdukları sözlükler üzerinde gerçekleştirilmektedir.

Veri madenciliğinde kullanılan sınıflandırma, kümeleme ve birliktelik analizleri metin madenciliğinde de tercih edilen analizlerdir, fakat verinin yapısı ve analizin amacı açısından farklılıklar ortaya çıkmaktadır. Örneğin veri madenciliğinde birliktelik analizi ile veri setinde kullanıcı tarafından belirtilmiş nesnelerin birbirleriyle ilişkisi ya da birlikte olma sıklıkları ortaya çıkartılır ve en fazla sepet analizinde kullanılır. Burada amaç, müşterinin aldığı ürünlerin bir arada bulunma olasılıklarının belirlenmesi ve birliktelik algoritması ile hesaplanan güven ve destek seviyeleriyle birlikte değerlendirilmesidir. Metin madenciliğinde ise müşterinin aldığı ürünlerin bir arada bulunma sıklığı yerine sözcüklerin belli koşullar altında birbirini izleme sıklığı ortaya çıkartılır. Buna bağlı olarak da bir dokümanın başlık analizi (topic modelling) yapılır ve/ya dokümanın içerdiği bilgi hakkında fikir sahibi olunur. Burada analiz edilen verinin yapısı önem kazanmaktadır. Analiz edilen veri, tek bir doküman ya da aynı anda birden fazla doküman olabilmektedir ve bu teknik farklılık, analizde kullanılabilecek algoritmaları da belirleyen en önemli unsurdur.

Herhangi bir kavramın metinde bir da belirli sayıda geçme olasılığının belirlenmesi ve bununla ilgili kurallar türetme çalışmaları metin madenciliğinde sınıflandırma çalışmalarına tipik bir örnektir. Örnek olarak “bulut” sözcüğünün bir metinde üç ve üzerinde geçmesi için gerekli kurallar çeşitli analizlerin yapılması ve metinler üzerinde algoritmaların konuşturulmasından sonra şu veya benzer bir şekilde oluşacak ya da algoritma tarafından üretilip kullanıcıya sunulacaktır.

Metin madenciliğinin amacı yapılandırılmamış bilgiyi işlemek, metinden anlamlı sayısal içerikleri çıkarma ve böylece çeşitli veri madenciliği algoritmaları için metinde içerilen bilgiye erişebilmektir. Bilgi, dokümanlarda bulunan kelimelerin özetlerinden türetilerek çıkarılabilir. Böylelikle bir dokümanın içerdiği kelimeler, veya kelime kümeler analiz edilebilir ya da birden fazla doküman aynı anda analiz edilerek dokümanlar arasındaki benzerlikler belirlenebilir.

Metin Madenciliği Uygulama Alanları

Metin madenciliğinin uygulama amaçları aşağıdaki gibi sıralanabilir;

Enformasyon Getirimi (Information Retrieval): Bu aşama ilgilenilen korpus hakkında ön bilginin toplandığı aşamadır. Örneğin metin madenciliği web üzerindeki veri kaynakları üzerinde yapılacaksa web sayfaları, adresleri veya dosya sistemi üzerindeyse dosyaların tarihleri, kullanıcı bilgileri, dosya isimleri, dizin bilgileri gibi bilgiler öncelikli olarak derlenir.

Doğal Dil İşleme Aşaması (Natural Language Processing): Bu aşama bütün metin madenciliği aşamalarında kullanılmasa bile genelde özellik çıkarımı ve metinden bazı anlamsal bilgilerin elde edilmesinde sıklıkla başvurulan aşamadır. Örneğin, konuşma parçalarının etiketlenmesi (part of speech tagging) veya cümle bilimsel parçalama (syntactic parsing) veya diğer dilbilimsel işlemler doğal dil işleme aşamasında yapılır.

Adlandırılmış Varlık Tanıma (Named Entity Recognition): Genellikle metin işleme aşamasında istatistiksel bazı özelliklerin çıkarılması için kullanılır. Örneğin, metnin içerisindeki kişi isimleri, yer isimleri, semboller, kısaltmalar v.s. bu yöntemle bulunur. Örneğin „‟osmanbey‟‟ kelimesi, istanbulda bir semt ismi olabileceği gibi bir kişi ismi de olabilir. Adlandırılmış varlık tanıma çalışmalarında, hedeflenen kelime gruplarının metin içerisinden çıkarılması, sayılması, yoğunluğunun bulunması, etiketlenmesi gibi işlemler yapılabilir.

Örüntüsü Tanımlı Varlıkların Bulunması (Pattern Identified Entities): Bazı durumlarda, metnin içerisinden özel bazı bilgilerin metin madenciliğine konu olması mümkündür. Örneğin e-posta adresleri, telefon numaraları, adresler, tarihler gibi bazı bilgileri özel olarak tespit edilmek istenebilir.

Eş Atıf (Coreference): Bir varlığa işaret eden (atıf eden) isim kelime gruplarını ve diğer terimlerin bulunması/ayrılmasını hedefler.

İlişki, kural, olay çıkarımları: Çeşitli amaçlarla metnin içerisinden bazı bilgilerin çıkarılması istenebilir

Duygu analizi (Sentimental Analysis): Metinlerde geçen duygusal ifadelerin çıkarılmasını amaçlar.

Metin madenciliğinin uygulandığı alanları ise şu şekilde örneklendirilebilir:

  • Müşteri ilişkileri yönetimi,
  • Sahtekarlık tespiti,
  • Sağlık alanı,
  • Pazar araştırmaları,
  • Metinlerden bilgi çıkarımı,
  • Doküman özetleme,
  • Doküman sınıflandırma
  • Benzer içerikleri belirleme
  • Web içerikleri sınıflandırma
  • Yazar tanıma sistemleri ve Soru-cevap sistemleri.

 

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir