Veri Madenciliği için Sektörler Arası Standart Süreç(Cross-Industry Standard Process for Data Mining) anlamına gelen CRISP-DM, sektörde çok kullanılan bir Veri bilimi ve Veri Madenciliği metodolojisidir. Bu süreç, projeyi baştan sona yönetmek için adım adım bir yol haritası sunar.



CRISP-DM, John Rollins metodolojisinde olduğu gibi yinelemeli bir veri madenciliği modudur ve veri odaklı karar verme sürecini yönlendirmek için yapılandırılmış bir yaklaşım sağlayan veri madenciliği projeleri için kapsamlı bir metodolojidir.

Bir Veri Bilimi Metodolojisi olarak CRISP-DM modeli; altı veri madenciliği aşamasını, tanımlarını içerir ve görevler ile aşamalar arasındaki ilişkilerin açıklanmalarını sağlar. Bir süreç modeli olarak CRISP-DM, veri madenciliği döngüsüne ilişkin üst düzey içgörüler sağlar. Diğer veri madenciliği bilim metodolojileri gibi, CRISP-DM de projeyi yolunda tutmak için her aşamada esneklik ve meslektaşlar , yönetim ve paydaşlarla iletişim gerektirir.

Aşağıdaki altı aşamadan herhangi birinden sonra, veri bilimcilerinin önceki bir aşamayı tekrar gözden geçirmeleri ve değişiklikler yapmaları gerekebilir.

İş Anlama aşaması en önemlisidir çünkü bu aşama veri analizi projesinin niyetlerini belirler ve ana hatlarıyla belirtir. Bu aşama hem John Rollins veri bilimi metodolojisi hem de CRISP-DM metodolojisi için ortaktır. Bu adımda, projenin iş hedefleri ve veri bilimi projesinden beklenen çıktılar tanımlanır. Sorunun iş perspektifinden anlaşılması önemlidir, çünkü nihai amaç, iş ihtiyaçlarını karşılayan çözümler geliştirmektir. Anahtar faaliyetler:

• Proje hedeflerinin belirlenmesi

• Başarı kriterlerinin tanımlanması

• Veriden nasıl fayda sağlanabileceğinin anlaşılması

İş sorunu ve proje hedefleri hakkında net ve özlü bir anlayış olmadan, proje çabası zaman ve kaynakları boşa harcayacaktır.

Ardından CRISP-DM, Johns Rollins metodolojisi taslağından Veri Gereksinimleri, Veri Toplama ve Veri Anlama aşamalarını tek bir Veri Anlama aşamasında birleştirir. Bu aşamada, veri bilimcileri veri kaynaklarına karar verir ve veri elde eder. Verinin ne kadar uygun ve kullanılabilir olduğu analiz edilir. Veri kalitesi kontrol edilir, eksik veya hatalı veriler tespit edilir. Anahtar faaliyetler:

• Verinin toplanması

• Verinin keşfedilmesi ve görselleştirilmesi

• Verinin yapısının ve kalitesinin anlaşılması

Daha sonra Veri Hazırlama aşamasında, veri bilimcileri toplanan verileri kullanılabilir bir veri alt kümesine dönüştürür ve daha fazla veriye ihtiyaç duyup duymadıklarını belirler. Veri toplama tamamlandığında, veri bilimcileri bir veri kümesi seçer ve şüpheli eksik veya belirsiz veri değerlerini ele alır. Veriler, analiz ve modelleme için hazırlanır. Bu aşamada veri temizleme, dönüştürme ve seçme işlemleri yapılır. Anahtar faaliyetler:

• Eksik verilerin doldurulması

• Anlamlı özelliklerin seçilmesi ve oluşturulması

• Verilerin model için uygun hale getirilmesi

Modelleme aşaması, veri madenciliğinin amacını yerine getirir. Verilerdeki kalıpları ve yapıları ortaya çıkaran veri modelleri oluşturur. Bu modeller ve yapılar, belirtilen iş problemini ve hedeflerini ele alan bilgi ve içgörüler sağlar. Veri bilimcileri, verilerin alt kümelerine göre modelleri seçer ve modelleri gerektiği gibi ayarlar. Bu aşamada, veriler üzerine istatistiksel veya makine öğrenmesi modelleri uygulanır. Farklı modelleme teknikleri denenir ve en iyi sonuç veren model seçilir. Anahtar faaliyetler:

• Uygun modelleme tekniklerinin seçilmesi

• Model parametrelerinin ayarlanması

• Model performansının değerlendirilmesi

Değerlendirme aşamasında, veri bilimcileri seçilen modeli test eder. Veri bilimcileri genellikle eğitimli modeli çalıştırmak için önceden seçilmiş bir test hazırlar. Test platformu verileri yeni olarak görür ve veri bilimcileri modelin performansını değerlendirir. Modelin performansı, iş hedefleri ile karşılaştırılarak değerlendirilir. Modelin iş problemini çözüp çözmediği test edilir.  Bu test sonuçları, modelin etkinliğini belirler ve modelin bir sonraki ve son aşamadaki rolünü ön plana çıkarır. Anahtar faaliyetler:

• Model sonuçlarının yorumlanması

• İş gereksinimlerine uygunluğunun kontrol edilmesi

• Gerekirse iyileştirme adımlarının atılması

Son olarak, Dağıtım aşamasında, veri bilimcileri ve paydaşlar, modeli veri kümesinin kapsamı dışındaki yeni veriler üzerinde kullanılacak şekilde yayınlarlar. Bu aşamadaki yeni etkileşimler, yeni değişkenleri ve farklı bir veri kümesi ile modele olan ihtiyacı ortaya çıkarabilir. CRISP-DM modelinin yinelemeli ve döngüsel olduğunu, dağıtım sonuçlarının revizyonlar başlatabileceğini unutmayın.

crisp-dm

Altı aşamayı tamamladıktan sonra, sonuçları tartışmak için paydaşlarla tekrar bir iş anlayışı toplantısı yapılır. CRISP-DM’de buna bir aşama adı verilmez, ama John Rollins Veri Bilimi metodolojisinde, bu aşama Geri Bildirim aşaması olarak adlandırılır.

Paydaşlar, veri modelinin ve analizinin iş sorunlarını çözmek ve iş hedeflerine ulaşmak için ihtiyaç duydukları cevapları sağladığını kabul edene kadar CRISP-DM süreç aşamalarına devam edilir.

Diğer Veri Bilimi Metodolojileri

Veri Biliminde en çok kullanılan metodoloji olan CRISP-DM ve onun özelleştirilmiş bir versiyonu olan John Rollins Temel Veri Bilimi Metodolojisi’nin yanı sıra farklı yaklaşımlar da söz konusudur. Bunlar;

SEMMA (Sample, Explore, Modify, Model, Assess)

• SAS tarafından geliştirilmiştir ve veri madenciliği projelerinde kullanılır.

• Aşamalar: Örnekleme (Sample), Keşif (Explore), Değiştirme (Modify), Modelleme (Model), Değerlendirme (Assess).

• CRISP-DM’e benzer ama daha çok teknik modelleme aşamalarına odaklanır.

KDD (Knowledge Discovery in Databases)

• Veri tabanlarında bilgi keşfi sürecine odaklanır.

• Aşamalar: Veri Seçimi, Veri Temizleme, Veri Dönüştürme, Veri Madenciliği, Sonuçların Değerlendirilmesi ve Yorumlanması.

• Özellikle büyük veri tabanları üzerinde bilgi keşfi için kullanılır.

TDSP (Team Data Science Process)

• Microsoft tarafından geliştirilen bir veri bilimi metodolojisidir.

• Ekip tabanlı veri bilimi projeleri için geliştirilmiştir ve DevOps süreçlerini veri bilimi ile entegre eder.

• Aşamalar: Veri keşfi, veri hazırlığı, model geliştirme, dağıtım ve geri bildirim döngüsü.

Agile Veri Bilimi (Agile Data Science)

• Geleneksel yazılım geliştirmedeki Agile prensiplerinin veri bilimine uygulanmasıdır.

• Veri bilimi projelerinde sürekli geri bildirim döngüsü, küçük iterasyonlarla ilerleme ve değişen gereksinimlere uyum sağlama üzerine kuruludur.

• Hızlı deney yapmayı ve tekrarlamayı teşvik eder.

ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics)

• IBM tarafından CRISP-DM’e bir alternatif olarak geliştirilmiştir.

• CRISP-DM’in bir genişletmesi olarak kabul edilebilir ve proje yönetimi ile entegrasyonu artırılmıştır.

Big Data Reference Architecture (BIDW)

• Büyük veri projelerinde kullanılan bir metodolojidir.

• Genellikle büyük veri sistemlerinin inşası, yönetimi ve analizinde kullanılır.

• Yapılandırılmış ve yapılandırılmamış verilerin büyük ölçeklerde işlenmesine odaklanır.

Lean Analytics

• Lean (yalın) yöntemlerin veri analitiğine uygulanmasıdır.

• Minimum uygulanabilir ürün (MVP) geliştirme sürecine benzer şekilde, doğru metriklere odaklanarak iş hedeflerine en hızlı şekilde ulaşmayı amaçlar.

Six Sigma & DMAIC

• Six Sigma, kalite kontrol odaklı bir metodolojidir ve veri analitiği ile birleştiğinde süreç iyileştirmesi sağlar.

• Aşamalar: Tanımlama (Define), Ölçme (Measure), Analiz (Analyze), İyileştirme (Improve), Kontrol (Control).

DataOps (Data Operations)

• DevOps prensiplerini veri biliminde uygulayan bir metodolojidir.

• Veri bilimi ve veri mühendisliği ekiplerinin iş birliğini artırarak, veri ürünlerini hızlı ve güvenilir bir şekilde sunmayı amaçlar.

Bu metodolojiler, farklı veri bilimi projelerinde belirli aşamalara odaklanmak ya da proje yönetimini optimize etmek için kullanılabilir.