Bir önceki konuda yer alan adreslerde de gördüğünüz gibi kamuya açık birçok açık veri seti vardır, ancak hem yüksek kaliteli hem de açıkça tanımlanmış lisans ve kullanım şartlarına sahip veri setlerini bulmak zor olabilir.

IBM DAX ve Paylaşılan Veri Setleri

IBM, bu zorluğun çözülmesine yardımcı olmak için Data Asset Exchange veya “DAX” i oluşturdu. DAX; hem IBM Research, hem de güvenilir üçüncü taraf kaynaklardan seçilmiş bir açık veri seti koleksiyonu sağlar. Bu veri kümeleri; görüntü, video, metin ve ses dahil olmak üzere çok çeşitli uygulama türleriyle kurumsal uygulamalarda kullanıma hazırdır.

DAX, veri setlerini Topluluk Veri Lisans Sözleşmesi (veya CDLA) kapsamında kullanılabilir tutarak veri paylaşımını ve işbirliğini teşvik etmeyi amaçlamaktadır. DAX, IBM Research gibi güvenilir kaynaklardan benzersiz, yüksek kaliteli veri setlerine erişmek için tek bir yer sağladığı için geliştiricilerin veri setlerini kullanmaya başlamasını kolaylaştırır.

Ayrıca; veri temizleme, ön işleme ve keşif analizinin(exploratory analysis) temellerini inceleyen öğretici Jupyter notebook dosyaları sağlar. Bazı veri setleri; grafikler oluşturma, makine öğrenimi modellerini eğitme, model değişimi(Model Asset eXchange) aracılığıyla derin öğrenme entegrasyonu, istatistiksel analiz ve zaman serisi analizi gibi daha karmaşık görevlerin nasıl gerçekleştirileceğini açıklayan gelişmiş Jupyter notebook dosyaları da içerir.

Data Asset eXchange(DAX) ve Model Asset eXchange(MAX), IBM Developer web sitesinden erişilebilir. Bu kaynaklarla, geliştiriciler uçtan uca analitik ve makine öğrenimi iş akışları oluşturabilir ve açıkca tanımlanmış lisans koşulları altında veri ve modelleri güvenle kullanabilir.

Önce Data Asset Exchange’i inceleyelim. Web tarayıcınızda https://developer.ibm.com/ adresini açın. Ardından “IBM’de Açık Kaynak” ı seçin ve açılır menüden “Data Asset Exchange” i seçin.

Veri Setleri

Data Asset Exchange’de, keşfetmeniz için birden fazla açık veri seti mevcuttur. Diyelim ki sizin için çok ilginç olabilecek bir veri seti buldunuz, örneğin: “NOAA Hava Durumu Verileri – JFK Havaalanı” veri seti, New York’taki John F. Kennedy Havalimanı’nda bulunan bir meteoroloji istasyonundan gelen verileri içerir. Bu veri seti sayfasında, NOAA veri kümesini bulut depolama alanından indirmek için “Bu veri kümesini al” – “Get this dataset” seçeneğine tıklayabilirsiniz.

IBM Watson ve DAX ile Paylaşılan Veri Setleri 1

IBM Watson’da bu veri kümesiyle ilişkili jupyter notebook dosyalarına erişmek için “Veri seti not defterini çalıştır” – “Run dataset notebooks”a tıklayın. Ya da DAX meta verilerini ve notebook dosyalarını keşfetmek için “Verileri ve Not Defterlerini önizle” – “Preview the data & notebooks” seçeneğine tıklayabilirsiniz.

DAX’daki çoğu veri kümesi bir veya daha fazla Notebook ile birlikte gelmektedir. Bunlara erişip Notebook dosyalarını bulut sunucular üzerinde çalıştırarak kullanabilmek için IBM Cloud üyeliğinizin olması gereklidir. Üyelik oluşutrduktan sonra ilgili data sayfasında “Proje Oluştur” – “Create Project” butonu göreceksiniz. Buna tıklayarak ilgili data setini kullanabileceğiniz yeni bir proje oluşturduğunuzda IBM Cloud üzerinde proje sayfasına erişebilirsiniz.

IBM Watson ve DAX ile Paylaşılan Veri Setleri 2

Tüm Jupyter Notebook dosyalarını ve mevcut verileri görüntülemek için Varlıklar’a(Assets) tıklayın.

IBM Watson ve DAX ile Paylaşılan Veri Setleri 3

Burada NOAA projenizle ilişkili tüm Jupyter notebook dosyalarını ve veri dosyalarını göreceksiniz. Veri temizleme(DAta Cleaning), ön işleme(Pre Processing) ve keşif analizi(Exploratory Analysis) yapmak için ilgili Jupyter notebook dosyalarını IBM Watson Stüdyo’da çalıştırabilirsiniz.

IBM Watson ve DAX ile Paylaşılan Veri Setleri 4

DAX’daki veri kümeleri ayrıca bir veya daha fazla veri dosyasından oluşur. Projenizde bulunan veri dosyalarını görüntülemek için üzerine tıklatıp görüntüleyebilirsiniz.

IBM Watson ve DAX ile Paylaşılan Veri Setleri 5