12
LOG YÖNETĠMĠ VE SIEM ÜRÜNLERĠNDE VERĠ ANALĠZĠ, SONUÇLARIN TUTARLILIĞI VE DOĞRULUĞU Dr. ERTUĞRUL AKBAġ [email protected] Toplanan verinin farklı kaynaklardan alınması, her bir bütünleĢme yapılan noktadan alınan verilerin standart olmasını ve eğer farklılık oluĢursa, bunların standart yapılara çevrilme düzenlemelerinin yapılmasını gerektirmektedir. Bu sayede temiz ve nitelikli veri ile elde edeceğimiz analitikler, kaliteli bilgiye sahip olmamızı ve raporlarda doğruluk sağlayacaktır.Yüksek hızlı veri analizinde sonuçların doğruluğunun kontrolü için kontrollü veri yüklenmesi gerekir. Log Yönetimi ve SIEM projelerinde oluĢan sonuçların, raporların ve arama sonuçlarının tutarlılığı ve tekrar edilebilirliği çok kritiktir. Özellikle log trafiği arttıkça sistemlerin sonuç üretme kapasiteleri ve tutarlılıkları çok değiĢkenlik göstermektedir. Kullanıcıların ya da ürün seçicilerin bu konularda dikkatli olup görsel öğelerin önem derecesi ile veri ve raporların doğruluğunun önem derecesini dengeleyebilmeleri gerekir. EPS DEĞERĠ NEDĠR? Normal EPS değerleri (Normal Eventspersecond (NE))standart aktivite zamanlarındaki log sayısıdır. Ama daha önemli olanı ise Tepe EPS (PeakEventspersecond (PE)) değeridir. Çünkü kurulacak sistemin dayanma noktası bu EPS değerlerine ulaĢıldığı zaman ortaya çıkar. Bu durum ise anormal bir durum (saldırı, virüs vs..) durumlarında ortaya çıkar. AĢağıda cihaz sayıları ve log kaynakları ile EPS değerleri arasında iliĢki kuran örnek çalıĢmaların tabloları mevcuttur.

Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Embed Size (px)

DESCRIPTION

LOG YÖNETMİ VE SIEM ÜRÜNLERİNDE VERİ ANALİZİ, SONUÇLARIN TUTARLILIĞI VE DOĞRULUĞU

Citation preview

Page 1: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

LOG YÖNETĠMĠ VE SIEM ÜRÜNLERĠNDE VERĠ ANALĠZĠ, SONUÇLARIN TUTARLILIĞI VE

DOĞRULUĞU

Dr. ERTUĞRUL AKBAġ

[email protected]

Toplanan verinin farklı kaynaklardan alınması, her bir bütünleĢme yapılan noktadan alınan verilerin standart olmasını ve eğer farklılık oluĢursa,

bunların standart yapılara çevrilme düzenlemelerinin yapılmasını gerektirmektedir. Bu sayede temiz ve nitelikli veri ile elde edeceğimiz

analitikler, kaliteli bilgiye sahip olmamızı ve raporlarda doğruluk sağlayacaktır.Yüksek hızlı veri analizinde sonuçların doğruluğunun kontrolü

için kontrollü veri yüklenmesi gerekir.

Log Yönetimi ve SIEM projelerinde oluĢan sonuçların, raporların ve arama sonuçlarının tutarlılığı ve tekrar edilebilirliği çok kritiktir. Özellikle

log trafiği arttıkça sistemlerin sonuç üretme kapasiteleri ve tutarlılıkları çok değiĢkenlik göstermektedir. Kullanıcıların ya da ürün seçicilerin bu

konularda dikkatli olup görsel öğelerin önem derecesi ile veri ve raporların doğruluğunun önem derecesini dengeleyebilmeleri gerekir.

EPS DEĞERĠ NEDĠR?

Normal EPS değerleri (Normal Eventspersecond (NE))standart aktivite zamanlarındaki log sayısıdır. Ama daha önemli olanı ise Tepe EPS

(PeakEventspersecond (PE)) değeridir. Çünkü kurulacak sistemin dayanma noktası bu EPS değerlerine ulaĢıldığı zaman ortaya çıkar. Bu durum

ise anormal bir durum (saldırı, virüs vs..) durumlarında ortaya çıkar. AĢağıda cihaz sayıları ve log kaynakları ile EPS değerleri arasında iliĢki

kuran örnek çalıĢmaların tabloları mevcuttur.

Page 2: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

http://www.sans.org/reading-room/analysts-program/eventMgt-Feb09

http://www.netcerebral.com/guessing-game-planning-sizing-siem-based-on-eps/

http://www.netcerebral.com/log-management-planning-calculator/#more-125

Page 3: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Bu çalıĢmada özellikle görsel raporları ile ilgi çeken 1 yabancı ve 1 yerli Log Yönetimi yazılımı ile

8 GB RAM, I7 3620QM CPU ve 500 GB SSD Disk üzerinde 1000 EPS ile yapılan testler ürün isimleri verilmeden verinin analizinin sonucunun

doğruluğunun nasıl sorgulandığı gösterilecektir. Ġki yazılımı da raporların oluĢturulması için aĢağıdaki log üretici yazılım kullanılarak log

basılmıĢtır.

http://sourceforge.net/projects/syslog-slogger/

bu testin nasıl yapılacağı ile ilgili detay çalıĢma için aĢağıdaki link kullanılabilir.

http://www.slideshare.net/anetertugrul/log-ynetimi-sisteminizin-log-karp-karmadn-test-etmek-ister-misiniz

Bu çalıĢmadaki testlerde özelikle 1000 EPS seçildi çünkü yukarıda fiziksel özellikleri verilen makinede sistemlerin 1000 EPS den sonra %66

yanıldıkları tespit edilmiĢtir. Bu oran göze görülebilir bir oran olduğu için alt sınır olarak seçilmiĢtir. Bununla birlikte stress test amaçlı 2000 EPS

ile yapılan ölçümlerde daha yakalama aĢamasında verilerin doğruluğunun bozulduğu tespit edilmiĢtir. Örnek olarak aĢağıdaki sunulan raporda

tespit edilen hatalar:

1- 2000 EPS de lisansdan dolayı 1000 EPS üzerini drop ettiği iddaia edilmekle birlikte sabit 2000 EPS log gönderilmesine rağmen

normalizedevents raporunda bu sabit 2000 EPS i görememekte ve verilerin 1000 -2000 arasında değiĢtiğini görmekteyiz. ,

2- Benzer Ģekilde 2000 EPS veri için 1000 EPS üzerinin drop edildiği iddia edilmesine rağmen Drop raporunda yine sabit bir değer yerine

200 ile 1000 arasında değerler gözükmektedir.

3- En vahimi ise yukarıda referansı verilen log üretici ile 2300000 log gönderildiğinde sistem recordedevents i 1145616 olarak

göstermektedir.

Page 4: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu
Page 5: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Özellikle SIEM ve Log Management gibi alanlarda yüz milyonlarca verinin analizinin sonucunun doğruluğunun analizi 2 kategoriye ayrılabilir.

1- Görsel olarak analiz edilebilen sonuçlar

2- Kontrollü veri yükleme ve doğrulma

Görsel olarak analiz edilebilen sonuçlar

SIEM ve Log Yönetimi sistemlerinin oluĢturduğu grafiksel raporların tutarlılığı sistemin ürettiği verilerin güvenirliğini analizi için kullanılır. AĢağıda kırmızı

okla gösterilen veriler aynı veriler. Ġlk resimdeki veri 73561899 olarak gösterilirken ikinci rapor ondan 30 saniye daha sonra oluĢturulmuĢ yani daha fazla veri

ile oluĢturulmuĢ olmasın rağmen bir önceki raporda 73561899 çıkan veri 201 olarak raporlanmıĢtır.

Page 6: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu
Page 7: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu
Page 8: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Benzer Ģekilde sistemlerin performans zaaflarından kaynaklanan sağlıksız veri, eksik veri ile oluĢan raporlar da aynı Ģekilde tespit edilir. AĢağıda baĢka bir

üründen alına bir ekran görüntüsü mevcut. 15 dakikalık süreçte 8 GB RAM, 8 core 3 I7 3610 QM CPU ve 500 GB SSD disk ile 5 er dakikalık periyodlarla

500 EPS, 1000 EPS ve 2000 EPS yani toplamda 15 dakikada gelen loglar ile normalize edilen (analiz edilen) veri arasında %66 fark var. Bu da raporların

sağlıksız olmasına sebep olan bir durumdur.

Benzer bir gösterge de baĢka bir yazılımdan. Toplam log sayısı 116714 iken raporlarda gösterilen log adedi 11926.

Page 9: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Tekrarlanabilirlik

Tekrarlanabilirlik — aynı araç ve aynı ölçücü kiĢiyi muhafaza edip kısa bir zaman aralığında ölçümleri tekrar edilmesine denir. AĢağıda elde edilen iki rapor

örneği mevcut. Ġlk rapor (ilk rapor) ile 5 sn sonra elde edilen ikinci rapor (2. resim) rapor girdiler aynı olmakla birlikte sonuçlar tamamen farklıdır

Aynı veri 5sn sonra tekrar sorgulandığında

Yine benzer bir log yönetimi yazılımını kullanarak ilk 5 protokol raporu oluĢturduğumuz zaman oluĢan rapor

Page 10: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Rapor sadece1 tip protokol olduğunu ve bunun da Web olduğunu gösteriyor. Ama total sayısına bakınca rakam Web ile aynı değil. Demek ki aslında baĢka

veri var ama nerede?

Ayrıca aynı raporu tekrar alınca Web ile Total aynı. Ama bu sefer de bir önceki raporda (yukarıdaki resim) gösterilen 3100494 total rakamı 788693 olarak

değiĢmiĢ ve azalmıĢ. Yine tutarsızlık

Yine benzer bir log yönetimi yazılımını kullanarak oluĢturulan rapor: Raporda total kısmı toplam parametrelerinden sadece biri olan 10.10.100.100 un toplam

değerlerden daha küçük.

Page 11: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

Kontrollü veri yükleme ve doğrulma

Sistem testlerinde hangi miktarda log yüklemesi yapacağımızı hesaplamak üzere aşağıdaki linkler referans alınabilir.

http://www.sans.org/reading-room/analysts-program/eventMgt-Feb09

http://www.netcerebral.com/guessing-game-planning-sizing-siem-based-on-eps/

http://www.netcerebral.com/log-management-planning-calculator/#more-125

Bu tablolar kullanılarak şablon rakamlar vermek gerekirse:

Page 12: Log yonetmi ve siem ürünlerinde veri analizi, sonuclarin tutarliligi ve dogrulugu

100 Cihazlık bir ağ için Ortalama EPS : 40 PeakEPS : 2500 Ortalama Peak EPS: 1500

250 Cihazlık bir ağ için Ortalama EPS : 100 PeakEPS : 6000 Ortalama Peak EPS: 4000

500 Cihazlık bir ağ için Ortalama EPS : 200 PeakEPS : 12500 Ortalama Peak EPS: 7500

1000 Cihazlık bir ağ için Ortalama EPS : 400 PeakEPS : 25000 Ortalama Peak EPS: 15000

Önemli olan sistemin Peak EPS değerlerini karşılayabilmesidir. Ortalama EPS ve Ortalama Peak EPS sadece storage ihtiyacı için hesaplamada kullanılacak

parametrelerdir.

Veri yüklerken ağın büyüklüğüne göre EPS değerleri tespit etmek gerekir