![Page 1: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/1.jpg)
Işıl ÇINAR,Muhammet Serkan ÇINAR,Hasan Şakir Bİ[email protected], [email protected], [email protected]
![Page 2: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/2.jpg)
Veri Madenciliği ve Web Madenciliği Kullanılan Teknikler Literatürdeki Yaklaşımlar Web Madenciliği Uygulama Sistem Mimarisi Önişleme Adımları Karşılaşılan Problemler WEKA’da Analiz Sonuç
2
![Page 3: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/3.jpg)
Veri madenciliği basit ve açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da bilginin çok büyük miktarlardaki veriden çıkarılmasıdır.
Web madenciliği ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir.
3
![Page 4: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/4.jpg)
4
![Page 5: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/5.jpg)
İstatistik Sınıflandırma (Classification) Kümeleme (Clustering) Birliktelik (Association) Regresyon(Regression) Tahmin Etme (Forecasting) Sıralı Desen
5
![Page 6: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/6.jpg)
Literatür çalışmaları 2 açıdan ele alınmıştır.
Web sunucu loglarının analizi, veri madenciliği ve web madenciliği uygulamaları, çıkarılan istatistiksel sonuçlar
Log analizinde saldırıların tespit edilmesi, saldırı çeşitleri ve kullanılan yöntemler
6
![Page 7: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/7.jpg)
7
1) Web log dosyalarının sınıflandırılması ve önişleme2) Web içerik ve web kullanım madenciliği
tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından yararlanma
3) E-ticaret alanında web log madenciliği4) World Wide Web Sunucuları için Durum Tabanlı
Saldırı Tespit Sistemi5) Web Uygulamalarında Güvenlik Modeli Kullanılarak
Anomali Tespiti6) Web günlükleri aracılığıyla web kullanım desen
analizi
![Page 8: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/8.jpg)
8
Sistem mimarisi aşağıdaki gibidir :
![Page 9: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/9.jpg)
18
Temizlenen Sunucu Erişim Dosyası
Sunucu Erişim Dosyası
Sunucu Hata Dosyası
WEB MADENCİLİĞİ ALG.
UYGULAMALARI
WEB MADENCİLİĞİ ALG.
UYGULAMALARI
Verinin Alanlara Ayrılması Verinin Alanlara Ayrılması
Veri Seçimi ve EntegrasyonuVeri Seçimi ve Entegrasyonu
WEKA WEKA
Veri TemizlemeVeri Temizleme ExcelConvert Programı ile Arff formatına dönüşüm
ExcelConvert Programı ile Arff formatına dönüşüm
Temizlenen Sunucu Hata Dosyası
![Page 10: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/10.jpg)
Genel olarak kaydedilen verinin miktarına göre değişen iki format mevcuttur: “Common Log Format” ve “Combined Log Format”.
10
IPNO TARİH VE SAAT ISTEKURL DURUM
BOYUT
BASVYER
TARAYICI
66.x.71.181 [26/Aug/2012:06:51:59 +0300]
GET /10957-alt-- HTTP/1.1
200 18512 - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
66.x.71.181 [26/Aug/2012:06:54:10 +0300]
GET /11001-arnavutkoy-balikcisi HTTP/1.1
200 18693 - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
213.x.127.13 [26/Aug/2012:06:54:13+0300]
GET /istanbul-restoranlari?start=40 HTTP/1.1
200 18793 - Mozilla/5.0 (compatible; AhrefsBot/3.1; +http://ahrefs.com/robot/)
![Page 11: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/11.jpg)
11
Erişim Dosyasının Özellikleri
Dosyanın Adı Access_websitesi.log.1
Dosyanın Boyutu 313.413.409 KB
Tarih Aralığı 01.10.2012-29.11.2012
Erişim Sayısı 575.576
Hata Günlüğü Dosyasının Özellikleri
Dosyanın Adı error_websitesi.log
Dosyanın Boyutu 86.6 KB
Tarih Aralığı 01.10.2012-29.11.2012
Hata Sayısı 430
![Page 12: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/12.jpg)
Log dosyası Common Log Formatına Göre Excel’e aktarılmıştır.
Identity ve user alanlarında veri olmadığı için bu alanlar silinmiştir.
Zamanla ilgili alanlar birleştirilmiştir. Önişlemeyi daha hassas gerçekleştirebilmek üzere veriler
Access veritabanına aktarılmıştır.
12
![Page 13: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/13.jpg)
Resim ve diğer bağlı olan dosyalar olmadan kaç ziyaret olduğunu tespit etmek amacıyla .gif, .jpg, .css,.js, .png, javascript uzantılı dosyalar silinmiştir.
13
![Page 14: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/14.jpg)
14
![Page 15: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/15.jpg)
Arff Convertor programı ile dönüşüm yapıldığı sırada dosyanın içeriğine arff formatına uymayan yabancı karakterler eklendiği görülmüştür ve bu karakterler temizlenmiştir. Hataların diğer sebepleri arasında arff formatında tek tırnak (‘), noktalı virgül (;), boşluk( ) gibi karakterlerin bulunması yer almaktadır.
15
![Page 16: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/16.jpg)
İşlenen verinin çok büyük olmasından kaynaklanan bellek yetersizliği hatası alınmıştır.
16
![Page 17: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/17.jpg)
Bu hatayı gidermek için Weka’nın kullandığı bellek miktarı artırılmıştır.
17
![Page 18: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/18.jpg)
18
![Page 19: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/19.jpg)
19
Erişimler
Toplam Veri 575.576
Önişlemden Sonra Veri Sayısı 58.988
Günlük Ortalama Erişim 983.13
Ziyaretçi Başına Ortalama Erişim 8.02
Başarılı İstek Sayısı 53.209
Ziyaretçi
Toplam Ziyaretçi 7347
Ortalama Günlük Ziyaretçi 122.45
![Page 20: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/20.jpg)
20
![Page 21: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/21.jpg)
21
![Page 22: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/22.jpg)
22
![Page 23: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/23.jpg)
23
![Page 24: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/24.jpg)
24
![Page 25: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/25.jpg)
Sayfaya ait robots.txt dosyasında yasaklanmış olan url’ler aşağıdaki gibidir:
User-agent: *Disallow: /administrator/ Disallow: /cache/ Disallow: /components/
Disallow: /images/ Disallow: /includes/ Disallow: /installation/
Disallow: /language/ Disallow: /libraries/ Disallow: /media/ ...
25
![Page 26: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/26.jpg)
Bu çalışma ile web günlük iz bilgileri üzerinde web madenciliği konusunda yapılabilecekler hakkında bilgi verilerek uygulama ile bir prototip oluşturulmuştur.
Veri madenciliğinde bulunan veri ön işleme, veri tanımlama, veri madenciliği teniklerinin uygulanması ve sonuçların sunulması adımlarından oluşan web madenciliği sistem mimarisi sunulmuştur.
26
![Page 27: WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ](https://reader035.vdocuments.site/reader035/viewer/2022081504/56813fcd550346895daaaa54/html5/thumbnails/27.jpg)
TEŞEKKÜRLER.
27