Ανάλυση δεδομένων Δικτύου πραγματικού χρόνου

Περιοχή Έρευνας

Περιβάλλον πειραματικής εφαρμογής

Το δίκτυο του ΤΕΙ Θεσσαλονίκης, λόγω του μεγέθους του και του πλήθους των χρηστών του αποτελεί κατάλληλο πεδίο για τη διεξαγωγή πειραμάτων στα πλαίσια του ερευνητικού προγράμματος. Η τοπολογία του, η ανομοιογένειά του, ο όγκος των διακινουμένων δεδομένων και η πληθώρα υπηρεσιών που παρέχει το καθιστούν ένα σημαντικό παροχέα δικτυακών υπηρεσιών. Η τοπολογία του ΤΕΙ, όπως φαίνεται στο σχήμα 1 και ο εξοπλισμός που χρησιμοποιείται, δίνουν τη δυνατότητα συλλογής δεδομένων από δύο διαφορετικά σημεία. Τα δεδομένα μπορούν να συλλεχθούν τόσο στο Firewall του Τμήματος Πληροφορικής, όσο και στο κεντρικό Firewall.

Δικτυακός χάρτης ΑΤΕΙ/Θ
Σχήμα 1: Τοπολογία ΑΤΕΙ/Θ

Εξαιτίας της διαδικασίας ενθυλάκωσης των δικτυακών δεδομένων δεν θα υπάρξει κανένα είδος παραβίασης του προσωπικού απορρήτου των χρηστών γιατί θα καταγραφούν IP δεδομένα που προέρχονται από κεντρικούς διακομιστές που δεν προσωποποιούν τους χρήστες αλλά ούτε και τις πληροφορίες που διακινούνται.

Η ανάλυση δεδομένων θα γίνει με την χρήση πακέτων ανάλυσης (π.χ. Μathematica) που διαθέτει το τμήμα καθώς και προγραμματιστικού περιβάλλοντος ανοιχτού κώδικα (π.χ. python). Δεν θα απαιτηθεί άλλος ιδιαίτερος εργαστηριακός εξοπλισμός.

Ορισμός του προβλήματος - Η ερευνητική περιοχή

Το Internet αποτελεί μια κατανεμημένη, αυτό-ρυθμιζόμενη οντότητα που η δομή του χάνεται μέσα σε επιμέρους αυτόνομα συστήματα. Μέσα σ’ αυτή την πραγματικότητα, οι παροχείς διαδικτυακών υπηρεσιών (Internet Service Providers- ISP), για να έχουν μια αποτελεσματική εποπτεία του δικτύου τους, πρέπει να κατανοήσουν τις αλληλεπιδράσεις που έχει το δίκτυό τους με τα άλλα δίκτυα, να αξιολογούν συνεχώς τις τάσεις, τα σφάλματα αλλά και τα πρότυπα της κίνησης που εμφανίζονται σε όλο το δίκτυο που εποπτεύουν . Για το λόγο αυτό η εποπτεία του δικτύου και η ανάλυση των παραγόμενων δεδομένων κίνησης, αποτελούν κρίσιμες λειτουργίες για τους παρόχους διαδικτυακών υπηρεσιών .

Ο όγκος όμως των παραγόμενων δεδομένων δικτυακής κίνησης σε ένα ISP είναι τόσο μεγάλος που είναι σχεδόν αδύνατον να αποθηκευθούν. Ακόμα και σε περιπτώσεις όπου υπάρχει η δυνατότητα αποθήκευσης, υπάρχει μεγάλη δυσκολία στην επεξεργασία και στην ανάλυση τέτοιου μεγάλου όγκου δεδομένων . Το πρόβλημα είναι πιο πολύπλοκο όταν υπάρχουν απαιτήσεις για on line επεξεργασία δεδομένων ροής δικτυακής κίνησης .

Στη διαδικασία αυτή διακρίνονται δύο σημαντικές λειτουργίες με ιδιαίτερα χαρακτηριστικά:

IP δεδομένα και διαδικασία καταγραφής τους

Η IP κίνηση αποτελεί το σύνολο της δικτυακής κίνησης όλων των επιμέρους δικτύων αλλά και του συνόλου του Internet. Οποιαδήποτε μεταφορά δεδομένων ή άλλης πληροφορίας μέσω δικτύων πραγματοποιείται με τη χρήση του IP πρωτοκόλλου.

Πιο αναλυτικά, η IP κίνηση αποτελείται από μεμονωμένα IP πακέτα, κάθε ένα από τα οποία περιέχει ένα σύνολο από πληροφορίες ελέγχου όπως:

Σχήμα ενθυλάκωσης δικτυακών δεδομένων
Σχήμα 2: Διαδικασία ενθυλάκωσης

Κατά κανόνα τα δεδομένα του επιπέδου χρήστη εμπεριέχονται μέσα σε TCP segments τα οποία με τη σειρά τους τοποθετούνται μέσα σε IP πακέτα. Κάθε ένα TCP segment περιέχει πληροφορίες όπως:

Εξετάζοντας μεμονωμένα IP πακέτα ή TCP segments μπορούμε να καταλήξουμε σε ελάχιστα συμπεράσματα, στατιστικά και μη. Δεδομένου όμως του ότι το σύνολο της πληροφορίας μου μεταφέρεται στο Internet κατακερματίζεται σε ένα σύνολο από TCP segments (και IP πακέτα) ή πιθανώς και (σε ορισμένες περιπτώσεις) σε UDP πακέτα, τα πακέτα που περιέχουν κοινή πληροφορία είναι αλληλένδετα μεταξύ τους. Έτσι, με τη συλλογή όγκου δεδομένων, παρέχονται ουσιαστικά απεριόριστες δυνατότητες διεξαγωγής συμπερασμάτων εφαρμόζοντας μαθηματικά πρότυπα στο σύνολο της IP πληροφορίας και όχι στα επιμέρους πακέτα. Λόγο της αλληλεξάρτησης των επιμέρους πακέτων μεταξύ τους η ανάλυσης τους δεν μπορεί να γίνει με απλές στατιστικές μεθόδους, αλλά απαιτείται η περαιτέρω μοντελοποίηση της κίνησης.

Μελετώντας μακροσκοπικά τη δικτυακή κίνηση, μπορούν να βγούνε συμπεράσματα για τη κίνηση αυτή καθαυτή, το δίκτυο, τους χρήστες και το σύνολο της χρήσης. Έτσι, είναι δυνατή η περαιτέρω προσαρμογή και βελτιστοποίηση του δικτύου και των πόρων του σύμφωνα με τις ανάγκες που θα παρατηρηθούν. Παράλληλα, είναι δυνατή η μοντελοποίηση της κίνησης και κατ' επέκταση ο περαιτέρω έλεγχος για θέματα νομιμότητας και ασφάλειας.

Λόγω του ότι η δικτυακή κίνηση πραγματοποιείται με τη διαδικασία της ενθυλάκωσης (σχήμα 2), είναι δυνατός ο αυστηρός διαχωρισμός των δεδομένων και των μεταδεδομένων. Έτσι, μπορεί να γίνει εξονυχιστική μελέτη της δικτυακής κίνησης χωρίς να υπάρξει οποιοδήποτε είδος παραβίασης του προσωπικού απορρήτου. Από τη μία, η φύση της δικτυακής κίνησης επιτρέπει την εξόρυξη μόνο των μεταδεδομένων, χωρίς να υπάρχει παρακολούθησης των δεδομένων. Από την άλλη, ο τεράστιος όγκος της δικτυακής κίνησης ανάγει κάτι τέτοιο σε ανάγκη μιας και είναι πρακτικά αδύνατο να γίνει καταγραφή της δικτυακής κίνησης έστω και για μικρό χρονικό διάστημα. Ενδεικτικά, τις ώρες λειτουργίας του ΤΕΙ/Θ χωρίς ιδιαίτερα μεγάλη κίνηση, διακινείται όγκος δεδομένων ίσος με ένα γεμάτο CD (650MB) κάθε 40 περίπου δευτερόλεπτα.

Παράδειγμα δεδομένων ενός IP πακέτου:

0000 00 80 c8 38 a9 10 00 13 49 da cf 70 08 00 45 00 ...8.... I..p..E.
0010 05 d4 eb c8 40 00 33 06 0b 69 c3 fb 7b e9 0a 01 ....@.3. .i..{...
0020 01 0d 00 16 95 9d 00 14 ef 2b 6e 4c 2f bb 80 10 ........ .+nL/...
0030 00 6c f2 f4 00 00 01 01 08 0a 1e 6a 55 06 00 2f .l...... ...jU../
0040 d1 18 60 fa 77 be ac ef 87 5d 22 51 9c 5b 34 38 ..`.w... .]"Q.[48
0050 31 8a c5 ea 37 c6 a3 f6 f8 5a 78 fd 16 00 5a f9 1...7... .Zx...Z.
0060 8a 06 12 f9 7b a5 43 0d 1e 0b bc 51 3b 54 d2 91 ....{.C. ...Q;T..
0070 4a bf 5f 53 81 69 89 0e 05 82 a5 7a 84 03 45 08 J._S.i.. ...z..E.
0080 14 11 ac 35 a8 96 36 79 d8 85 53 4b 3e 60 29 6c ...5..6y ..SK>`)l
0090 5a 61 b9 57 1a 95 5f ce a3 88 4a e8 f4 f4 50 d0 Za.W.._. ..J...P.
00a0 a4 f4 7e 03 2a 9f 96 64 70 ad b8 80 00 21 75 ef ..~.*..d p....!u.
00b0 24 63 a5 61 36 a8 13 74 3b 4d 0a f4 db e5 3c f1 $c.a6..t ;M....<.
00c0 8f 6b 68 72 4a 8c 8c 84 d2 65 0a 76 65 02 aa 4a .khrJ... .e.ve..J
...
05d0 a5 93 2b ff aa e6 bc 90 e8 c2 9e 08 a2 db 25 d5 ..+..... ......%.
05e0 d7 e3

Στα παραπάνω bytes δεδομένων τα πρώτα 66 bytes (το σκιαγραφημένο κομμάτι) είναι τα μεταδεδομένα. Από το σύνολο του πακέτου αυτά συγκεντρώνουν το όλο ενδιαφέρον για σχετική ανάλυση μιας και παρέχουν όλες τις πιθανές δικτυακές πληροφορίες που μπορεί να χρειαστεί κάποιος. Το σύνολο των δικτυακών συσκευών ασχολείται αποκλειστικά και μόνο με τις πληροφορίες αυτές. Πιο αναλυτικά, τα παραπάνω 66 bytes μεταφράζονται σε:

Layer 3 Protocol IP
Version 4
DiffServ Field 0x00, No ECN
Total Length 1492
ID 0xebc8
Flags 0x04 (Don't Fragment)
Fragment Offset 0
Layer 4 Protocol TCP
Source IP 195.251.123.233
Destination IP 10.1.1.13
Source Port 22
Destination Port 38301
Sequence Number 0x0014ef2b
Acknowledgment number 0x6e4c2fbb
TCP Header Length 32
Flags 0x10 (ACK)
Window size 108
Checksum 0xf2f4

Ανάλυση δεδομένων Δικτύου

Η ανάπτυξη της τεχνολογίας των υπολογιστών δημιουργεί νέους δρόμους για την συλλογή δεδομένων συνεχούς ροής σε διαστήματα ορισμένου χρόνου. Σε πολλούς τομείς, όπως τα δίκτυα υπολογιστών, ο όγκος των δεδομένων είναι τόσο μεγάλος που είναι σχεδόν αδύνατον να αποθηκευτεί ολόκληρος. Ακόμα και σε περιπτώσεις όπου υπάρχει η δυνατότητα της αποθήκευσης, εξακολουθεί να παραμένει μεγάλος ο όγκος των παραγόμενων δεδομένων. Όλα τα παραπάνω έχουν ως αποτέλεσμα την δυσκολία της επεξεργασίας και ανάλυσης τέτοιου όγκου δεδομένων.

Στο μοντέλο δεδομένων συνεχούς ροής (Data Stream Model)μερικά ή όλα από τα εισερχόμενα δεδομένα δεν είναι διαθέσιμα για προσπέλαση από κάποιο αποθηκευτικό μέσο (μόνιμο ή προσωρινό), αλλά καταφθάνουν ως συνεχόμενες ροές. Τα δεδομένα συνεχούς ροής διαφέρουν από τα αποθηκευμένα σχεσιακώς δεδομένα σε διάφορα σημεία :