Τύπος Outlier | Βήμα προς βήμα Υπολογισμός του Outlier (με Παράδειγμα)

Ο τύπος Outlier παρέχει ένα γραφικό εργαλείο για τον υπολογισμό των δεδομένων που βρίσκονται έξω από το δεδομένο σύνολο διανομής που μπορεί να είναι εσωτερική ή εξωτερική πλευρά ανάλογα με τις μεταβλητές.

Τι είναι ο τύπος Outlier;

Ένα ακραίο σημείο είναι το σημείο δεδομένων του δεδομένου δείγματος ή μιας δεδομένης παρατήρησης ή σε μια κατανομή που βρίσκεται εκτός του συνολικού προτύπου. Ένας κανόνας που χρησιμοποιείται συνήθως, ο οποίος λέει ότι ένα σημείο δεδομένων θα θεωρείται εξωγενές εάν έχει περισσότερα από 1,5 IQR κάτω από το πρώτο τεταρτημόριο ή πάνω από το τρίτο τεταρτημόριο.

Με διαφορετικό τρόπο, τα χαμηλά ακραία σημεία βρίσκονται κάτω από το Q1-1.5 IQR και τα υψηλά ακραία σημεία βρίσκονται στο Q3 + 1.5IQR

Κάποιος πρέπει να υπολογίσει τη διάμεση τιμή, τα τεταρτημόρια συμπεριλαμβανομένων των IQR, Q1 και Q3.

Ο τύπος Outlier παρουσιάζεται ως εξής,

Ο τύπος για Q1 = ¼ (n + 1) th όρος Ο τύπος για Q3 = ¾ (n + 1) th όρος Ο τύπος για Q2 = Q3 - Q1

Βήμα προς βήμα Υπολογισμός του Outlier

Ακολουθούν τα παρακάτω βήματα για τον υπολογισμό του Outlier.

  • Βήμα 1: Πρώτα υπολογίστε τα τεταρτημόρια, δηλαδή Q1, Q2 και interquartile
  • Βήμα 2: Τώρα υπολογίστε την τιμή Q2 * 1.5
  • Βήμα 3: Τώρα αφαιρέστε την τιμή Q1 από την τιμή που υπολογίστηκε στο Βήμα 2
  • Βήμα 4: Εδώ προσθέστε το Q3 με την τιμή που υπολογίζεται στο βήμα 2
  • Βήμα 5: Δημιουργήστε το εύρος των τιμών που υπολογίζονται στα βήματα 3 και 4
  • Βήμα 6: Τακτοποιήστε τα δεδομένα σε αύξουσα σειρά
  • Βήμα 7: Ελέγξτε αν υπάρχουν τιμές που βρίσκονται κάτω ή υψηλότερες από το εύρος που δημιουργήθηκε στο Βήμα 5

Παράδειγμα

Εξετάστε ένα σύνολο δεδομένων με τους ακόλουθους αριθμούς: 10, 2, 4, 7, 8, 5, 11, 3, 12. Πρέπει να υπολογίσετε όλα τα Outliers.

Λύση:

Πρώτον, πρέπει να τακτοποιήσουμε δεδομένα σε αύξουσα σειρά για να βρούμε τη διάμεση τιμή που θα είναι Q2 για εμάς.

2, 3, 4, 5, 7, 8, 10, 11, 12

Τώρα, καθώς ο αριθμός των παρατηρήσεων είναι περίεργος που είναι 9, ο διάμεσος θα βρίσκεται στην 5η θέση που είναι 7 και το ίδιο θα είναι το Q2 για αυτό το παράδειγμα.

Επομένως, ο υπολογισμός του Q1 έχει ως εξής -

Q1 = ¼ (9 + 1)

= ¼ (10)

Το Q1 θα είναι - 

Q1 = 2,5 όρος

Αυτό σημαίνει ότι το Q1 είναι ο μέσος όρος της 2ης και της 3ης θέσης των παρατηρήσεων που είναι 3 & 4 εδώ και ένας μέσος όρος είναι (3 + 4) / 2 = 3.5

Επομένως, ο υπολογισμός του Q3 έχει ως εξής -

Q3 = ¾ (9 + 1)

= ¾ (10)

Το τρίτο τρίμηνο θα είναι - 

Q3 = 7,5 όρος

Αυτό σημαίνει ότι το Q3 είναι ο μέσος όρος της 7ης και 8ης θέσης των παρατηρήσεων που είναι 10 & 11 εδώ και ένας μέσος όρος της είναι (10 + 11) / 2 = 10,5

Τώρα, τα χαμηλά ακραία σημεία βρίσκονται κάτω από το Q1-1.5IQR και τα υψηλά ακραία σημεία βρίσκονται στο Q3 + 1.5IQR

Έτσι, οι τιμές είναι 3,5 - (1,5 * 7) = -7 και το υψηλότερο εύρος είναι 10,5 + (1,5 * 7) = 110,25.

Δεδομένου ότι δεν υπάρχουν παρατηρήσεις που βρίσκονται πάνω ή κάτω από 110,25 και -7, δεν έχουμε ακραία σημεία σε αυτό το δείγμα.

Παράδειγμα τύπου Outlier στο Excel (με πρότυπο Excel)

Μπορείτε να κατεβάσετε αυτό το Πρότυπο Outlier Formula Excel εδώ - Πρότυπο Outlier Formula Excel

Τα μαθήματα δημιουργικής καθοδήγησης σκέφτονται να επιβραβεύσουν τους μαθητές που είναι στην κορυφή του 25%. Ωστόσο, θέλουν να αποφύγουν τυχόν outliers. Τα δεδομένα αφορούν τους 25 μαθητές. Χρησιμοποιήστε την εξίσωση Outlier για να εξακριβώσετε εάν υπάρχει outlier;

Λύση:

Παρακάτω δίνονται δεδομένα για τον υπολογισμό του outlier

Ο αριθμός των παρατηρήσεων εδώ είναι 25 και το πρώτο μας βήμα θα ήταν η μετατροπή πάνω από τα ανεπεξέργαστα δεδομένα σε αύξουσα σειρά.

Ο διάμεσος θα είναι -

Η διάμεση τιμή = ½ (n + 1)

= ½ = ½ (26)

= 13ος όρος

Το Q2 ή η μέση τιμή είναι 68,00

Ποιο είναι το 50% του πληθυσμού.

Το Q1 θα είναι -

Q1 = ¼ (n + 1) όρος

= ¼ (25 + 1)

= ¼ (26)

= 6.5ος όρος που ισοδυναμεί με τον 7ο όρο

Το Q1 είναι 56,00 που είναι κάτω 25%

Το τρίτο τρίμηνο θα είναι -

Τέλος, Q3 = ¾ (n + 1) όρος

= ¾ (26)

= 19.50 όρος

Εδώ πρέπει να ληφθεί ο μέσος όρος του 19ου και του 20ου όρου που είναι 77 και 77 και ο μέσος όρος του είναι (77 + 77) / 2 = 77,00

 Το Q3 είναι 77 που είναι κορυφαίο 25%

Χαμηλό εύρος

Τώρα, τα χαμηλά ακραία σημεία βρίσκονται κάτω από το Q1-1.5IQR και τα υψηλά ακραία σημεία βρίσκονται στο Q3 + 1.5IQR

Υψηλή εμβέλεια -

Έτσι, οι τιμές είναι 56 - (1,5 * 68) = -46 και το υψηλότερο εύρος είναι 77 + (1,5 * 68) = 179.

Δεν υπάρχουν ακραίες τιμές.

Συνάφεια και χρήσεις

Η φόρμουλα Outliers είναι πολύ σημαντικό να γνωρίζουμε, καθώς θα μπορούσαν να υπάρχουν δεδομένα που θα αποκλίνουν από τέτοια αξία. Πάρτε ένα παράδειγμα των παρατηρήσεων 2, 4, 6, 101 και τώρα εάν κάποιος πάρει έναν μέσο όρο από αυτές τις τιμές θα είναι 28,25, αλλά το 75% των παρατηρήσεων βρίσκονται κάτω από το 7 και ως εκ τούτου θα ήταν μια λανθασμένη απόφαση σχετικά με τις παρατηρήσεις αυτού του δείγματος.

Μπορεί να παρατηρηθεί εδώ ότι το 101 φαίνεται σαφώς να σκιαγραφεί και εάν αυτό αφαιρεθεί, ο μέσος όρος θα είναι 4 που λέει για τις τιμές ή τις παρατηρήσεις που βρίσκονται εντός του εύρους των 4. Ως εκ τούτου, είναι πολύ σημαντικό να διεξάγετε αυτόν τον υπολογισμό για να αποφύγετε οποιεσδήποτε βασικές πληροφορίες κακής χρήσης των δεδομένων. Αυτά χρησιμοποιούνται ευρέως από στατιστικολόγους σε όλο τον κόσμο όποτε πραγματοποιούν οποιαδήποτε έρευνα.