כיצד לזהות חריגים: 10 שלבים (עם תמונות)

תוכן עניינים:

כיצד לזהות חריגים: 10 שלבים (עם תמונות)
כיצד לזהות חריגים: 10 שלבים (עם תמונות)

וִידֵאוֹ: כיצד לזהות חריגים: 10 שלבים (עם תמונות)

וִידֵאוֹ: כיצד לזהות חריגים: 10 שלבים (עם תמונות)
וִידֵאוֹ: האם העיניים שלך טובות? - 92% נכשלים 2024, מאי
Anonim

בסטטיסטיקה, חריג או "חריג" הוא נתון החורג רחוק מאוד מכל נתון אחר בתוך מדגם או קבוצת נתונים (מערך הנתונים נקרא נתונים). לעתים קרובות חריג במערך נתונים יכול לשמש אזהרה לסטטיסטיקאי על חריגה או שגיאה ניסיונית במדידות שנערכו, מה שעלול לגרום לסטטיסטיקאי להסיר את החורג ממערך הנתונים. אם הסטטיסטיקאי מסיר את הסרגלים מהערך הנתונים, המסקנות שהופקו מהמחקר יכולות להיות שונות מאוד. לכן חשוב מאוד לדעת כיצד לחשב ולנתח חריגים כדי להבטיח את ההבנה הנכונה של מערך נתונים סטטיסטי.

שלב

חישוב חריגים שלב 1
חישוב חריגים שלב 1

שלב 1. למד כיצד לזהות נתוני פוטנציאל חריגים

לפני שנחליט אם להסיר נתוני חריגים ממערך הנתונים או לא, כמובן שעלינו לזהות לאילו תאריכים יש פוטנציאל להפוך לחריגים. באופן כללי, חריג הוא תאריך החורג רחוק מאוד מהנתונים האחרים במערך נתונים אחד - במילים אחרות, חריג הוא "מחוץ" לתארי הנתונים האחרים. בדרך כלל קל לזהות חריגים בטבלת נתונים או (בפרט) בגרף. אם מערכת תאריכים אחת מתוארת באופן ויזואלי עם גרף, נתון החריג ייראה "רחוק מאוד" מהנתונים האחרים. אם, למשל, רוב הנתונים בקבוצת נתונים יוצרים קו ישר, לא יתפרש באופן סביר הנתונים החריגים כמי שיוצרים קו זה.

הבה נבחן קבוצה של תאריכים המייצגים את הטמפרטורות של 12 אובייקטים שונים בחדר. אם ל -11 עצמים יש טמפרטורה של כ -70 פרנהייט (21 מעלות צלזיוס), אך לחפץ ה -12, תנור, יש טמפרטורה של 300 פרנהייט (150 מעלות צלזיוס), ניתן לראות מיד כי סביר מאוד שהטמפרטורה של התנור תהיה יוצא מן הכלל

חישוב חריגים שלב 2
חישוב חריגים שלב 2

שלב 2. מסדרים את הנתונים בקבוצת נתונים מהנמוך לגבוה

השלב הראשון לחישוב חריגים במערך נתונים הוא למצוא את החציון (ערך אמצעי) של אותה נתון. משימה זו הופכת פשוטה מאוד אם הנתונים בקבוצת נתונים מסודרים מהקטן לגדול. לכן, לפני שתמשיך, סדר את הנתונים בקבוצת נתונים אחת כזו.

בואו נמשיך בדוגמה למעלה. זהו מערך הנתונים שלנו המייצג את הטמפרטורות של מספר אובייקטים בחדר: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. אם נסדר את הנתונים מהנמוך לגבוה, סדר התאריכים הופך להיות: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

חישוב חריגים שלב 3
חישוב חריגים שלב 3

שלב 3. חישוב החציון של מערך הנתונים

החציון של מערך נתונים הוא נתון שבו החצי השני של התאריך נמצא מעל לתאריך והחצי הנותר נמצא מתחתיו - בעצם, התאריך הזה הוא התאריך שנמצא ב"אמצע "של מערך הנתונים. אם מספר התאריכים במערך נתונים הוא מוזר, קל מאוד למצוא אותו - החציון הוא התאריך שיש לו אותו מספר מעליו ומתחתיו. עם זאת, אם מספר הנתונים בקבוצת הנתונים הוא שווה, מכיוון שאף נתון אחד לא נכנס באמצע, ממוצעים של 2 הנתונים בתווך כדי למצוא את החציון. יש לציין כי בעת חישוב חריגים, החציון בדרך כלל מוקצה למשתנה Q2-ni מכיוון ש- Q2 הוא בין Q1 ל- Q3, הרביעון התחתון והעליון, עליו נדון בהמשך.

  • אין להתבלבל עם קבוצת נתונים שבה מספר הנתונים הוא שווה-הממוצע של 2 הנתונים האמצעיים יחזיר לעתים מספר שאינו במערך הנתונים עצמו-זה בסדר. עם זאת, אם 2 הנתונים האמצעיים הם אותו מספר, הממוצע, כמובן, יהיה גם אותו מספר, וזה גם בסדר.
  • בדוגמה למעלה, יש לנו 12 תאריכים. 2 התאריכים האמצעיים הם התאריכים השישית והשביעית -70 ו -71 בהתאמה. לכן, החציון של קבוצת הנתונים שלנו הוא הממוצע של 2 המספרים הבאים: ((70 + 71) / 2), = 70.5.
חישוב חריגים שלב 4
חישוב חריגים שלב 4

שלב 4. חשב את הרבעון התחתון

ערך זה, אותו אנו נותנים למשתנה Q1, הוא התאריך המייצג 25 אחוזים (או רבע) מהנתונים. במילים אחרות, זהו התאריך שחוצה את הנתונים שנמצאים מתחת לחציון. אם מספר הנתונים מתחת לחציון הוא שווה, עליך שוב לבצע ממוצע של 2 הנתונים שבאמצע כדי למצוא את Q1, בדיוק כפי שהיית עושה כדי למצוא את החציון עצמו.

בדוגמה שלנו, ישנם 6 תאומים הנמצאים מעל החציון, ו -6 נתונים הנמצאים מתחת לחציון. המשמעות היא שכדי למצוא את הרבעון התחתון, נצטרך לממוצע את 2 הנתונים שבאמצע 6 הנתונים מתחת לחציון. הנתונים השלישי והרביעי מתוך 6 תאומים מתחת לחציון שניהם 70. אז הממוצע הוא ((70 + 70) / 2), = 70. 70 הופך לרבעון הראשון שלנו.

חישוב חריגים שלב 5
חישוב חריגים שלב 5

שלב 5. חשב את הרבעון העליון

ערך זה, אותו אנו נותנים למשתנה Q3, הוא התאריך שעליו יש 25 אחוזים מהנתונים במערך הנתונים. מציאת Q3 זהה למדי למציאת Q1, אלא שבמקרה זה אנו מסתכלים על הנתונים מעל החציון, לא מתחת לחציון.

בהמשך הדוגמה שלנו לעיל, 2 התאריכים באמצע 6 הנתונים מעל החציון הם 71 ו -72. הממוצע של 2 הנתונים הזה הוא ((71 + 72)/2), = 71, 5. 71, 5 הוא הרבעון השלישי שלנו.

חישוב חריגים שלב 6
חישוב חריגים שלב 6

שלב 6. מצא את המרחק בין רבעוני

כעת, לאחר שמצאנו את Q1 ו- Q3, עלינו לחשב את המרחק בין שני המשתנים הללו. המרחק מ- Q1 ל- Q3 נמצא על ידי חיסור Q1 מ- Q3. הערכים שאתה מקבל למרחקים בין רבעוניים חשובים מאוד להגדרת גבולות הנתונים הלא-חריגים במערך הנתונים שלך.

  • בדוגמה שלנו, ערכי Q1 ו- Q3 שלנו הם 70 ו- 71, 5. כדי למצוא את המרחק בין רבעון, אנו מפחיתים את Q3 - Q1 = 71.5 - 70 = 1, 5.
  • יש לציין שזה נכון גם אם Q1, Q3, או שניהם מספרים שליליים. לדוגמה, אם ערך ה- Q1 שלנו היה -70, המרחק הבין -רבעוני הנכון שלנו יהיה 71.5 -(-70) = 141, 5.
חישוב חריגים שלב 7
חישוב חריגים שלב 7

שלב 7. מצא את "הגדר הפנימית" במערך הנתונים

יוצאי דופן נמצאים על ידי בדיקה האם התאריך נופל בגבולות המספרים הנקראים "גדר פנימית" ו"גדר חיצונית ". תאריך הנופל מחוץ לגדר הפנימית של קבוצת הנתונים נקרא "חריג מינורי", בעוד שנתון הנופל מחוץ לגדר החיצונית מכונה "חריג גדול". כדי למצוא את הגדר הפנימית במערך הנתונים שלך, תחילה הכפל את המרחק הבין -רבעוני ב- 1, 5. לאחר מכן, הוסף את התוצאה ב- Q3 וגם הפחת אותה מ- Q1. שני הערכים שאתה מקבל הם גבולות הגדר הפנימיים של מערך הנתונים שלך.

  • בדוגמה שלנו, המרחק הבין רבעוני הוא (71.5 - 70), או 1.5. כפל 1.5 ב -1.5 וכתוצאה מכך 2.25 נוסיף מספר זה ל- Q3 ואנו מחסירים את Q1 במספר זה כדי למצוא את גבולות הגדר הפנימית כדלקמן:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • אז, גבולות הגדר הפנימית שלנו הם 67, 75 ו- 73, 75.
  • במערך הנתונים שלנו, רק טמפרטורת התנור, 300 פרנהייט - היא מחוץ לגבולות אלה ולכן נתון זה הוא חריג קטן. עם זאת, עדיין לא חישבנו אם הטמפרטורה הזו היא חריגה משמעותית, אז אל תקפוץ למסקנות עד שעשינו את החישובים שלנו.

    חישוב חריגים שלב 7 Bullet2
    חישוב חריגים שלב 7 Bullet2
חישוב חריגים שלב 8
חישוב חריגים שלב 8

שלב 8. מצא את "הגדר החיצונית" במערך התאריכים

זה נעשה באותו אופן כמו מציאת הגדר הפנימית, אלא שהמרחק הבין רבעוני מוכפל ב -3 במקום 1.5. התוצאה מתווספת לאחר מכן ל- Q3 ונגררת מ- Q1 כדי למצוא את הגבול העליון והתחתון של הגדר החיצונית.

  • בדוגמה שלנו, הכפלת המרחק בין רבעון ב -3 נותנת (1, 5 x 3), או 4, 5. אנו מוצאים את גבולות הגדר החיצונית באותו אופן כמו קודם:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • גבולות הגדר החיצונית הם 65.5 ו -76.
  • התאריכים הנמצאים מחוץ לגבול הגדר החיצונית מכונים חריגים מרכזיים. בדוגמה זו, טמפרטורת התנור, 300 פרנהייט, נמצאת בבירור מחוץ לגדר החיצונית, כך שתאריך זה הוא "בהחלט" חריג משמעותי.

    חישוב חריגים שלב 8 Bullet2
    חישוב חריגים שלב 8 Bullet2
חישוב חריגים שלב 9
חישוב חריגים שלב 9

שלב 9. השתמש בשיפוט איכותי כדי לקבוע אם "להשליך" את נתון החריג או לא

באמצעות השיטה שתוארה לעיל, ניתן לקבוע אם נתון הוא נתון מינורי, נתון עיקרי או לא חריג כלל. עם זאת, אל תטעו - מציאת תאריך כיחידה חריגה מסמנת את התאריך הזה רק כ"מועמד "שיש להסיר אותו ממערך הנתונים, ולא כנתון ש"צריך" להשליך. ה"סיבה "הגורמת לנתון חריג לסטות מתארי נתונים אחרים במערך נתונים חשובה מאוד בקביעה אם למחוק אותו או לא. באופן כללי, חריגה הנגרמת על ידי טעות במדידה, הקלטה או תכנון ניסיוני, למשל-יכולה להימחק. מצד שני, חריגים שאינם נגרמים כתוצאה משגיאה ואשר מצביעים על מידע או טרנדים חדשים שלא היו צפויים בעבר בדרך כלל "אינם" מושלכים.

  • קריטריון נוסף שיש לקחת בחשבון הוא האם לחריג יש השפעה רבה על ממוצע מערך הנתונים, כלומר האם החורג מבלבל אותו או גורם לו להיראות לא נכון. זה מאוד חשוב לשקול אם אתה מתכוון להסיק מסקנות מהממוצע של מערך הנתונים שלך.
  • בואו ללמוד את הדוגמא שלנו. בדוגמה זו, מכיוון שנראה בלתי סביר שהתנור הגיע ל 300 פרנהייט באמצעות כוחות טבע בלתי צפויים, אנו יכולים להסיק כמעט בוודאות שהתנור הושאר בטעות, וכתוצאה מכך נתון חריג בטמפרטורה גבוהה. כמו כן, אם לא נסיר את הסרגלים, ממוצע ערכי הנתונים שלנו הוא (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 פרנהייט (32 מעלות צלזיוס), בעוד שהממוצע אם נסיר את החריגים הוא (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 פרנהייט (21 מעלות צלזיוס).

    מכיוון שהחריגים האלה נגרמו מטעות אנוש ומכיוון שלא יהיה נכון לומר שטמפרטורת החדר הממוצעת מגיעה לכמעט 90 פרנהייט (32 מעלות צלזיוס), מוטב שנבחר "לזרוק" את החריגים שלנו

חישוב חריגים שלב 10
חישוב חריגים שלב 10

שלב 10. דע את החשיבות (לפעמים) של שמירה על חריגים

למרות שיש להסיר כמה חריגים ממערך הנתונים מכיוון שהם גורמים לשגיאות ו/או גורמים לתוצאות להיות לא מדויקות או שגויות, יש לשמור על כמה חריגים. אם נראה כי חריג נרכש באופן טבעי (כלומר לא תוצאה של טעות) ו/או מספק נקודת מבט חדשה על התופעה הנחקרת, אין להסיר את החריג ממערך הנתונים. מחקר מדעי הוא בדרך כלל מצב רגיש מאוד בכל הנוגע לכמות חריגה - הסרה לא נכונה של חריגים יכולה להיות השלכת מידע המצביע על מגמה או גילוי חדש.

לדוגמה, נניח שאנחנו מתכננים תרופה חדשה להגדלת גודל הדגים בבריכת דגים. נשתמש במערך הנתונים הישן שלנו ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), אלא שהפעם כל נתון ייצג את משקלו של דג (בגרמים) לאחר שניתנה לי תרופה ניסיונית אחרת מלידה. במילים אחרות, התרופה הראשונה גורמת לדג אחד לשקול 71 גרם, התרופה השנייה גורמת לדג אחר לשקול 70 גרם וכן הלאה. במקרה זה, 300 הוא "עדיין" חריג גדול, אך אסור לנו לזרוק את התאריך הזה מכיוון שהנחה שהוא התקבל ללא טעות, הוא מייצג הצלחה במחקר. התרופה שיכולה לגרום לדגים לשקול 300 גרם עובדת טוב יותר מכל התרופות האחרות, כך שהתאריך הזה הוא למעשה "החשוב ביותר" במערך הנתונים שלנו, לא ה"פחות חשוב"

מוּמלָץ: