Com detectar valors atípics: 10 passos (amb imatges)

Taula de continguts:

Com detectar valors atípics: 10 passos (amb imatges)
Com detectar valors atípics: 10 passos (amb imatges)

Vídeo: Com detectar valors atípics: 10 passos (amb imatges)

Vídeo: Com detectar valors atípics: 10 passos (amb imatges)
Vídeo: CONVERTÍ un PC de la basura de 5 € en algo GENIAL 😲 2024, Maig
Anonim

En estadístiques, un valor atípic o "atípic" és una dada que es desvia molt lluny de qualsevol altra dada dins d'una mostra o conjunt de dades (el conjunt de dades s'anomena dades). Sovint, un valor atípic d’un conjunt de dades pot servir d’avís a l’estadístic sobre una anomalia o error experimental en les mesures realitzades, cosa que podria portar l’estadístic a eliminar el valor atípic del conjunt de dades. Si l'estadístic elimina els valors atípics del conjunt de dades, les conclusions extretes de l'estudi poden ser molt diferents. Per tant, saber calcular i analitzar valors atípics és molt important per garantir la comprensió correcta d’un conjunt de dades estadístiques.

Pas

Calculeu els valors atípics Pas 1
Calculeu els valors atípics Pas 1

Pas 1. Obteniu informació sobre com identificar dades de referència potencialment anormals

Abans de decidir si volem eliminar o no les dades de referència del conjunt de dades, és clar que hem d’identificar quines són les dades que poden convertir-se en valors atípics. En general, un valor atípic és un referent que es desvia molt lluny dels altres datums d’un conjunt de dades, és a dir, un valor atípic està “fora” dels altres datums. Normalment és fàcil detectar valors atípics en una taula de dades o (en particular) en un gràfic. Si es descriu visualment un conjunt de dades amb un gràfic, la dada anormal apareixerà "molt lluny" de la resta de dades. Si, per exemple, la majoria de les referències d’un conjunt de dades formen una línia recta, no es interpretarà raonablement la dada atípica que forma aquesta línia.

Vegem un conjunt de referents que representen la temperatura de 12 objectes diferents en una habitació. Si 11 objectes tenen una temperatura d’uns 70 graus centígrads, però el 12è objecte, un forn, té una temperatura de 300 graus centígrads, es pot veure immediatament que la temperatura del forn és molt probable que sigui un valor atípic

Calculeu els valors atípics Pas 2
Calculeu els valors atípics Pas 2

Pas 2. Organitzeu les dades en un conjunt de dades de menor a major

El primer pas per calcular valors atípics en un conjunt de dades és trobar la mediana (valor mitjà) d’aquest conjunt de dades. Aquesta tasca es fa molt senzilla si els datums d’un conjunt de datums s’ordenen des del més petit fins al més gran. Per tant, abans de continuar, organitzeu les dades en un conjunt d’aquestes dades.

Continuem amb l'exemple anterior. Aquest és el nostre conjunt de dades que representen la temperatura de diversos objectes d'una habitació: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si organitzem les dades de menor a major, l’ordre de les dades es converteix en: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Calculeu els valors atípics Pas 3
Calculeu els valors atípics Pas 3

Pas 3. Calculeu la mediana del conjunt de dades

La mediana d’un conjunt de dades és una dada en què l’altra meitat de la dada està per sobre d’aquesta i la meitat restant es troba per sota d’ella, bàsicament, aquesta dada és la dada que es troba al “mig” del conjunt de dades. Si el nombre de dades d’un conjunt de dades és imparell, és molt fàcil de trobar; la mediana és la dada que té el mateix nombre per sobre i per sota. Tanmateix, si el nombre de dades del conjunt de dades és parell, donat que, com que no hi ha cap dada, hi ha una mitjana per trobar la mediana. Cal tenir en compte que, quan es calculen valors atípics, a la mediana se li sol assignar la variable Q2-ni perquè Q2 es troba entre Q1 i Q3, el quartil inferior i superior, que parlarem més endavant.

  • No s’ha de confondre amb un conjunt de dades en què el nombre de dades és parell (la mitjana de les dues dades centrals sovint retornarà un nombre que no es troba en el mateix conjunt de dades), està bé. Tanmateix, si els dos referents centrals són el mateix nombre, la mitjana, per descomptat, també serà la mateixa, cosa que també està bé.
  • A l'exemple anterior, tenim 12 dades. Els 2 datums mitjans són el 6è i el 7è datums-70 i 71 respectivament. Per tant, la mediana del nostre conjunt de dades és la mitjana d’aquests 2 números: ((70 + 71) / 2), = 70.5.
Calculeu els valors atípics Pas 4
Calculeu els valors atípics Pas 4

Pas 4. Calculeu el quartil inferior

Aquest valor, que donem a la variable Q1, és la dada que representa el 25% (o una quarta part) de les dades. En altres paraules, és la dada que divideix en dues parts les dades que estan per sota de la mediana. Si el nombre de dades per sota de la mediana és parell, heu de tornar a fer una mitjana de les dues dades al centre per trobar Q1, tal com ho faria per trobar la mediana mateixa.

En el nostre exemple, hi ha 6 dades que es troben per sobre de la mediana i 6 dades que es troben per sota de la mediana. Això vol dir que, per trobar el quartil inferior, haurem de promediar els 2 datums al mig dels 6 datums inferiors a la mediana. El 3r i el 4t datum de 6 datums per sota de la mediana són tots dos 70. Per tant, la mitjana és ((70 + 70) / 2), = 70. 70 es converteix en el nostre primer trimestre.

Calculeu els valors atípics Pas 5
Calculeu els valors atípics Pas 5

Pas 5. Calculeu el quartil superior

Aquest valor, que donem a la variable Q3, és la dada sobre la qual hi ha el 25 per cent de les dades en el conjunt de dades. Trobar Q3 és gairebé el mateix que trobar Q1, excepte que, en aquest cas, estem veient les dades per sobre de la mediana i no per sota de la mediana.

Seguint el nostre exemple anterior, els 2 datums situats al mig dels 6 datums situats per sobre de la mediana són 71 i 72. La mitjana d’aquests 2 datums és ((71 + 72) / 2), = 71, 5. 71, 5 és la nostra Q3.

Calculeu els valors atípics Pas 6
Calculeu els valors atípics Pas 6

Pas 6. Cerqueu la distància interquartil

Ara que hem trobat Q1 i Q3, hem de calcular la distància entre aquestes dues variables. La distància de Q1 a Q3 es troba restant Q1 de Q3. Els valors que obtingueu per a les distàncies intercuartils són molt importants per definir els límits de dades de dades que no són atípiques al vostre conjunt de dades.

  • En el nostre exemple, els nostres valors de Q1 i Q3 són 70 i 71, 5. Per trobar la distància interquartil, restem Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Cal tenir en compte que això també és cert fins i tot si Q1, Q3 o tots dos són nombres negatius. Per exemple, si el nostre valor Q1 fos -70, la nostra distància intercuartil correcta seria de 71,5 - (-70) = 141, 5.
Calculeu els valors atípics Pas 7
Calculeu els valors atípics Pas 7

Pas 7. Cerqueu la "tanca interior" al conjunt de dades

Els valors atípics es troben comprovant si la dada es troba dins dels límits numèrics anomenats "tanca interior" i "tanca externa". Una dada que cau fora de la tanca interna del conjunt de dades es denomina "atípic menor", mentre que una dada que cau fora de la tanca exterior es denomina "atípica major". Per trobar la tanca interior al vostre conjunt de dades, primer multipliqueu la distància interquartil per 1, 5. Després, afegiu el resultat per Q3 i també resteu-lo de Q1. Els dos valors que obteniu són els límits interns de la tanca del vostre conjunt de dades.

  • En el nostre exemple, la distància intercuartil és (71,5 - 70), o 1,5. Multipliqueu 1,5 per 1,5, donant com a resultat 2,25. Afegim aquest número a Q3 i restem Q1 per aquest número per trobar els límits de la tanca interior de la manera següent:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Per tant, els límits de la nostra tanca interior són 67, 75 i 73, 75.
  • En el nostre conjunt de dades, només la temperatura del forn, 300 Fahrenheit, està fora d’aquests límits, de manera que aquesta dada és un valor atípic menor. Tot i això, encara no hem calculat si aquesta temperatura és un valor atípic important, així que no passeu a conclusions fins que no hàgim fet els nostres càlculs.

    Calculeu els valors atípics Pas 7 Bullet2
    Calculeu els valors atípics Pas 7 Bullet2
Calculeu els valors atípics Pas 8
Calculeu els valors atípics Pas 8

Pas 8. Cerqueu la "tanca exterior" al conjunt de dades

Això es fa de la mateixa manera que es troba la tanca interior, excepte que la distància intercuartil es multiplica per 3 en lloc d’1,5. El resultat s’afegeix a Q3 i es resta de Q1 per trobar els límits superior i inferior de la tanca exterior.

  • En el nostre exemple, multiplicar la distància interquartil per 3 dóna (1, 5 x 3), o 4, 5. Trobem els límits de la tanca exterior de la mateixa manera que abans:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Els límits de la tanca exterior són 65,5 i 76.
  • Els referents que es troben fora del límit de la tanca exterior es denominen valors atípics principals. En aquest exemple, la temperatura del forn, 300 Fahrenheit, està clarament fora de la tanca exterior, de manera que aquesta dada és "definitivament" un valor atípic important.

    Calculeu els valors atípics Pas 8 Bullet2
    Calculeu els valors atípics Pas 8 Bullet2
Calculeu els valors atípics Pas 9
Calculeu els valors atípics Pas 9

Pas 9. Utilitzeu el judici qualitatiu per determinar si voleu “descartar” la dada atípica o no

Utilitzant el mètode descrit anteriorment, es pot determinar si una dada és una dada menor, una dada principal o no en absolut. Tanmateix, no us equivoqueu: trobar una dada com a valor atípic només marca aquesta dada com a "candidat" a eliminar del conjunt de dades, no com una dada que "s'hauria de" descartar. La "raó" que fa que una dada anormal es desviï d'altres dades d'un conjunt de dades és molt important per determinar si la descartem o no. En general, es pot descartar un valor atípic causat per un error de mesura, enregistrament o planificació experimental, per exemple. D'altra banda, els valors atípics que no són causats per errors i que indiquen informació nova o tendències que no es preveien prèviament no solen descartar-se.

  • Un altre criteri a tenir en compte és si el valor atípic té un gran efecte sobre la mitjana d’un conjunt de dades, és a dir, si el valor atípic el confon o el fa semblar incorrecte. Això és molt important a tenir en compte si voleu treure conclusions de la mitjana del vostre conjunt de dades.
  • Estudiem el nostre exemple. En aquest exemple, atès que sembla "altament" improbable que el forn arribés a 300 Fahrenheit a través de forces naturals imprevisibles, podem concloure amb gairebé la certesa que el forn es va deixar encès accidentalment, cosa que va provocar una anomalia de dades d'alta temperatura. A més, si no eliminem els valors atípics, la nostra mitjana de conjunt de dades és (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 Fahrenheit (32 graus Celsius)), mentre que la mitjana si eliminem els valors atípics és (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 Fahrenheit (21 graus centígrads).

    Com que aquests valors atípics van ser causats per errors humans i perquè seria incorrecte dir que la temperatura mitjana de l'habitació arriba a 32 graus centígrads (32 graus Celsius), és millor optar per "llençar" els nostres valors atípics

Calculeu els valors atípics Pas 10
Calculeu els valors atípics Pas 10

Pas 10. Conegueu la importància (de vegades) de mantenir valors atípics

Tot i que s’han d’eliminar alguns valors atípics del conjunt de dades perquè provoquen errors i / o fan que els resultats siguin inexactes o erronis, cal mantenir alguns valors atípics. Si, per exemple, un valor atípic sembla adquirir-se de manera natural (és a dir, no és el resultat d’un error) i / o proporciona una nova perspectiva sobre el fenomen objecte d’estudi, no s’hauria d’eliminar el valor atípic del conjunt de dades. La investigació científica sol ser una situació molt sensible pel que fa als valors atípics: eliminar incorrectament els valors atípics pot significar descartar informació que indiqui una nova tendència o descobriment.

Per exemple, suposem que estem dissenyant un medicament nou per augmentar la mida dels peixos en un estany. Utilitzarem el nostre antic conjunt de dades ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), tret que, aquesta vegada, cada dada representarà el pes d’un peix (en grams) després de rebre un medicament experimental diferent des del naixement. En altres paraules, el primer fàrmac fa que un peix pesa 71 grams, el segon faci que un altre peix pesa 70 grams, etc. En aquest cas, 300 és "encara" un gran valor atípic, però no hem de descartar aquesta dada perquè, suposant que no s'ha obtingut cap error, representa un èxit en l'estudi. El medicament que pot fer que els peixos pesin 300 grams funciona millor que tots els altres medicaments, de manera que aquesta dada és en realitat la "més" important del nostre conjunt de dades, i no la "menys important"

Recomanat: