Kako otkriti isticanje: 10 koraka (sa slikama)

Sadržaj:

Kako otkriti isticanje: 10 koraka (sa slikama)
Kako otkriti isticanje: 10 koraka (sa slikama)

Video: Kako otkriti isticanje: 10 koraka (sa slikama)

Video: Kako otkriti isticanje: 10 koraka (sa slikama)
Video: Топ 5 ошибок во ФРИРАЙДЕ на сноуборде / лыжах 2024, Svibanj
Anonim

U statistici, outlier ili "outlier" je podatak koji jako odstupa od bilo kojeg drugog podatka unutar uzorka ili skupa datuma (skup datuma naziva se podacima). Često, isticanje u skupu datuma može poslužiti kao upozorenje statističaru na abnormalnost ili eksperimentalnu pogrešku u provedenim mjerenjima, što bi moglo dovesti do toga da statističar ukloni izdvojenost iz skupa podataka. Ako statističar ukloni ispadanje iz skupa podataka, zaključci izvedeni iz studije mogu biti vrlo različiti. Stoga je poznavanje načina izračunavanja i analize odstupanja vrlo važno kako bi se osiguralo ispravno razumijevanje statističkog skupa podataka.

Korak

Izračunajte odstupanja Korak 1
Izračunajte odstupanja Korak 1

Korak 1. Saznajte kako prepoznati potencijalno izvanredne datume

Prije nego što odlučimo hoćemo li ukloniti izvanredne datume iz skupa datuma ili ne, naravno moramo identificirati koji datumi imaju potencijal postati izvanredni. Općenito, outlier je podatak koji jako odstupa od ostalih datuma u jednom skupu datuma - drugim riječima, outlier je "izvan" drugih datuma. Obično je lako otkriti odstupanja u tablici podataka ili (osobito) grafikonu. Ako je jedan skup datuma vizualno opisan grafikonom, vanjski datum će se činiti "vrlo udaljenim" od ostalih datuma. Na primjer, ako većina datuma u skupu datuma tvori ravnu liniju, vanjski datum neće se razumno tumačiti kao da tvori tu liniju.

Pogledajmo skup datuma koji predstavljaju temperature 12 različitih objekata u prostoriji. Ako 11 objekata ima temperaturu od oko 70 Fahrenheita (21 stupanj Celzijusa), ali 12. objekt, pećnica, ima temperaturu od 300 Fahrenheita (150 stupnjeva Celzijusa), odmah se može vidjeti da će temperatura pećnice vrlo vjerojatno biti vanjski faktor

Izračunajte odstupanja Korak 2
Izračunajte odstupanja Korak 2

Korak 2. Rasporedite datume u skup datuma od najniže do najviše

Prvi korak za izračunavanje izvanrednih vrijednosti u skupu datuma je pronaći medijanu (srednju vrijednost) tog skupa podataka. Ovaj zadatak postaje vrlo jednostavan ako su datumi u skupu datuma poredani od najmanjeg do najvećeg. Dakle, prije nego nastavite, postavite datume u jedan takav skup podataka.

Nastavimo gornji primjer. Ovo je naš skup datuma koji predstavljaju temperature nekoliko objekata u prostoriji: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ako datume postavimo od najniže do najviše, redoslijed datuma postaje: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Izračunajte odstupanja Korak 3
Izračunajte odstupanja Korak 3

Korak 3. Izračunajte medijanu skupa podataka

Medijan skupa datuma je podatak u kojem je druga polovica datuma iznad tog datuma, a preostala polovica ispod njega - u osnovi, taj datum je podatak koji je u "sredini" skupa podataka. Ako je broj datuma u skupu datuma neparan, vrlo ga je lako pronaći - medijan je datum koji ima isti broj iznad i ispod njega. Međutim, ako je broj datuma u skupu datuma paran, tada, jer se niti jedan podatak ne uklapa u sredinu, 2 točke u sredini se prosječno izračunavaju kako bi se našla medijana. Treba napomenuti da se pri izračunavanju izvanrednih vrijednosti medijani obično dodjeljuje varijabla Q2-ni jer je Q2 između Q1 i Q3, donjeg i gornjeg kvartila, o čemu ćemo kasnije govoriti.

  • Ne treba se miješati sa skupom datuma gdje je broj datuma paran-prosjek od 2 srednje točke često će vratiti broj koji nije u samom skupu datuma-to je u redu. Međutim, ako su 2 srednja datuma isti broj, prosjek će, naravno, također biti isti broj, što je također u redu.
  • U gornjem primjeru imamo 12 datuma. Dva srednja datuma su 6. i 7. datum-70 odnosno 71. Dakle, medijana našeg skupa datuma je prosjek ova 2 broja: ((70 + 71) / 2), = 70.5.
Izračunajte odstupanja Korak 4
Izračunajte odstupanja Korak 4

Korak 4. Izračunajte donji kvartil

Ova vrijednost, kojoj dajemo varijablu Q1, datum je koji predstavlja 25 posto (ili četvrtinu) datuma. Drugim riječima, datum je ta koji pola dijeli datume koji su ispod medijane. Ako je broj datuma ispod medijane paran, morate ponovno prosječiti 2 točke u sredini da biste pronašli Q1, baš kao što biste pronašli i medijanu.

U našem primjeru postoji 6 datuma koji leže iznad medijane i 6 datuma koji leže ispod medijane. To znači da ćemo za pronalaženje donjeg kvartila morati prosječiti 2 datuma na sredini 6 datuma ispod medijane. Treći i četvrti datum od 6 datuma ispod medijane su 70. Dakle, prosjek je ((70 + 70) / 2), = 70. 70 postaje naš Q1.

Izračunajte odstupanja Korak 5
Izračunajte odstupanja Korak 5

Korak 5. Izračunajte gornji kvartil

Ova vrijednost, koju dajemo varijabli Q3, datum je na kojem se nalazi 25 posto datuma u skupu datuma. Pronalaženje Q3 prilično je isto kao i pronalaženje Q1, samo što u ovom slučaju gledamo datume iznad medijane, a ne ispod medijane.

Nastavljajući gornji primjer, 2 točke u sredini 6 točaka iznad medijane su 71 i 72. Prosjek ove 2 točke je ((71 + 72)/2), = 71, 5. 71, 5 je naš Q3.

Izračunajte odstupanja Korak 6
Izračunajte odstupanja Korak 6

Korak 6. Pronađite međukvartilnu udaljenost

Sada kada smo pronašli Q1 i Q3, moramo izračunati udaljenost između ove dvije varijable. Udaljenost od Q1 do Q3 nalazi se oduzimanjem Q1 od Q3. Vrijednosti koje dobivate za međukvartilne udaljenosti vrlo su važne za definiranje granica ne-vanjskih datuma u vašem skupu datuma.

  • U našem primjeru naše vrijednosti Q1 i Q3 su 70 i 71, 5. Da bismo pronašli međukvartilnu udaljenost, oduzimamo Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Valja napomenuti da je to također točno čak i ako su Q1, Q3 ili oboje negativni brojevi. Na primjer, ako je naša vrijednost Q1 -70, naša ispravna međukvartilna udaljenost bila bi 71,5 -(-70) = 141, 5.
Izračunajte odstupanja Korak 7
Izračunajte odstupanja Korak 7

Korak 7. Pronađite "unutarnju ogradu" u skupu datuma

Odstupanja se utvrđuju provjerom spada li podatak unutar granica broja koji se nazivaju "unutarnja ograda" i "vanjska ograda". Referentna točka koja pada izvan unutarnje ograde skupa datuma naziva se "manji vanjski podatak", dok se podatak koji pada izvan vanjske ograde naziva "velika izdvojenost". Da biste pronašli unutarnju ogradu u svom skupu podataka, najprije pomnožite međukvartilnu udaljenost s 1, 5. Zatim dodajte rezultat za Q3 i također ga oduzmite od Q1. Dvije vrijednosti koje dobivate su unutarnje granice ograde vašeg skupa podataka.

  • U našem primjeru, međukvartilna udaljenost je (71,5 - 70) ili 1,5. Pomnožite 1,5 s 1,5 što rezultira s 2,25. Taj broj dodajemo u Q3 i oduzimamo Q1 po tom broju kako bismo pronašli granice unutarnje ograde na sljedeći način:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Dakle, granice naše unutarnje ograde su 67, 75 i 73, 75.
  • U našem skupu podataka samo je temperatura pećnice, 300 Fahrenheita - izvan ovih granica pa je ovaj podatak manji odstupanje. Međutim, još uvijek nismo izračunali je li ova temperatura veliki odstupnik, stoga nemojte žuriti sa zaključcima dok ne izvršimo naše izračune.

    Izračunajte odstupanja Korak 7Bullet2
    Izračunajte odstupanja Korak 7Bullet2
Izračunajte odstupanja Korak 8
Izračunajte odstupanja Korak 8

Korak 8. Pronađite "vanjsku ogradu" u skupu datuma

To se radi na isti način kao i pronalaženje unutarnje ograde, samo što se međukvartilna udaljenost množi s 3 umjesto s 1,5. Rezultat se tada dodaje u Q3 i oduzima od Q1 kako bi se pronašle gornje i donje granice vanjske ograde.

  • U našem primjeru množenjem međukvartilne udaljenosti s 3 dobivamo (1, 5 x 3) ili 4, 5. Granice vanjske ograde nalazimo na isti način kao i prije:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Granice vanjske ograde su 65,5 i 76.
  • Datumi koji leže izvan granica vanjske ograde nazivaju se veliki odstupnici. U ovom primjeru, temperatura pećnice, 300 Fahrenheita, očito je izvan vanjske ograde, pa je ovaj podatak "definitivno" veliki odstupanje.

    Izračunajte odstupanja Korak 8Bullet2
    Izračunajte odstupanja Korak 8Bullet2
Izračunajte odstupanja Korak 9
Izračunajte odstupanja Korak 9

Korak 9. Pomoću kvalitativne prosudbe utvrdite hoćete li „odbaciti“vanjski datum ili ne

Korištenjem gore opisane metode, može se utvrditi je li podatak manji podatak, glavni podatak ili uopće nije izdvojen. Međutim, nemojte pogriješiti - pronalaženje datuma kao izdvojenog mjesta samo označava taj datum kao „kandidata” za uklanjanje iz skupa datuma, a ne kao datum koji „treba” odbaciti. "Razlog" koji uzrokuje odstupanje izvanrednog datuma od drugih datuma u skupu datuma vrlo je važan u određivanju treba li ga odbaciti ili ne. Općenito, odstupanje uzrokovano pogreškom u mjerenju, snimanju ili eksperimentalnom planiranju, na primjer-može se odbaciti. S druge strane, odstupanja koja nisu uzrokovana pogreškom i koja ukazuju na nove informacije ili trendove koji nisu prethodno predviđeni obično se "ne" odbacuju.

  • Drugi kriterij koji treba razmotriti je ima li outlier veliki utjecaj na srednju vrijednost datumske grupe, tj. Zbunjuje li ga outlier ili čini da izgleda pogrešno. Ovo je vrlo važno uzeti u obzir ako namjeravate izvući zaključke iz prosjeka vašeg skupa podataka.
  • Proučimo naš primjer. U ovom primjeru, budući da se čini "vrlo" nevjerojatnim da je pećnica dosegla 300 Fahrenheita zahvaljujući nepredvidivim prirodnim silama, možemo sa gotovo sigurnošću zaključiti da je pećnica slučajno ostavljena uključena, što je rezultiralo abnormalnošću visoke temperature. Također, ako ne uklonimo isticanje, naša zadana srednja vrijednost je (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheita (32 stupnja Celzijusa), dok je prosjek ako uklonimo izvanredne vrijednosti (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheita (21 stupanj Celzijusa).

    Budući da su ti ispadi uzrokovani ljudskom pogreškom i zato što bi bilo netočno reći da prosječna sobna temperatura doseže gotovo 90 Fahrenheita (32 stupnja Celzijusa), bolje je da odaberemo "bacanje" naših vanjskih vrijednosti

Izračunajte odstupanja Korak 10
Izračunajte odstupanja Korak 10

Korak 10. Spoznajte važnost (ponekad) održavanja izvanrednih vrijednosti

Iako bi neke odstupanja trebalo ukloniti iz skupa datuma jer uzrokuju pogreške i/ili čine rezultate netočnim ili pogrešnim, neke izdvojenosti treba zadržati. Ako se, na primjer, čini da je izdvajanje prirodno stečeno (to jest nije rezultat pogreške) i/ili daje novu perspektivu na fenomen koji se proučava, izdvajanje se ne smije ukloniti iz skupa datuma. Znanstvena istraživanja obično su vrlo osjetljiva situacija kada su u pitanju outlieri - pogrešno uklanjanje outliera može značiti odbacivanje informacija koje ukazuju na novi trend ili otkriće.

Na primjer, recimo da osmišljavamo novi lijek za povećanje veličine ribe u ribnjaku. Koristit ćemo naš stari skup datuma ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), osim što će ovaj put svaki podatak predstavljati težinu ribe (u gramima) nakon što je od rođenja dobio drugačiji eksperimentalni lijek. Drugim riječima, prvi lijek uzrokuje težinu jedne ribe 71 gram, drugi lijek drugu 70 kilograma itd. U ovom slučaju, 300 je "još uvijek" veliki ispad, ali ne bismo trebali odbaciti ovaj podatak jer, pod pretpostavkom da je dobiven bez greške, predstavlja uspjeh u istraživanju. Lijek koji može natjerati ribu da teži 300 grama djeluje bolje od svih drugih lijekova, pa je ovaj podatak zapravo "najvažniji" u našem skupu podataka, a ne "najmanje važan"

Preporučeni: