Paano makalkula ang mga emissions

May -Akda: Janice Evans
Petsa Ng Paglikha: 23 Hulyo 2021
I -Update Ang Petsa: 1 Hulyo 2024
Anonim
WARNING LIGHTS SA INYONG DASHBOARD - BASIC INDICATOR AND MEANINGS
Video.: WARNING LIGHTS SA INYONG DASHBOARD - BASIC INDICATOR AND MEANINGS

Nilalaman

Sa mga istatistika, ang mga outlier ay mga halagang magkakaiba ang pagkakaiba sa iba pang mga halaga sa nakolektang dataset. Ang isang outlier ay maaaring magpahiwatig ng mga anomalya sa pamamahagi ng data o mga error sa pagsukat, kaya't ang mga outlier ay madalas na ibinukod mula sa dataset. Sa pamamagitan ng pag-aalis ng mga outlier mula sa dataset, maaari kang magkaroon ng hindi inaasahang o mas tumpak na konklusyon. Samakatuwid, kinakailangan upang makalkula at matantya ang mga outliers upang matiyak ang wastong pag-unawa sa mga istatistika.

Mga hakbang

  1. 1 Alamin na makilala ang mga potensyal na outlier. Ang mga potensyal na outlier ay dapat kilalanin bago ibukod ang mga outliers mula sa dataset. Ang mga tagalabas ay mga halagang ibang-iba sa karamihan ng mga halaga sa dataset; sa madaling salita, ang mga labas ay wala sa kalakaran ng karamihan sa mga halaga. Madali itong hanapin sa mga talahanayan ng mga halaga o (lalo na) sa mga graph. Kung ang mga halaga sa dataset ay naka-plot, ang mga outliers ay magsisinungaling malayo sa karamihan sa iba pang mga halaga. Kung, halimbawa, ang karamihan sa mga halaga ay nahuhulog sa isang tuwid na linya, kung gayon ang mga tagalabas ay namamalagi sa magkabilang panig ng tulad ng isang tuwid na linya.
    • Halimbawa, isaalang-alang ang isang dataset na kumakatawan sa mga temperatura ng 12 magkakaibang mga bagay sa isang silid. Kung ang 11 na bagay ay humigit-kumulang na 70 degree, ngunit ang ikalabindalawang bagay (maaaring isang pugon) ay 300 degree, kung gayon ang mabilis na pagtingin sa mga halaga ay maaaring ipahiwatig na ang pugon ay malamang na blowout.
  2. 2 Pagbukud-bukurin ang data sa pataas na pagkakasunud-sunod. Ang unang hakbang sa pagtukoy ng mga outliers ay upang makalkula ang median ng dataset. Ang gawain na ito ay lubos na pinadali kung ang mga halaga sa dataset ay nakaayos sa pataas na pagkakasunud-sunod (mula sa pinakamaliit hanggang sa pinakamalaki).
    • Pagpapatuloy sa halimbawa sa itaas, isaalang-alang ang sumusunod na dataset na kumakatawan sa temperatura ng maraming bagay: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ang hanay na ito ay dapat na orderin tulad ng sumusunod: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Kalkulahin ang median ng dataset. Ang panggitna ng isang dataset ay ang halaga sa gitna ng dataset. Kung ang dataset ay naglalaman ng isang kakaibang bilang ng mga halaga, ang panggitna ay ang halaga bago at pagkatapos nito ay may parehong bilang ng mga halaga sa dataset. Ngunit kung ang dataset ay naglalaman ng pantay na bilang ng mga halaga, kailangan mong hanapin ang ibig sabihin ng arithmetic ng dalawang paraan. Tandaan na kapag kinakalkula ang mga outlier, ang panggitna ay karaniwang tinutukoy bilang Q2, dahil ito ay namamalagi sa pagitan ng Q1 at Q3, ang mas mababa at itaas na mga quartile, na tutukuyin namin sa paglaon.
    • Huwag matakot na magtrabaho kasama ang mga dataset na may pantay na bilang ng mga halaga - ang ibig sabihin ng arithmetic ng dalawang paraan ay magiging isang numero na wala sa dataset; normal lang ito Ngunit kung ang dalawang ibig sabihin ay nagkakahalaga ng parehong numero, kung gayon ang ibig sabihin ng arithmetic ay katumbas ng bilang na ito; nasa ayos din ito ng mga bagay.
    • Sa halimbawa sa itaas, ang mga halagang nasa gitnang 2 ay 70 at 71, kaya ang panggitna ay ((70 + 71) / 2) = 70.5.
  4. 4 Kalkulahin ang ilalim na quartile. Ang halagang ito, tinukoy bilang Q1, ay nasa ibaba kung saan ang 25% ng mga halaga ng itinakdang data ay namamalagi. Sa madaling salita, kalahati ito ng mga halaga hanggang sa panggitna. Kung mayroong isang pantay na bilang ng mga halaga mula sa dataset bago ang panggitna, kailangan mong hanapin ang ibig sabihin ng arithmetic ng dalawang paraan upang makalkula ang Q1 (ito ay katulad ng pagkalkula ng median).
    • Sa aming halimbawa, 6 na halaga ang matatagpuan pagkatapos ng panggitna at 6 na halaga - bago ito. Nangangahulugan ito na upang makalkula ang mas mababang quartile, kailangan nating hanapin ang ibig sabihin ng arithmetic ng dalawang paraan ng anim na halagang nasa harap ng panggitna. Dito ang average na mga halaga ay 70 at 70. Kaya, Q1 = ((70 + 70) / 2) = 70.
  5. 5 Kalkulahin ang itaas na quartile. Ang halagang ito, tinukoy bilang Q3, ay nasa itaas kung saan ang 25% ng mga halaga ng itinakdang data ay namamalagi. Ang proseso para sa pagkalkula ng Q3 ay katulad ng proseso para sa pagkalkula ng Q1, ngunit narito ang mga halaga pagkatapos ng median ay isinasaalang-alang.
    • Sa halimbawa sa itaas, ang dalawang average ng anim pagkatapos ng median ay 71 at 72. Kaya Q3 = ((71 + 72) / 2) = 71.5.
  6. 6 Kalkulahin ang saklaw ng interquartile. Ang pagkakaroon ng kinakalkula na Q1 at Q3, kinakailangan upang hanapin ang distansya sa pagitan ng mga halagang ito. Upang magawa ito, ibawas ang Q1 mula sa Q3. Ang halaga ng saklaw ng interquartile ay lubhang mahalaga para sa pagtukoy ng mga hangganan ng mga halagang hindi outliers.
    • Sa aming halimbawa, Q1 = 70 at Q3 = 71.5. Ang saklaw ng interquartile ay 71.5 - 70 = 1.5.
    • Tandaan na nalalapat din ito sa mga negatibong halagang Q1 at Q3. Halimbawa, kung Q1 = -70, pagkatapos ang saklaw ng interquartile ay 71.5 - (-70) = 141.5.
  7. 7 Hanapin ang "panloob na mga hangganan" ng mga halaga sa dataset. Ang mga tagalabas ay natutukoy sa pamamagitan ng pag-aaral ng mga halaga - kung mahulog man sila o hindi sa loob ng tinaguriang "panloob na mga hangganan" at "mga panlabas na hangganan". Ang isang halaga sa labas ng "panloob na mga hangganan" ay inuri bilang isang "menor de edad outlier", habang ang isang halaga sa labas ng "panlabas na hangganan" ay inuri bilang isang "makabuluhang outlier". Upang mahanap ang panloob na mga hangganan, kailangan mong i-multiply ang interquartile range ng 1.5; ang resulta ay dapat idagdag sa Q3 at ibawas mula sa Q1. Ang natagpuang dalawang numero ay ang panloob na mga hangganan ng dataset.
    • Sa aming halimbawa, ang saklaw ng interquartile ay (71.5 - 70) = 1.5. Dagdag dito: 1.5 * 1.5 = 2.25. Ang bilang na ito ay dapat idagdag sa Q3 at ibawas mula sa Q1 upang makita ang mga panloob na hangganan:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Kaya, ang panloob na mga hangganan ay 67.75 at 73.75.
    • Sa aming halimbawa, ang temperatura lamang ng pugon - 300 degree - namamalagi sa labas ng mga limitasyong ito at maaaring maituring na isang hindi gaanong mahalaga na paglabas. Ngunit huwag tumalon sa mga konklusyon - kailangan nating matukoy kung ang temperatura na ito ay isang makabuluhang outlier.
  8. 8 Hanapin ang "panlabas na hangganan" ng dataset. Ginagawa ito sa parehong paraan tulad ng para sa panloob na mga hangganan, maliban na ang saklaw na interquartile ay pinarami ng 3 sa halip na 1.5. Ang resulta ay dapat idagdag sa Q3 at ibawas mula sa Q1. Ang natagpuang dalawang numero ay ang panlabas na mga hangganan ng dataset.
    • Sa aming halimbawa, i-multiply ang saklaw ng interquartile ng 3: 1.5 * 3 = 4.5. Kalkulahin ang panlabas na hangganan:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Kaya ang mga panlabas na hangganan ay 65.5 at 76.
    • Ang anumang mga halagang nahuhulog sa labas ng panlabas na mga hangganan ay itinuturing na makabuluhang emissions. Sa aming halimbawa, ang temperatura ng pugon na 300 degree ay itinuturing na isang makabuluhang blowout.
  9. 9 Gumamit ng isang husay na pagtantiya upang matukoy kung ang mga outliers ay dapat na maibukod mula sa dataset. Ang pamamaraan na inilarawan sa itaas ay nagbibigay-daan sa iyo upang matukoy kung ang ilang mga halaga ay mas malayo (menor de edad o makabuluhan). Gayunpaman, huwag kang magkamali - ang isang halagang nauuri bilang isang outlier ay isang "kandidato" lamang para sa isang pagbubukod, nangangahulugang hindi mo ito kailangang ibukod. Ang sanhi ng outlier ay ang pangunahing kadahilanan na nakakaimpluwensya sa desisyon na ibukod ang outlier. Bilang isang patakaran, ang mga outlier na nagaganap dahil sa mga pagkakamali (sa mga sukat, pagrekord, atbp.) Ay ibinukod. Sa kabilang banda, ang mga labas ay nauugnay hindi sa mga error ngunit sa bagong impormasyon o kalakaran ay karaniwang naiwan sa dataset.
    • Ito ay pantay na kahalagahan upang masuri ang epekto ng mga outliers sa panggitna ng dataset (i-distort man nila ito o hindi). Lalo na mahalaga ito kapag gumuhit ka ng mga konklusyon mula sa panggitna ng isang dataset.
    • Sa aming halimbawa, labis na malamang na ang oven ay magpainit hanggang sa isang temperatura ng 300 degree (maliban kung isasaalang-alang natin ang mga natural na anomalya). Samakatuwid, maaari itong tapusin (na may mataas na antas ng katiyakan) na ang naturang temperatura ay isang error sa pagsukat na kailangang maibukod mula sa dataset. Bukod dito, kung hindi mo aalisin ang outlier, ang median ng dataset ay (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 degree, ngunit kung ibubukod mo ang labas, ang panggitna ay (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 degree.
      • Karaniwan ang mga tagalabas ay resulta ng error ng tao, kaya't ang mga outlier ay kailangang maibukod mula sa mga dataset.
  10. 10 Maunawaan ang kahalagahan ng (minsan) na mga outlier na natitira sa dataset. Ang ilang mga panlabas ay dapat na maibukod mula sa dataset dahil ang mga ito ay dahil sa mga pagkakamali at mga problemang panteknikal; ang iba pang mga panlabas ay dapat iwanang sa dataset. Kung, halimbawa, ang isang outlier ay hindi resulta ng isang error at / o nagbibigay ng isang bagong pag-unawa sa hindi pangkaraniwang bagay sa ilalim ng pagsubok, pagkatapos ay dapat itong iwanang sa dataset. Lalo na sensitibo ang mga pang-agham na eksperimento sa mga lumalabas - sa pamamagitan ng maling pag-aalis ng isang outlier, maaari kang mawalan ng ilang bagong kalakaran o pagtuklas.
    • Halimbawa, bumubuo kami ng isang bagong gamot upang madagdagan ang laki ng isda sa mga pangisdaan. Gagamitin namin ang lumang dataset ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ngunit sa oras na ito ang bawat halaga ay kumakatawan sa bigat ng isda (sa gramo) pagkatapos ng paglunok ng pang-eksperimentong gamot. Sa madaling salita, ang unang gamot ay humantong sa pagtaas ng bigat ng isda hanggang sa 71 g, ang pangalawang gamot - hanggang sa 70 g, at iba pa. Sa sitwasyong ito, ang 300 ay isang makabuluhang outlier, ngunit hindi namin ito dapat isali; kung ipinapalagay natin na walang mga pagkakamali sa pagsukat, kung gayon ang naturang outlier ay isang makabuluhang tagumpay sa eksperimento. Ang gamot, na tumaas ang bigat ng isda sa 300 gramo, ay gumagana nang mas mahusay kaysa sa iba pang mga gamot; kaya 300 ang pinakamahalagang halaga sa dataset.

Mga Tip

  • Kapag natagpuan ang mga outlier, subukang ipaliwanag ang kanilang presensya bago ibukod ang mga ito mula sa dataset. Maaari nilang ipahiwatig ang mga error sa pagsukat o mga anomalya sa pamamahagi.

Ano'ng kailangan mo

  • Calculator