Regresie liniară (definiție, exemple) - Cum să interpretezi?

Ce este o regresie liniară?

Regresia liniară este în esență o tehnică de modelare statistică utilizată pentru a arăta relația dintre o variabilă dependentă și una sau mai multe variabile independente. Este unul dintre cele mai frecvente tipuri de analize predictive. Acest tip de distribuție se formează într-o linie, prin urmare, aceasta se numește regresie liniară. În acest articol, vom lua exemplele Analizei de regresie liniară în Excel.

Pentru a face mai întâi analiza de regresie liniară, trebuie să adăugăm programe de completare Excel urmând pașii.

Faceți clic pe Fișier - Opțiuni (Aceasta va deschide Opțiuni Excel pop-up pentru dvs.).

Faceți clic pe Suplimente - Selectați Suplimente Excel din Gestionare derulantă în excel, apoi faceți clic pe Du-te.

Astfel se va deschide Pop-up-ul Add-ins. Selectați Analysis ToolPak, apoi faceți clic pe Ok.

Suplimentul pentru analiza datelor va apărea sub fila Inserare.

Să înțelegem prin exemplele de mai jos analiza de regresie liniară în excel.

Exemple de analiză de regresie liniară

Exemplul nr. 1

Să presupunem că avem vânzări lunare și cheltuit pe marketing pentru anul trecut, iar acum trebuie să prezicem vânzările viitoare pe baza vânzărilor și a cheltuielilor de marketing de anul trecut.

Lună Publicitate Vânzări
Ian 40937 502729
Februarie 42376 507553
Mar 43355 516885
Aprilie 44126 528347
Mai 45060 537298
Iunie 49546 544066
Iul 56105 553664
Aug 59322 563201
Sept 59877 568657
Oct 60481 569384
Noiembrie 62356 573764
Dec 63246 582746

Faceți clic pe Analiza datelor sub fila Date, iar aceasta va deschide pop-up Analiza datelor.

Acum selectați Regresie din listă și faceți clic pe Ok.

Se va deschide fereastra de regresie.

Selectați Intervalul de vânzări $ 1 $ C $: 13 $ C $ în caseta axei Y, deoarece aceasta este variabila dependentă și $ B $ 1: $ B $ 14 $ în axa X, deoarece publicitatea cheltuită este variabila independentă.

Bifați caseta Etichete dacă ați selectat anteturi în alte date, vă va da eroarea.

Selectați Gama de ieșire dacă doriți să obțineți valoarea pe intervalul specific din foaia de lucru, altfel selectați Noua foaie de lucru Ply: iar aceasta va adăuga o nouă foaie de lucru și vă va oferi rezultatul.

Apoi bifați caseta Reziduuri și faceți clic pe Ok.

Aceasta va adăuga foi de lucru și vă va oferi următorul rezultat.

Să înțelegem rezultatul.

Rezumatul rezultatului

Multiplu R: Acesta reprezintă coeficientul de corelație. Valoarea 1 arată o relație pozitivă, iar valoarea 0 nu arată nicio relație.

R Square: R Square reprezintă coeficientul de determinare. Acest lucru vă arată procentul de puncte care cad pe linia de regresie. 0,49 înseamnă că 49% din valori se potrivesc modelului

R pătrat ajustat : Acesta este pătratul R ajustat, care necesită atunci când aveți mai multe variabile X.

Eroare standard: Aceasta reprezintă o estimare a deviației standard a erorii. Aceasta este precizia în care se măsoară coeficientul de regresie.

Observații: acesta este numărul de observații pe care le-ați luat într-un eșantion.

ANOVA - Df: Gradele de libertate

SS: Suma de pătrate.

MS: avem două SM

  • Regresia MS este Regresia SS / Regresia Df.
  • MS rezidual este eroarea pătrată medie (SS rezidual / Df rezidual).

F: F test pentru ipoteza nulă.

Semnificația F: Valori P asociate cu Semnificația

Coeficient: Coeficientul vă oferă estimarea celor mai mici pătrate.

Statistică T: Statistică T pentru ipoteză nulă față de ipoteza alternativă.

Valoarea P: Aceasta este valoarea p pentru testul ipotezei.

95% inferior și 95% superior: acestea sunt limita inferioară și limita superioară pentru intervalul de încredere

Rezultate rezultate: Avem 12 observații pe baza datelor. 2 nd coloană reprezintă vânzări predictibile și 3 rd Residuals coloană. Reziduurile reprezintă practic diferența dintre vânzările anticipate și cea reală.

Exemplul nr. 2

Selectați coloana de vânzări și marketing prevăzută

Accesați grupul de diagrame sub fila inserare. Selectați pictograma diagramă scatter

Aceasta va insera graficul scatter în excel. Vezi imaginea de mai jos

Faceți clic dreapta pe orice punct, apoi selectați Adăugați linia de trend în excel. Aceasta va adăuga o linie de tendință în graficul dvs.

  • Puteți formata linia de tendință făcând clic dreapta oriunde pe linia de tendință și apoi selectați formatarea liniei de tendință.
  • Puteți aduce mai multe îmbunătățiri graficului. de exemplu, formatarea liniei de tendință, a culorii și a titlului modificării etc.
  • De asemenea, puteți afișa formula pe grafic bifând formula Afișare pe grafic și afișați valoarea R pătrat pe grafic.

Câteva exemple de analiză de regresie liniară:

  1. Predicția Umbrelei vândute pe baza ploii sa întâmplat în zonă.
  2. Predicția de AC vândută pe baza temperaturii din vară.
  3. În timpul sezonului de examen, vânzările de staționare practic, vânzările de ghiduri de examen au crescut.
  4. Predicția vânzărilor atunci când publicitatea a făcut pe baza serialului High TRP în care se face o reclamă, popularitatea ambasadorului de marcă și pașii la locul deținerii în care este publicată o reclamă.
  5. Vânzările unei case în funcție de localitate, zonă și preț.

Exemplul nr. 3

Să presupunem că avem nouă elevi cu nivelul lor de coeficient de inteligență și numărul pe care l-au marcat la test.

Student Scorul testului IQ
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Pasul 1: Mai întâi, aflați variabilele dependente și independente. Aici Scorul testului este variabila dependentă, iar IQ este variabila independentă, deoarece Scorul testului variază pe măsură ce IQ se schimbă.

Pasul 2: Accesați fila Date - Faceți clic pe Analiza datelor - Selectați regresia - faceți clic pe Ok.

Aceasta vă va deschide fereastra de regresie.

Pasul 3. Intervalul Scorului testului de intrare în Intrare Y Range Box și IQ în Intrare X Range Box. (Verificați pe etichete dacă aveți anteturi în intervalul dvs. de date. Selectați opțiunile de ieșire, apoi verificați reziduurile dorite. Faceți clic pe Ok.

Veți obține rezultatul rezumat prezentat în imaginea de mai jos.

Pasul 4: Analiza regresiei prin rezultatul sumar

Rezumatul rezultatului

Multiplu R: Aici, coeficientul de corelație este de 0,99, care este foarte aproape de 1, ceea ce înseamnă că relația liniară este foarte pozitivă.

R Square: valoarea R Square este 0,983, ceea ce înseamnă că 98,3% din valori se potrivesc modelului.

Valoarea P: Aici, valoarea P este 1.86881E-07, care este foarte mică de .1, ceea ce înseamnă că IQ are valori predictive semnificative.

Vedeți graficul de mai jos.

Puteți vedea că aproape toate punctele sunt în linie sau o linie de tendință din apropiere.

Exemplul # 4

Trebuie să prezicem vânzările de AC pe baza vânzărilor și a temperaturii pentru o lună diferită.

Lună Temp Vânzări
Ian 25 38893
Februarie 28 42254
Mar 31 42845
Aprilie 33 47917
Mai 37 51243
Iunie 40 69588
Iul 38 56570
Aug 37 50000

Urmați pașii de mai jos pentru a obține rezultatul regresiei.

Pasul 1: Mai întâi, aflați variabilele dependente și independente. Aici Vânzările sunt variabile dependente, iar Temperatura este o variabilă independentă, deoarece Vânzările variază pe măsură ce Temp se schimbă.

Pasul 2: Accesați fila Date - Faceți clic pe Analiza datelor - Selectați regresia - faceți clic pe Ok.

Aceasta vă va deschide fereastra de regresie.

Pasul 3. Vânzări de intrare în intrarea Y Range Box și Temp în Input X Range Box. (Verificați pe etichete dacă aveți anteturi în intervalul dvs. de date. Selectați opțiunile de ieșire, apoi verificați reziduurile dorite. Faceți clic pe Ok.

Acest lucru vă va oferi un rezultat sumar ca mai jos.

Pasul 4: Analizați rezultatul.

Multiplu R: Aici, coeficientul de corelație este 0,877, care este aproape de 1, ceea ce înseamnă că relația liniară este pozitivă.

R Square: valoarea R Square este 0,770, ceea ce înseamnă că 77% din valori se potrivesc modelului

Valoarea P: Aici, valoarea P este 1.86881E-07, care este foarte mică de .1, ceea ce înseamnă că IQ are valori predictive semnificative.

Exemplul nr. 5

Acum să facem o analiză de regresie pentru mai multe variabile independente:

Trebuie să preziceți vânzările unui mobil care urmează să fie lansat anul viitor. Aveți prețul și populația țărilor care afectează vânzările de telefoane mobile.

Versiune mobila Vânzări Cantitate Populația
S.U.A. 63860 858 823
Regatul Unit 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Urmați pașii de mai jos pentru a obține rezultatul regresiei.

Pasul 1. Mai întâi, aflați variabilele dependente și independente. Aici Vânzările sunt variabile dependente, cantitate și populație. Ambele sunt variabile independente, deoarece vânzările variază în funcție de cantitatea și populația țării.

Pasul 2. Mergeți la fila Date - Faceți clic pe Analiza datelor - Selectați regresia - faceți clic pe Ok.

Aceasta vă va deschide fereastra de regresie.

Pasul 3. Introduceți vânzările în intrarea Y Range Box și selectați cantitatea și populația în Intrarea X Range Range. (Verificați pe etichete dacă aveți anteturi în intervalul dvs. de date. Selectați opțiunile de ieșire, apoi verificați reziduurile dorite. Faceți clic pe Ok.

Acum executați regresia utilizând analiza datelor din fila Date. Acest lucru vă va oferi rezultatul de mai jos.

Rezumatul rezultatului

Multiplu R: Aici, coeficientul de corelație este 0,93, care este foarte aproape de 1, ceea ce înseamnă că relația liniară este foarte pozitivă.

R Square: valoarea R Square este 0,866, ceea ce înseamnă că 86,7% din valori se potrivesc modelului.

Semnificația F: Semnificația F este mai mică de .1, ceea ce înseamnă că ecuația de regresie are o valoare predictivă semnificativă.

Valoare P : dacă priviți valoarea P pentru cantitate și populație, puteți vedea că valorile sunt mai mici de .1, ceea ce înseamnă că cantitatea și populația au o valoare predictivă semnificativă. Cele mai puține valori P înseamnă că o variabilă are valori predictive mai semnificative.

Cu toate acestea, atât cantitatea, cât și populația au o valoare predictivă semnificativă, dar dacă te uiți la valoarea P pentru cantitate și populație, vei vedea că cantitatea are o valoare P mai mică în Excel decât populația. Aceasta înseamnă că cantitatea are o valoare predictivă mai semnificativă decât populația.

Lucruri de amintit

  • Verificați întotdeauna variabilele dependente și independente ori de câte ori selectați date.
  • Analiza de regresie liniară ia în considerare relația dintre media variabilelor.
  • Aceasta modelează doar relația dintre variabilele care sunt liniare
  • Uneori nu este cea mai potrivită pentru o problemă din lumea reală. De exemplu: (Vârsta și salariile). De cele mai multe ori, creșterea salariilor pe măsură ce vârsta crește. Cu toate acestea, după pensionare, vârsta crește, dar salariile scad.

Articole interesante...