Regresie liniară

În statistică regresia liniară^[1] este o abordare liniară^⁠(d) pentru modelarea relației dintre un răspuns scalar și una sau mai multe variabile predictoare (de asemenea cunoscute ca de intrare, explicative sau independente^⁠(d)^[2]). Cazul unei singure variabile predictoare se numește regresie liniară simplă^⁠(d). Pentru mai multe variabile procesul se numește regresie liniară multiplă, pe scurt regresie liniară.^[3]

Acest termen este diferit de regresia liniară multivariată^⁠(d), unde sunt prezise mai multe variabile dependente corelate în loc de o singură variabilă scalară.^[4]

În regresia liniară, relațiile sunt modelate folosind funcții predictoare liniare^⁠(d) ale căror parametri necunoscuți sunt estimați din date. Astfel de modele se numesc modele liniare.^[5] Cel mai frecvent, media condiționată^⁠(d) a răspunsului dat de valorile variabilelor explicative (sau a predictoarelor) se presupune a fi o funcție afină^⁠(d) a acelor valori; mai rar se folosește mediana condiționată sau o altă cuantilă^⁠(d). La fel ca toate formele de analiza de regresie, regresia liniară se concentrează pe distribuția probabilității condiționate^⁠(d) a răspunsului dat de valorile predictoarelor, mai degrabă decât pe distribuția probabilității comune^⁠(d) a tuturor acestor variabile, care este domeniul analizei multivariate.

Regresia liniară a fost primul tip de analiză de regresie care a fost studiată riguros și care a fost utilizată pe scară largă în aplicații practice.^[6] Acest lucru se datorează faptului că modelele care depind liniar de parametrii lor necunoscuți sunt mai ușor de adaptat decât modelele care sunt legate neliniar de parametrii lor și deoarece proprietățile statistice ale funcțiilor de estimare rezultate sunt mai ușor de determinat.

Regresia liniară are multe utilizări practice. Majoritatea aplicațiilor se încadrează în una dintre următoarele două mari categorii:

Dacă scopul este reducerea erorilor în prognoze, regresia liniară poate fi utilizată pentru a potrivi un model predictiv la un set de date observate, de valori ale răspunsului și variabile predictoare. După dezvoltarea unui astfel de model, dacă sunt colectate valori suplimentare ale variabilelor predictoare fără a obține și valorile de răspuns însoțitoare, modelul ajustat poate fi utilizat pentru a face o predicție a răspunsului.
Dacă scopul este de a explica variația variabilei de răspuns care poate fi atribuită variației variabilelor predictoare, analiza de regresie liniară poate fi aplicată pentru a cuantifica cât de strânsă este relația dintre răspuns și variabilele prezise (de răspuns, explicate sau independente^⁠(d)^[2]) și, în special, pentru a determina dacă unele variabile predictoare pot să nu aibă deloc o relație liniară cu răspunsul sau să identifice ce subseturi de variabile predictoare pot conține informații redundante despre răspuns.

Modelele de regresie liniară sunt adesea ajustate folosind metoda celor mai mici pătrate, dar ele pot fi ajustate și în alte moduri, cum ar fi minimizând „lipsa de potrivire” în altă normă. Însă metoda celor mai mici pătrate poate fi utilizată pentru a se realiza și modele care nu sunt liniare. Astfel, deși termenii „cele mai mici pătrate” și „model liniar” sunt strâns legați, ei nu sunt sinonimi.

[1]

[2]

[3]

[4]

[5]

[6]