5  Regresja

Metoda regresji wykorzystywana jest do funkcyjnego odwzorowania zależności pomiędzy badanymi zmiennymi. Jej celem jest poszukanie określonej klasy funkcji, która w możliwie najlepszy sposób charakteryzowałaby zależność pomiędzy zmiennymi. Funkcję tą określa się mianem funkcji regresji. Budując model chcemy osiągnąć określone cele poznawcze.

5.1 Regresja prosta

Celem regresji jest zbudowanie na podstawie dostępnych informacji modelu opisującego rzeczywistość. Taki model pełni funkcję poznawczą - dostarcza wiedzy na temat zjawiska, a także umożliwia prognozowanie (predykcję) nieznanej wartości analizowanej cechy.

Weźmy pod uwagę prosty przykład dochodów i wydatków:

wydatki dochody
2300 2600
1800 2400
2400 2900
2300 2800
2800 3000
2000 2500
2100 2700

Podobnie jak w analizie korelacji punktem wyjścia w regresji prostej jest utworzenie wykresu rozrzutu.

Ażeby móc zastosować model regresji musi występować związek korelacyjny pomiędzy zmiennymi oraz musi to być związek liniowy. Następnie na podstawie kryteriów merytorycznych określamy zmienną objaśnianą (y) oraz zmienną objaśniającą (x).

Zależność wydatków od dochodów wydaje się oczywista - za y przyjmiemy wydatki, a x to będą dochody. Dobrą praktyką jest umieszczanie zmiennej objaśnianej na osi OY, a zmiennej objaśniającej na osi OX. Interesuje nas tworzenie modelu uproszającego rzeczywistość do poziomu wzoru na prostą, której ogólna postać jest następująca:

yi=a1xi+a0

W przypadku tylko dwóch punktów wyznaczenie współczynników a1 i a0 nie stanowiłoby żadnego problemu. Natomiast dla podanego przykładu trzeba posłużyć się Klasyczną Metodą Najmniejszych Kwadratów (KMNK), w której minimalizujemy odległość punktów od dopasowywanej prostej.

Spróbujmy teraz dopasować kilka prostych - mogą one przebiegać na wiele różnych sposobów.

W następnym kroku obliczamy różnice pomiędzy istniejącymi punktami, a odpowiadającym im wartościom na prostej:

Oznaczając yi jako rzeczywista wartość wydatków i yi^ jako wartość leżącą na prostej zależy nam na minimalizowaniu wyrażenia i=1n(yiy^i)2min. Różnica yiy^i jest nazywana resztą (ang. residual). Wyznaczając te wartości dla analizowanych przez nas prostych otrzymamy następujące wyniki:

name suma_kwadratow_reszt
czerwona 101430
zielona 264300
niebieska 22462143

Jak możemy zauważyć najmniejsza wartość sumy kwadratów reszt obserwowana jest dla linii w kolorze czerwonym. Interesuje nas teraz wzór tej prostej. Przyjmując wcześniejsze oznaczenia ogólna postać prostej regresji jest następująca:

y^i=a1xi+a0

gdzie y z daszkiem (y^) oznacza wartość teoretyczną, leżącą na wyznaczonej prostej.

Wobec tego wartości empiryczne/rzeczywiste (y) będą opisane formułą:

yi=a1xi+a0+ui

w której ui oznacza składnik resztowy wyliczany jako ui=yiy^i.

Model zależności wydatków od dochodu ma następującą postać:

yi^=1,357xi1421,429

Po podstawieniu pierwszej wartości dochodu - 2400 zł do tego wzoru otrzymamy teoretyczną/modelową wartość wydatków:

y1^=1,35724001421,429=1835,371

Ta wartość leży na czerwonej prostej i różni się od rzeczywistej wartości wydatków uzyskanych przez tę osobę, która wynosi 1800 zł. Różnica pomiędzy wartością rzeczywistą a modelową nazywana jest resztą i wynosi w tym przypadku:

u1=18001835,371=35,371

Można zatem powiedzieć, że stworzony model nie różni się zbytnio od rzeczywistości w przypadku tej obserwacji. Na podstawie dwóch powyższych wartości możliwe jest wyznaczenie wartości rzeczywistej:

y1=1,35724001421,42935,371=1800

Wiedząc już jaka intuicja przyświeca analizie regresji przejedziemy do analizy wybranego sklepu Rossmann i na tej podstawie wyznaczymy parametry modelu, a także je zinterpretujemy. Stworzony model zostanie też wykorzystany do predykcji.

Na podstawie wartości sprzedaży oraz liczby klientów w danym sklepie Rossmann i chcielibyśmy wyznaczyć możliwy poziom sprzedaży przy danej liczbie klientów np. 1000 klientów.

W analizowanym przez nas przypadku sklepu Rossmann zmienną objaśnianą będzie poziom sprzedaży (y), który będziemy wyjaśniać liczbą klientów (x). Naszym celem jest znalezienie wzoru prostej, która będzie przebiegać możliwie najbliżej wszystkich punktów wykresu. Musimy wyznaczyć współczynnik kierunkowy tej prostej (a1) oraz punkt przecięcia z osią OY (a0).

Wartości tych współczynników możemy policzyć z wykorzystaniem następujących wzorów:

a1=i=1n(xix¯)(yiy¯)i=1n(xix¯)2

lub znając wartość współczynnika korelacji liniowej Pearsona:

a1=rSySx

z kolei wartość wyrazu wolnego można uzyskać ze wzoru:

a0=y¯a1x¯

gdzie:

  • r - współczynnik korelacji liniowej Pearsona pomiędzy cechą x i y,
  • Sy - odchylenie standardowe dla cechy y,
  • Sx - odchylenie standardowe dla cechy x,
  • y¯ - średnia dla cechy y,
  • x¯ - średnia dla cechy x.

Na tej podstawie ustalamy, że interesująca nas prosta ma następujący wzór:

y^i=10,45xi1091,22

Współczynnik kierunkowy (a1) informuje o ile przeciętne zmieni się wartość zmiennej objaśnianej (y), gdy wartość zmiennej objaśniającej (x) wzrośnie o jednostkę. W naszym przypadku wzrost liczby klientów o 1 osobę spowoduje średni wzrost sprzedaży o 10,45 euro.

Z kolei wyraz wolny (a0) to wartość zmiennej objaśnianej (y), w sytuacji w której wartość zmiennej objaśniającej (x) będzie równa 0. Należy zachować szczególną ostrożność przy interpretacji tego współczynnika, ponieważ często jest on pozbawiony sensu. W analizowanym przykładzie współczynnik a0 informuje, że przy zerowej liczbie klientów sprzedaż w sklepie nr 1 wyniesie -1091,22 euro.

Kolejnym elementem analizy regresji jest ocena dopasowania modelu. W tym celu posługujemy się kilkoma miarami.

Pierwszą miarą, która opisuje dopasowanie funkcji regresji do danych empirycznych jest odchylenie standardowe składnika resztowego, które jest pierwiastkiem z sumy kwadratów reszt podzielonej przez liczbę obserwacji pomniejszoną o 2. To pomniejszenie mianownika wynika z faktu, że w modelu wykorzystaliśmy 2 średnie do wyznaczenia współczynnika kierunkowego (średnia z cechy x i y). Formalnie można to zapisać w następujący sposób:

Su=i=1n(yiy^i)2n2

lub

Su=i=1nui2n2

Miara ta określa, o ile, przeciętnie biorąc (+/), wartości empiryczne zmiennej objaśnianej odchylają się od wartości teoretycznych tej zmiennej, obliczonej na podstawie funkcji regresji. Mniejsze wartości są bardziej pożądane ponieważ wskazują, że obserwacje są bliżej wyznaczonej prostej regresji. W analizowanym przypadku możemy stwierdzić, że znane wartości sprzedaży odchylają się od wartości teoretycznych średnio o +/ 351,57 euro.

Odchylenie standardowe składnika resztowego jest także miarą błędu prognozy. Przykładowo, chcemy sprawdzić jak będzie kształtować się sprzedaż przy liczbie klientów równej 1000 osób. Po podstawieniu tej wartości do funkcji regresji otrzymamy:

y1000=10,4510001091,22=9358,78

Na tej podstawie stwierdzamy, że przy 1000 klientów prognozowana sprzedaż wyniosłaby 9358,78 euro +/ 351,57 euro.

Kolejna miara to współczynnik zmienności resztowej, który otrzymujemy poprzez podzielenie odchylenia standardowego składnika resztowego przez średni poziom cechy:

Vu=Suy¯100%

Współczynnik ten wskazuje, jaki procent średniego poziomu zmiennej objaśnianej stanowią wahania losowe, których miarą jest Su. Parametr Vu jest więc miernikiem relatywnej wielkości błędu losowego. Niektórzy autorzy postulują, że błąd ten można umownie uznać za dopuszczalny, jeśli Vu<15%. Należy się jednak wystrzegać przed ,,dogmatycznym’’ podejściem do oceny modeli regresji i jedynie słusznych progów.

W naszym przypadku ten współczynnik będzie równy Vu=351,574730,72100%=7% co oznacza, że 7% średniego poziomu sprzedaży stanowią wahania losowe.

Równie ważną miarą dopasowania funkcji regresji do danych empirycznych jest współczynnik determinacji lub bardziej potocznie współczynnik r kwadrat — od symbolu, którym jest oznaczany. Współczynnik ten obliczany jest na podstawie reszt z modelu oraz odchyleń wartości empirycznych od średniej:

R2=1i=1n(yiy^i)2i=1n(yiy¯i)2

lub jako kwadrat współczynnika korelacji liniowej Pearsona:

R2=rxy2

Określa, jaki procent wariancji zmiennej objaśnianej został wyjaśniony przez funkcję regresji. R2 przyjmuje wartości z przedziału <0;1> (<0%;100%>), przy czym model regresji tym lepiej opisuje zachowanie się badanej zmiennej objaśnianej, im R2 jest bliższy jedności (bliższy 100%)

Analizowany przez nas model regresji jest bardzo dobry: R2=0,89, co oznacza, że oszacowany model regresji wyjaśnia 89% zmienności sprzedaży.

Przeciwieństwem współczynnik determinacji R2 jest współczynnik zbieżności (indeterminacji). Tę miarę można wyznaczyć korzystając ze wzoru:

φ2=i=1n(yiy^i)2i=1n(yiy¯i)2

bądź odejmując od wartości 1 wartość współczynnika R2:

φ2=1R2

Współczynnik zbieżności φ2 określa, jaka część wariancji badanej zmiennej objaśnianej nie została wyjaśniona przez funkcję regresji. Oczywiste jest więc, że korzystna sytuacja występuje wówczas, gdy φ2 jest bliższy zera.

W przyjętym przez nas modelu regresji φ2=11%, co oznacza, że 11% zmienności sprzedaży nie została wyjaśniona przez funkcję regresji. Można także powiedzieć, że 11% zmienności sprzedaży stanowią czynniki losowe nie wyjaśniane przez funkcję regresji.

Ostatnim elementem analizy jest ocena jakości parametrów funkcji regresji a1 i a0. Równanie regresji wyznaczyliśmy na podstawie dostępnych danych, ale nie znamy równania tej prostej w populacji. W związku z czym mogliśmy się trochę pomylić przy obliczaniu współczynników a1 i a0. W celu oceny skali tych błędów wyznacza się błędy średnie szacunku ocen parametrów funkcji regresji według wzorów:

Sa1=Sui=1n(xix¯)2

oraz

Sa0=Su2i=1nxi2ni=1n(xix¯)2

Błędy te wskazują, o ile, przeciętnie biorąc (+/), odchylają się oceny parametrów modelu regresji od ich wartości prawdziwych. Jest oczywiście pożądane, żeby te błędy były możliwie jak najmniejsze. W związku z powyższym przyjmuje się, że ilorazy:

Va1=Sa1a1

Va0=Sa0a0

nie powinny przekraczać wartości 0,5 (50%) w wartości bezwzględnej.

Jest to szczególnie istotne w przypadku parametru współczynnika kierunkowego a1, natomiast dla wyrazu wolnego a0 ta własność nie musi być spełniona.

W analizowanym przez nas modelu wartość parametru a1 odchyla się od jego wartości prawdziwej o +/ 0,21 co stanowi 2% wartości tego parametru. Z kolei wartość parametru a0 odchyla się od jego wartości prawdziwej o +/ 119,81 co stanowi 11% wartości tego parametru.

Regresja prosta w Excelu

  • Sposób nr 1

Zaznaczamy punkty na wykresie rozrzutu i klikamy prawym przyciskiem myszy. Wybieramy Dodaj linię trendu, a następnie zaznaczamy opcje Wyświetl równanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie.

  • Sposób nr 2

Parametry funkcji regresji można także wyznaczyć korzystając z wbudowanej funkcji programu Excel — REGLINP. Składnia jest następująca:

  • REGLINP(wektor_y; wektor_x; stała; statystyka)

gdzie:

  • wektor_y — zestaw wartości zmiennej objaśnianej (y),
  • wektor_x — zestaw wartości zmiennej objaśniającej (y),
  • stała — jeśli podamy wartość 1 to wyraz wolny jest obliczany normalnie, jeśli podamy 0 to zostanie oszacowany model bez wyrazu wolnego,
  • statystyka — jeśli argument ma wartość 1 to funkcja REGLINP zwraca dodatkowe statystyki regresji, natomiast jeśli ma wartość 0 to funkcja zwraca tylko wartości współczynnika kierunkowego oraz wyrazu wolnego.

Po napisaniu funkcji i uwzględnieniu wszystkich argumentów naciskamy ENTER — powinna pojawić się jedna wartość. Następnie należy zaznaczyć obszar 2 kolumny na 5 wiersze uwzględniając w lewej górnej komórce otrzymaną wcześniej wartość. W kolejnym kroku przechodzimy do PASKU FORMUŁY programu Excel i korzystamy z tajemnej formuły CTRL+SHIFT+ENTER.

W rezultacie otrzymujemy tabelę o wymiarach 2x5, która zawiera następujące elementy:

Współczynnik kierunkowy (a1) Wyraz wolny (a0)
Średni błąd szacunku parametru (Sa1) Średni błąd szacunku parametru (Sa0)
Współczynnik determinacji (R2) Odchylenie standardowe składnika resztowego (Su)
Statystyka F (F) Liczba stopni swobody (n2)
Regresyjna suma kwadratów ((y^y¯)2) Suma kwadratów reszt ((yy^)2)
  • Sposób nr 3

Do wyznaczenia parametrów regresji można także wykorzystać graficzne środowisko analizy danych. W tych celu wybieramy zakładkę DANE i po prawej stronie ANALIZA DANYCH. W menu zaznaczamy REGRESJA i klikamy OK. W opcjach wejścia zaznaczamy:

  • Zakres wejściowy Y — zestaw wartości zmiennej objaśnianej (y),
  • Zakres wejściowy X — zestaw wartości zmiennej objaśniającej (x),
  • Tytuły — jeśli zostały zaznaczone kolumny wraz z nagłówkami.

W opcjach wyjścia określamy miejsce wyświetlenia wyniku: bieżący arkusz/nowy arkusz/nowy skoroszyt.

W rezultacie otrzymujemy następujący wynik:

PODSUMOWANIE - WYJŚCIE

Statystyki regresji
Wielokrotność R r
R kwadrat R2
Dopasowany R kwadrat
Błąd standardowy Su
Obserwacje n

ANALIZA WARIANCJI

df SS MS F Istotność F
Regresja 1 (y^y¯)2 F
Resztkowy n2 (yy^)2
Razem n1
Współczynniki Błąd standardowy t Stat Wartość-p
Przecięcie a0 Sa0
zmienna x a1 Sa1

Zależności:

  • Jeżeli ze wzoru na odchylenie standardowe składnika resztowego usuniemy pierwiastek to otrzymamy wariancję składnika resztowego, którą należy najpierw spierwiastkować, aby móc przeprowadzić interpretację.

  • Jeśli bardzo chcemy policzyć wartość odchylenia standardowe składnika resztowego na podstawie wartości surowych to wartość licznika możemy odczytać z funkcji REGLINP — 5 wiersz, 2 kolumna. Wówczas wystarczy podzielić tę wartość przez 4 wiersz drugiej kolumny i spierwiastkować, aby otrzymać wartość Su. Podobnie postępujemy, jeśli korzystamy z narzędzia REGRESJA.

Zadania

Ilu klientów powinno przyjść do sklepu nr 7, żeby możliwe było osiągnięcie sprzedaży na poziomie 20000 euro? Zapisz uzyskany model, zinterpretuj parametry regresji oraz oceń jakość dopasowania.

5.2 Trend liniowy

Oprócz określania nieznanych wartości cechy, regresja jest także wykorzystywana do prognozowania w czasie. Przykładowo mając dane dotyczące miesięcznej sprzedaży w roku 2014 spróbujemy określić możliwą sprzedaż w wybranym miesiącu 2015 roku.

Sposób postępowania jest bardzo podobny do regresji prostej z tym, że zamiast wartości cechy x mamy kolejne numery okresów t=1,2,3,...,n. Wówczas równanie trendu ma następującą postać:

y^i=a1ti+a0

Po oszacowaniu parametrów a1 i a0 nieco inaczej je zinterpretujemy. Wartość parametru a1 informuje o średniej zmianie cechy y z okresu na okres, z kolei a0 to wartość wynikająca z modelu dla okresu poprzedzającego analizę.

Spróbujmy określić możliwą sprzedaż w styczniu 2015 roku dla sklepu nr 7. W tym zagregowaliśmy dane do postaci miesięcznej.

Model regresji ma następującą postać:

y^i=4850ti+196592

Wynika z niego, że z miesiąca na miesiąc sprzedaż rosła średnio o 4850 euro. Natomiast możliwa sprzedaż w grudniu 2013 roku wynosiła 196592 euro.

Ocena jakości modelu przebiega analogicznie jak w przypadku regresji prostej. Inaczej wyznacza się błąd prognozy, co wynika z faktu, że im bardziej “oddalimy” się od okresu na podstawie którego oszacowaliśmy parametry trendu, tym błąd prognozy będzie większy.

Przy obliczaniu błędu prognozy korzystamy ze wzoru:

D(yTP)=Su1+1n+(Tt¯)2t=1n(tit¯)2

gdzie:

  • Su — odchylenie standardowe składnika resztowego,
  • n — liczba znanych okresów,
  • t¯ — średnia z numerów okresów,
  • T — numer okresu, na który stawiana jest prognoza.

Odchylenie standardowe składnika resztowego wynosiło 20031 euro, co oznacza, że znane wartości miesięcznej sprzedaży odchylają się od wartości wynikających z trendu średnio o +/ 20031 euro.

Wyznaczając błąd prognozy musimy uwzględnić dodatkowy składnik uwzględniający czas. W związku z tym prognozowana sprzedaż w styczniu 2015 roku wyniesie:

y^13=485013+196592=259639

a błąd prognozy:

D(y13P)=200311+112+(136,5)2143=23521

Czyli prognozowana miesiączna sprzedaż w styczniu 2015 roku wyniesie 259 639 euro +/- 23 521 euro.

Natomiast dla lutego wartość błędu prognozy będzie już większa:

y^14=485014+196592=264489

D(y14P)=200311+112+(146,5)2143=24341

Możemy zaobserwować, że błąd prognozy nie zmienia się w sposób liniowy:

Zadania

Ile wynosi prognozowana miesięczna sprzedaż (oraz błąd prognozy) w sklepie nr 5 w kwietniu 2015 roku.

Zadanie egzaminacyjne

Postanowiono zbadać zależność pomiędzy dzienną liczbą klientów (w tys. osób) a dziennym przychodem (w tys. zł) w pewnej sieci sklepów. W tym celu wybrano 16 sklepów (po jednym z każdego województwa), w których badano te wielkości. Analiza wykazała, że średnia liczba klientów wynosiła 1,5 tys. osób, a dziennego przychodu 40 tys. zł. Współczynnik zmienności dla liczby klientów był równy 13%, a dla przychodu 17%. Suma kwadratów reszt wynosiła 70, a współczynnik korelacji liniowej Pearsona 0,89.

  1. Wyznacz parametry funkcji regresji i zapisz jej postać.
  2. Oceń jakość otrzymanej funkcji.
  3. Ile wynosi prognozowany dzienny przychód (oraz błąd prognozy) dla sklepu obsługującego dziennie 800 osób?

Rozwiązanie

Dane:

  • x¯=1,5
  • y¯=40
  • Vx=0,13
  • Vy=0,17
  • (yy^)2=70
  • n=16
  • r=0,89

Na podstawie powyższych danych wyznaczamy Sx=Vxx¯=0,131,5=0,195 oraz Sy=Vyy¯=0,1740=6,8. Następnie Su=(yy^)2n2=70162=2,24.

Na podstawie odpowiednich wzorów wyznaczamy parametry regresji: a1=rSySx=0,896,80,195=31,04 oraz a0=y¯a1x¯=4031,041,5=6,55. W związku z tym funkcja regresji ma następującą postać:

y^=31,04x6,55

Jakość modelu oceniamy na podstawie wartości Su oraz R2=r2=0,892=0,79.

Dzienny przychód dla sklepu obsługującego dziennie 800 osób będzie wynosił y^(0,8)=31,040,86,55=18,27 tys. zł +/2,24 tys. zł.