wydatki | dochody |
---|---|
2300 | 2600 |
1800 | 2400 |
2400 | 2900 |
2300 | 2800 |
2800 | 3000 |
2000 | 2500 |
2100 | 2700 |
5 Regresja
Metoda regresji wykorzystywana jest do funkcyjnego odwzorowania zależności pomiędzy badanymi zmiennymi. Jej celem jest poszukanie określonej klasy funkcji, która w możliwie najlepszy sposób charakteryzowałaby zależność pomiędzy zmiennymi. Funkcję tą określa się mianem funkcji regresji. Budując model chcemy osiągnąć określone cele poznawcze.
5.1 Regresja prosta
Celem regresji jest zbudowanie na podstawie dostępnych informacji modelu opisującego rzeczywistość. Taki model pełni funkcję poznawczą - dostarcza wiedzy na temat zjawiska, a także umożliwia prognozowanie (predykcję) nieznanej wartości analizowanej cechy.
Weźmy pod uwagę prosty przykład dochodów i wydatków:
Podobnie jak w analizie korelacji punktem wyjścia w regresji prostej jest utworzenie wykresu rozrzutu.
Ażeby móc zastosować model regresji musi występować związek korelacyjny pomiędzy zmiennymi oraz musi to być związek liniowy. Następnie na podstawie kryteriów merytorycznych określamy zmienną objaśnianą (
Zależność wydatków od dochodów wydaje się oczywista - za
W przypadku tylko dwóch punktów wyznaczenie współczynników
Spróbujmy teraz dopasować kilka prostych - mogą one przebiegać na wiele różnych sposobów.
W następnym kroku obliczamy różnice pomiędzy istniejącymi punktami, a odpowiadającym im wartościom na prostej:
Oznaczając
name | suma_kwadratow_reszt |
---|---|
czerwona | 101430 |
zielona | 264300 |
niebieska | 22462143 |
Jak możemy zauważyć najmniejsza wartość sumy kwadratów reszt obserwowana jest dla linii w kolorze czerwonym. Interesuje nas teraz wzór tej prostej. Przyjmując wcześniejsze oznaczenia ogólna postać prostej regresji jest następująca:
gdzie
Wobec tego wartości empiryczne/rzeczywiste (y) będą opisane formułą:
w której
Model zależności wydatków od dochodu ma następującą postać:
Po podstawieniu pierwszej wartości dochodu - 2400 zł do tego wzoru otrzymamy teoretyczną/modelową wartość wydatków:
Ta wartość leży na czerwonej prostej i różni się od rzeczywistej wartości wydatków uzyskanych przez tę osobę, która wynosi 1800 zł. Różnica pomiędzy wartością rzeczywistą a modelową nazywana jest resztą i wynosi w tym przypadku:
Można zatem powiedzieć, że stworzony model nie różni się zbytnio od rzeczywistości w przypadku tej obserwacji. Na podstawie dwóch powyższych wartości możliwe jest wyznaczenie wartości rzeczywistej:
Wiedząc już jaka intuicja przyświeca analizie regresji przejedziemy do analizy wybranego sklepu Rossmann i na tej podstawie wyznaczymy parametry modelu, a także je zinterpretujemy. Stworzony model zostanie też wykorzystany do predykcji.
Na podstawie wartości sprzedaży oraz liczby klientów w danym sklepie Rossmann i chcielibyśmy wyznaczyć możliwy poziom sprzedaży przy danej liczbie klientów np. 1000 klientów.
W analizowanym przez nas przypadku sklepu Rossmann zmienną objaśnianą będzie poziom sprzedaży (y), który będziemy wyjaśniać liczbą klientów (x). Naszym celem jest znalezienie wzoru prostej, która będzie przebiegać możliwie najbliżej wszystkich punktów wykresu. Musimy wyznaczyć współczynnik kierunkowy tej prostej (
Wartości tych współczynników możemy policzyć z wykorzystaniem następujących wzorów:
lub znając wartość współczynnika korelacji liniowej Pearsona:
z kolei wartość wyrazu wolnego można uzyskać ze wzoru:
gdzie:
- współczynnik korelacji liniowej Pearsona pomiędzy cechą i , - odchylenie standardowe dla cechy , - odchylenie standardowe dla cechy , - średnia dla cechy , - średnia dla cechy .
Na tej podstawie ustalamy, że interesująca nas prosta ma następujący wzór:
Współczynnik kierunkowy (
Z kolei wyraz wolny (
Kolejnym elementem analizy regresji jest ocena dopasowania modelu. W tym celu posługujemy się kilkoma miarami.
Pierwszą miarą, która opisuje dopasowanie funkcji regresji do danych empirycznych jest odchylenie standardowe składnika resztowego, które jest pierwiastkiem z sumy kwadratów reszt podzielonej przez liczbę obserwacji pomniejszoną o 2. To pomniejszenie mianownika wynika z faktu, że w modelu wykorzystaliśmy 2 średnie do wyznaczenia współczynnika kierunkowego (średnia z cechy x i y). Formalnie można to zapisać w następujący sposób:
lub
Miara ta określa, o ile, przeciętnie biorąc (
Odchylenie standardowe składnika resztowego jest także miarą błędu prognozy. Przykładowo, chcemy sprawdzić jak będzie kształtować się sprzedaż przy liczbie klientów równej 1000 osób. Po podstawieniu tej wartości do funkcji regresji otrzymamy:
Na tej podstawie stwierdzamy, że przy 1000 klientów prognozowana sprzedaż wyniosłaby 9358,78 euro
Kolejna miara to współczynnik zmienności resztowej, który otrzymujemy poprzez podzielenie odchylenia standardowego składnika resztowego przez średni poziom cechy:
Współczynnik ten wskazuje, jaki procent średniego poziomu zmiennej objaśnianej stanowią wahania losowe, których miarą jest
W naszym przypadku ten współczynnik będzie równy
Równie ważną miarą dopasowania funkcji regresji do danych empirycznych jest współczynnik determinacji lub bardziej potocznie współczynnik r kwadrat — od symbolu, którym jest oznaczany. Współczynnik ten obliczany jest na podstawie reszt z modelu oraz odchyleń wartości empirycznych od średniej:
lub jako kwadrat współczynnika korelacji liniowej Pearsona:
Określa, jaki procent wariancji zmiennej objaśnianej został wyjaśniony przez funkcję regresji.
Analizowany przez nas model regresji jest bardzo dobry:
Przeciwieństwem współczynnik determinacji
bądź odejmując od wartości 1 wartość współczynnika
Współczynnik zbieżności
W przyjętym przez nas modelu regresji
Ostatnim elementem analizy jest ocena jakości parametrów funkcji regresji
oraz
Błędy te wskazują, o ile, przeciętnie biorąc (
nie powinny przekraczać wartości 0,5 (50%) w wartości bezwzględnej.
Jest to szczególnie istotne w przypadku parametru współczynnika kierunkowego
W analizowanym przez nas modelu wartość parametru
Regresja prosta w Excelu
- Sposób nr 1
Zaznaczamy punkty na wykresie rozrzutu i klikamy prawym przyciskiem myszy. Wybieramy Dodaj linię trendu, a następnie zaznaczamy opcje Wyświetl równanie na wykresie oraz Wyświetl wartości R-kwadrat na wykresie.
- Sposób nr 2
Parametry funkcji regresji można także wyznaczyć korzystając z wbudowanej funkcji programu Excel — REGLINP. Składnia jest następująca:
- REGLINP(wektor_y; wektor_x; stała; statystyka)
gdzie:
- wektor_y — zestaw wartości zmiennej objaśnianej (y),
- wektor_x — zestaw wartości zmiennej objaśniającej (y),
- stała — jeśli podamy wartość 1 to wyraz wolny jest obliczany normalnie, jeśli podamy 0 to zostanie oszacowany model bez wyrazu wolnego,
- statystyka — jeśli argument ma wartość 1 to funkcja REGLINP zwraca dodatkowe statystyki regresji, natomiast jeśli ma wartość 0 to funkcja zwraca tylko wartości współczynnika kierunkowego oraz wyrazu wolnego.
Po napisaniu funkcji i uwzględnieniu wszystkich argumentów naciskamy ENTER — powinna pojawić się jedna wartość. Następnie należy zaznaczyć obszar 2 kolumny na 5 wiersze uwzględniając w lewej górnej komórce otrzymaną wcześniej wartość. W kolejnym kroku przechodzimy do PASKU FORMUŁY programu Excel i korzystamy z tajemnej formuły CTRL+SHIFT+ENTER.
W rezultacie otrzymujemy tabelę o wymiarach 2x5, która zawiera następujące elementy:
Współczynnik kierunkowy ( |
Wyraz wolny ( |
Średni błąd szacunku parametru ( |
Średni błąd szacunku parametru ( |
Współczynnik determinacji ( |
Odchylenie standardowe składnika resztowego ( |
Statystyka F ( |
Liczba stopni swobody ( |
Regresyjna suma kwadratów ( |
Suma kwadratów reszt ( |
- Sposób nr 3
Do wyznaczenia parametrów regresji można także wykorzystać graficzne środowisko analizy danych. W tych celu wybieramy zakładkę DANE i po prawej stronie ANALIZA DANYCH. W menu zaznaczamy REGRESJA i klikamy OK. W opcjach wejścia zaznaczamy:
- Zakres wejściowy Y — zestaw wartości zmiennej objaśnianej (y),
- Zakres wejściowy X — zestaw wartości zmiennej objaśniającej (x),
- Tytuły — jeśli zostały zaznaczone kolumny wraz z nagłówkami.
W opcjach wyjścia określamy miejsce wyświetlenia wyniku: bieżący arkusz/nowy arkusz/nowy skoroszyt.
W rezultacie otrzymujemy następujący wynik:
PODSUMOWANIE - WYJŚCIE
Statystyki regresji | |
---|---|
Wielokrotność R | |
R kwadrat | |
Dopasowany R kwadrat | |
Błąd standardowy | |
Obserwacje |
ANALIZA WARIANCJI
df | SS | MS | F | Istotność F | |
---|---|---|---|---|---|
Regresja | 1 | ||||
Resztkowy | |||||
Razem |
Współczynniki | Błąd standardowy | t Stat | Wartość-p | |
---|---|---|---|---|
Przecięcie | ||||
zmienna x |
Zależności:
Jeżeli ze wzoru na odchylenie standardowe składnika resztowego usuniemy pierwiastek to otrzymamy wariancję składnika resztowego, którą należy najpierw spierwiastkować, aby móc przeprowadzić interpretację.
Jeśli bardzo chcemy policzyć wartość odchylenia standardowe składnika resztowego na podstawie wartości surowych to wartość licznika możemy odczytać z funkcji REGLINP — 5 wiersz, 2 kolumna. Wówczas wystarczy podzielić tę wartość przez 4 wiersz drugiej kolumny i spierwiastkować, aby otrzymać wartość
. Podobnie postępujemy, jeśli korzystamy z narzędzia REGRESJA.
Zadania
Ilu klientów powinno przyjść do sklepu nr 7, żeby możliwe było osiągnięcie sprzedaży na poziomie 20000 euro? Zapisz uzyskany model, zinterpretuj parametry regresji oraz oceń jakość dopasowania.
5.2 Trend liniowy
Oprócz określania nieznanych wartości cechy, regresja jest także wykorzystywana do prognozowania w czasie. Przykładowo mając dane dotyczące miesięcznej sprzedaży w roku 2014 spróbujemy określić możliwą sprzedaż w wybranym miesiącu 2015 roku.
Sposób postępowania jest bardzo podobny do regresji prostej z tym, że zamiast wartości cechy
Po oszacowaniu parametrów
Spróbujmy określić możliwą sprzedaż w styczniu 2015 roku dla sklepu nr 7. W tym zagregowaliśmy dane do postaci miesięcznej.
Model regresji ma następującą postać:
Wynika z niego, że z miesiąca na miesiąc sprzedaż rosła średnio o 4850 euro. Natomiast możliwa sprzedaż w grudniu 2013 roku wynosiła 196592 euro.
Ocena jakości modelu przebiega analogicznie jak w przypadku regresji prostej. Inaczej wyznacza się błąd prognozy, co wynika z faktu, że im bardziej “oddalimy” się od okresu na podstawie którego oszacowaliśmy parametry trendu, tym błąd prognozy będzie większy.
Przy obliczaniu błędu prognozy korzystamy ze wzoru:
gdzie:
— odchylenie standardowe składnika resztowego, — liczba znanych okresów, — średnia z numerów okresów, — numer okresu, na który stawiana jest prognoza.
Odchylenie standardowe składnika resztowego wynosiło 20031 euro, co oznacza, że znane wartości miesięcznej sprzedaży odchylają się od wartości wynikających z trendu średnio o
Wyznaczając błąd prognozy musimy uwzględnić dodatkowy składnik uwzględniający czas. W związku z tym prognozowana sprzedaż w styczniu 2015 roku wyniesie:
a błąd prognozy:
Czyli prognozowana miesiączna sprzedaż w styczniu 2015 roku wyniesie 259 639 euro +/- 23 521 euro.
Natomiast dla lutego wartość błędu prognozy będzie już większa:
Możemy zaobserwować, że błąd prognozy nie zmienia się w sposób liniowy:
Zadania
Ile wynosi prognozowana miesięczna sprzedaż (oraz błąd prognozy) w sklepie nr 5 w kwietniu 2015 roku.
Zadanie egzaminacyjne
Postanowiono zbadać zależność pomiędzy dzienną liczbą klientów (w tys. osób) a dziennym przychodem (w tys. zł) w pewnej sieci sklepów. W tym celu wybrano 16 sklepów (po jednym z każdego województwa), w których badano te wielkości. Analiza wykazała, że średnia liczba klientów wynosiła 1,5 tys. osób, a dziennego przychodu 40 tys. zł. Współczynnik zmienności dla liczby klientów był równy 13%, a dla przychodu 17%. Suma kwadratów reszt wynosiła 70, a współczynnik korelacji liniowej Pearsona 0,89.
- Wyznacz parametry funkcji regresji i zapisz jej postać.
- Oceń jakość otrzymanej funkcji.
- Ile wynosi prognozowany dzienny przychód (oraz błąd prognozy) dla sklepu obsługującego dziennie 800 osób?
Rozwiązanie
Dane:
Na podstawie powyższych danych wyznaczamy
Na podstawie odpowiednich wzorów wyznaczamy parametry regresji:
Jakość modelu oceniamy na podstawie wartości
Dzienny przychód dla sklepu obsługującego dziennie 800 osób będzie wynosił