+ - 0:00:00
Notes for current slide
Notes for next slide

Metody przetwarzania
i analizy danych

Quarto

© Łukasz Wawrowski

1 / 22

Zbiór danych - pracownicy

  • id - kod pracownika
  • plec - płeć pracownika (0 - mężczyzna, 1 - kobieta)
  • data_urodz - data urodzenia
  • edukacja - wykształcenie (w latach nauki)
  • kat_pracownika - grupa pracownicza (1 - specjalista, 2 - menedżer, 3 - konsultant)
  • bwynagrodzenie - bieżące wynagrodzenie
  • pwynagrodzenie - początkowe wynagrodzenie
  • staz - staż pracy (w miesiącach)
  • doswiadczenie - poprzednie zatrudnienie (w miesiącach)
  • zwiazki - przynależność do związków zawodowych (0 - nie, 1 - tak)
  • wiek - wiek (w latach)
2 / 22

R jako narzędzie do raportowania

Połączenie języka R lub Python z językiem znaczników markdown z wykorzystaniem Quarto umożliwia tworzenie plików zawierających zarówno kod, jak i tekst oraz wyniki obliczeń, które można eksportować do plików:

Pliki źródłowe mają zawsze rozszerzenie .qmd.

3 / 22

R jako narzędzie do raportowania

Połączenie języka R lub Python z językiem znaczników markdown z wykorzystaniem Quarto umożliwia tworzenie plików zawierających zarówno kod, jak i tekst oraz wyniki obliczeń, które można eksportować do plików:

Pliki źródłowe mają zawsze rozszerzenie .qmd.

Poprzednikiem Quarto był R Markdown, który działa na bardzo podobnej zasadzie.

3 / 22

Nowy dokument

4 / 22

Preambuła

Podstawowa

---
title: "Pierwszy raport"
---

Rozszerzona

---
title: "Pierwszy raport"
author: "Łukasz"
format: html
lang: pl
self-contained: true
toc: true
---
  • pole format może przyjmować różne wartości:

    • html
    • pdf
    • docx
    • odt
    • epub
  • pliki html możemy publikować na wiele różnych sposobów

  • pole self-contained z wartością true tworzy tylko jeden plik wynikowy, co ułatwia dystrybucję np. przez wiadomość e-mail

  • pole toc z wartością true dodaje spis treści

5 / 22

Markdown - tekst

Raport zwykle zawiera opisy, które można formatować w następujący sposób:

Kod

To jest zwykły tekst.
_Kursywa_ i __pogrubienie__.
Enter nie wystarczy, żeby przejść
do nowej linii - trzeba wstawić
co najmniej __dwie spacje__.

Wynik

To jest zwykły tekst.
Kursywa i pogrubienie.
Enter nie wystarczy, żeby przejść
do nowej linii - trzeba wstawić
co najmniej dwie spacje.

6 / 22

Nagłówki

Struktura dokumentu definiowa jest przez nagłówki.

Kod

# Nagłówek pierwszego stopnia
## Nagłówek drugiego stopnia
### Nagłówek trzeciego stopnia

Wynik

Nagłówek pierwszego stopnia

Nagłówek drugiego stopnia

Nagłówek trzeciego stopnia

7 / 22

Listy

Kod

1. Pozycja 1
1. Pozycja 2
1. Pozycja 3
- Pozycja 3a
- Pozycja 3b

Wynik

  1. Pozycja 1
  2. Pozycja 2
  3. Pozycja 3
    • Pozycja 3a
    • Pozycja 3b
8 / 22

Linki

Adresy stron internetowych automatycznie zamieniają się na linki. Można też stworzyć tekst, który będzie prowadził do strony.

Kod

https://cdv.pl/
[Collegium Da Vinci](https://cdv.pl/)

Wynik

https://cdv.pl/

Collegium Da Vinci

9 / 22

Tabela

Kod

| abc | def | ghi |
|-----|----:|:---:|
| 1 | 2 | 3 |
| 4 | 5 | 6 |
| 7 | 8 | 9 |

Wynik

abc def ghi
1 2 3
4 5 6
7 8 9
10 / 22

Wzory

  • składnia LaTeX

Kod

$\frac{1}{2} \cdot \sqrt{4}=1$
$$\sigma \sim N(0,1)$$

Wynik

124=1

σN(0,1)

11 / 22

LaTeX

Oprogramowanie do zautomatyzowanego składu tekstu, a także związany z nim język znaczników, służący do formatowania dokumentów tekstowych i tekstowo-graficznych.

12 / 22

Kod R

  • wstawienie chunka (kawałek, klocek, blok): ctrl + alt + i (jak insert)

  • wyniki pojawiają się poniżej chunka, a nie w konsoli lub dedykowanych zakładkach

  • trzeba pamiętać o spójności kodu, ponieważ w trakcie generowania dokumentu kod jest po kolei wykonywany

  • zaczyna się i kończy trzema grawisami (znak po lewej stronie klawisza 1 na klawiaturze)

13 / 22

Opcje chunka

Opcje można ustawiać globalnie (dla całego dokumentu) lub lokalnie (dla konkretnego chunka).

  • eval - wykonaj kod w chunku: domyślnie true, wartość false jedynie wyświetla kod
  • echo - wyświetl kod źródłowy w dokumencie
  • output - wyświetl wynik działania kodu w dokumencie
  • warning - wyświetl ostrzeżenia i komunikaty w dokumencie
  • error - zatrzymaj tworzenie dokumentu w przypadku wystąpienia błędu
  • fig-height - wysokość rysunku (w calach)
  • fig-width - szerokość rysunku (w calach)

Żródło

14 / 22

Opcje chunka

Ustawienia lokalne

#| echo: false
#| fig-height: 4

Ustawienia globalne

---
execute:
echo: false
warning: false
---
15 / 22

Odnośniki i tytuły

Quarto umożliwia także dodawanie odnośników do tabel, rysunków, kodu, sekcji i wzorów.

Tabela

  • Stworzenie etykiety w chunku
#| label: tbl-iris
#| tbl-cap: "6 obserwacji ze zbioru irysy"
  • Odwołanie się w tekście

@tbl-iris przedstawia dane ze zbioru irysy.

Rysunek

  • Stworzenie etykiety w chunku
#| label: fig-sepal-len-width
#| fig-cap: "Wykres"
  • Odwołanie się w tekście

Na wykresie [-@fig-sepal-len-width] przedstawiono...

Należy pamiętać o odpowiednich przedrostkach, więcej informacji na temat odnośników znajduje się na stronie quarto.

16 / 22

Tabele ze zbioru

Funkcja kable() z pakietu knitr przekazuje zbiór do formatu html.

iris %>%
head() %>% # pierwsze 6 obserwacji ze zbioru
knitr::kable()
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa
17 / 22

Tabele ze zbioru

Dodanie następującej opcji do preambuły:

format:
html:
df-print: paged

umożliwia stworzenie przeglądarki do większych zbiorów danych. Wówczas w chunku wystarczy wpisać nazwę zbioru dla którego chcemy stworzyć taki element.

18 / 22

Wyniki kodu w tekście

W zwykłym tekście poza chunkiem można wstawiać wyniki obliczone przez R wstawiając grawisy, literę r oraz kod, który ma wyświetlić pożądany wynik.

Kod
Średnia długość płatków irysów wynosi

` r round(mean(iris$Petal.Length),2) ˋ

centymetry.

Wynik

Średnia długość płatków irysów wynosi 3.76 centymetry.

19 / 22

Polski słownik

RStudio będzie sugerował błędy w słowach w języku polskim poprzez czerwone podkreślenie. W celu poprawy komfortu pracy można dodać słownik języka polskiego. Z repozytorium LibreOffice pobieramy plik pl_PL.dic i dodajemy go do programu: Tools -> Global options -> Spelling

20 / 22

Zadanie

  1. Dodaj do dokumentu dowolny wykres stworzony na podstawie zbioru pracownicy. Nie wyświetlaj kodu tego wykresu.

  2. W raporcie umieść zdanie Średni wiek pracowników wynosi X lat, gdzie X to wartość obliczona na podstawie zbioru danych.

  3. Umieść w raporcie tabelę zawierającą średnie wynagrodzenia (początkowe i bieżące) w grupach kategorii pracownika.

10:00
21 / 22

Pytania?

22 / 22

Zbiór danych - pracownicy

  • id - kod pracownika
  • plec - płeć pracownika (0 - mężczyzna, 1 - kobieta)
  • data_urodz - data urodzenia
  • edukacja - wykształcenie (w latach nauki)
  • kat_pracownika - grupa pracownicza (1 - specjalista, 2 - menedżer, 3 - konsultant)
  • bwynagrodzenie - bieżące wynagrodzenie
  • pwynagrodzenie - początkowe wynagrodzenie
  • staz - staż pracy (w miesiącach)
  • doswiadczenie - poprzednie zatrudnienie (w miesiącach)
  • zwiazki - przynależność do związków zawodowych (0 - nie, 1 - tak)
  • wiek - wiek (w latach)
2 / 22
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow