+ - 0:00:00
Notes for current slide
Notes for next slide

Podstawy programowania

Wczytywanie danych

© Łukasz Wawrowski

1 / 15

Zestaw analityka - tidyverse

install.packages("tidyverse")
  • readxl - wczytywanie plików Excela
  • haven - wczytywanie plików SAS, SPSS, Stata
  • jsonlite - wczytywanie JSON
  • xml2 - wczytywanie XML
  • httr - dostęp do stron html
  • rvest - web scraping
  • DBI - dostęp do baz danych
  • hms - operacje na czasie dnia
  • blob - przechowywanie danych binarnych
  • magrittr - przetwarzanie potokowe %>%
  • glue - łączenie tekstów
library("tidyverse")
  • dplyr - przetwarzanie danych tabelarycznych
  • forcats - operacje na czynnikach
  • ggplot2 - wykresy
  • lubridate - operacje na datach
  • purrr - programowanie funkcyjne
  • readr - wczytywanie plików tekstowych
  • stringr - operacje na tekstach
  • tibble - nowoczesny data.frame
  • tidyr - porządkowanie danych

Strona projektu Tidyverse

2 / 15

Instalacja vs. wczytywanie

3 / 15

Struktura projektu

project/
├── data/
├── docs/
├── figs/
├── output/
├── 01_input.R
└── 02_analysis.R
4 / 15

Pliki tekstowe i csv

Pakiet readr:

  • read_delim() - ogólna funkcja do plików tekstowych

  • read_csv() - uwzględnia nagłówek, separator kolumn to przecinek, separator miejsc dziesiętnych to kropka

  • read_csv2() - uwzględnia nagłówek, separator kolumn to średnik, separator miejsc dziesiętnych to przecinek

--

R dostarcza także funkcje read.csv(), read.csv2(), read.delim(), które są starszymi odpowiednikami funkcji z pakietu readr.

5 / 15

Pliki Excela

Pakiet readxl:

  • read_excel() - określa format na podstawie pliku

  • read_xls() - wczytuje pliki .xls

  • read_xlsx() - wczytuje pliki .xlsx

6 / 15

Pliki SAS, SPSS, Stata

Pakiet haven:

  • read_sas() - wczytuje pliki .sas

  • read_sav() - wczytuje pliki .sav

  • read_stata() - wczytuje pliki .dta

7 / 15

Wczytywanie danych o formacie R

  • load("zbior.RData")

  • dane <- readRDS("zbior.RDS")

8 / 15

Zapisywanie danych o formacie R

Zapisywanie do formatu R:

  • save(dane, file = "zbior.RData")

  • save(dane1, dane2, file = "zbior.RData")

  • saveRDS(dane, file = "zbior.RDS")

9 / 15

Zapisywanie danych

Zapisywanie do pliku tekstowego (txt, csv):

  • write_csv(x = obiekt, file = "plik.csv")

  • write_csv2(x = obiekt, file = "plik.csv")

Zapisywanie do pliku Excela z pakietem openxlsx:

  • write.xlsx(x = obiekt, file = "plik.xlsx")
10 / 15

Wczytanie zbioru danych

Importujemy zbiór danych dotyczący wyników wyborów parlamentarnych w 2023 roku.

Plik z danymi: http://wawrowski.edu.pl/data/wybory2023.csv

Źródło

11 / 15

Zadanie

Wywołaj funkcję summary() na wczytanym zbiorze danych.

02:00
12 / 15

Pakiet janitor

Surowe dane zwykle nie posiadają nazw kolumn przystosowanych do przetwarzania przez komputer

  • nazwy zmiennych nie powinny zawierać polskich liter i spacji

  • nazwy zmiennych nie powinny zaczynać się od liczby

Te problemy rozwiązuje pakiet janitor (dozorca, woźny) i funkcja clean_names():

zbior <- janitor::clean_names(zbior)
  • funkcja ta zamienia wielkie litery na małe, spacje na podkreślniki i znaki transliteruje do ASCII.
13 / 15

Zadanie

Wczytaj do R plik movies: http://wawrowski.edu.pl/data/movies.csv i wywołaj na nim funkcję summary().

05:00
14 / 15

Pytania?

15 / 15

Zestaw analityka - tidyverse

install.packages("tidyverse")
  • readxl - wczytywanie plików Excela
  • haven - wczytywanie plików SAS, SPSS, Stata
  • jsonlite - wczytywanie JSON
  • xml2 - wczytywanie XML
  • httr - dostęp do stron html
  • rvest - web scraping
  • DBI - dostęp do baz danych
  • hms - operacje na czasie dnia
  • blob - przechowywanie danych binarnych
  • magrittr - przetwarzanie potokowe %>%
  • glue - łączenie tekstów
library("tidyverse")
  • dplyr - przetwarzanie danych tabelarycznych
  • forcats - operacje na czynnikach
  • ggplot2 - wykresy
  • lubridate - operacje na datach
  • purrr - programowanie funkcyjne
  • readr - wczytywanie plików tekstowych
  • stringr - operacje na tekstach
  • tibble - nowoczesny data.frame
  • tidyr - porządkowanie danych

Strona projektu Tidyverse

2 / 15
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow