Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
SQL jest jednym z najczęściej używanych języków w różnych branżach, od tworzenia baz danych po naukę o danych i uczenie maszynowe. Administratorzy baz danych używają go do tworzenia i utrzymywania baz danych, podczas gdy analitycy i analitycy danych używają go prawie codziennie do wyodrębniania, przekształcania i ładowania danych.
SQL oznacza Structured Query Language i jest specyficznym dla domeny językiem programowania przeznaczonym do zarządzania danymi i manipulowania nimi w systemach zarządzania relacyjnymi bazami danych (RDBMS).
Gdy zagłębisz się w świat baz danych i zaczniesz uczyć się SQL, często spotkasz ekspertów nazywających SQL językiem uniwersalnym, co oznacza, że jest on szeroko stosowany w systemach relacyjnych baz danych, takich jak MySQL, SQL Server i Oracle.
Mówiąc prościej, jeśli raz nauczysz się SQL, możesz tworzyć, zarządzać i wyszukiwać dane we wszystkich dostępnych relacyjnych bazach danych (i mieć przy tym dużo zabawy).
W tym momencie prawdopodobnie zastanawiasz się, czym jest relacyjna baza danych. Przed rozpoczęciem pracy z bazami danych SQL i SQL należy dobrze zrozumieć podstawowe pojęcia dotyczące relacyjnych baz danych.
Przyjrzyjmy się więc pokrótce relacyjnym bazom danych!
Spis treści
Co to jest relacyjna baza danych?
Relacyjna baza danych to typ bazy danych, która organizuje dane w tabele. Każda tabela składa się z wierszy i kolumn, z którymi możesz pracować. Tabele te są również nazywane relacjami, stąd nazwa „relacyjna baza danych”.
Podstawową zaletą relacyjnej bazy danych jest to, że umożliwia ustanawianie relacji między tabelami za pomocą kluczy. Ta właściwość pomaga zachować spójność i integralność danych oraz ułatwia wydajne wykonywanie zapytań.
Podczas pracy z relacyjnymi bazami danych język SQL służy do tworzenia, modyfikowania i wykonywania zapytań dotyczących danych.
Jak każdy język programowania, aby rozpocząć pracę z bazami danych SQL i SQL, musisz zrozumieć składnię języka SQL. Na szczęście składnia SQL bardzo różni się od wszystkich innych języków programowania i łatwo jest ogarnąć podstawy.
Przyjrzyjmy się składni języka SQL!
Jaka jest składnia SQL?
SQL ma wiele przypadków użycia, a każdy przypadek użycia ma swój własny zestaw składni. Przypadki użycia możemy podzielić na następujące cztery gałęzie:
Język definicji danych (DDL)
Język manipulacji danymi (DML)
Język kontroli danych (DCL)
Język zapytań o dane (DQL)
Jest wysoce prawdopodobne, że nie będziesz musiał znać składni dla wszystkich powyższych przypadków użycia. Na przykład, jeśli jesteś analitykiem danych, będziesz głównie pracował ze składnią zapytań. Jednak znajomość wszystkich przypadków użycia pomoże Ci napisać wydajniejszy kod SQL.
W poniższych sekcjach przyjrzymy się znaczeniu każdej z powyższych gałęzi, a następnie przedstawimy przykłady, które pomogą Ci lepiej zrozumieć składnię języka SQL.
1. Język definicji danych (DDL)
DDL to podzbiór poleceń SQL, który zajmuje się strukturą bazy danych, tabel i innych obiektów. Niektóre typowe polecenia DDL to:
STWÓRZ TABELĘ
ZMIEŃ TABELĘ
Twórz nowe tabele za pomocą CREATE TABLE
CREATE TABLE w SQL umożliwia utworzenie nowej tabeli z określonymi kolumnami i typami danych. Poniżej znajdziesz przykład polecenia CREATE TABLE:
CREATE TABLE employees (
id INT PRIMARY KEY,
first_name VARCHAR(50),
last_name VARCHAR(50),
birth_date DATE
);
Ten kod instrukcji SQL utworzy nową tabelę o nazwie pracowników z określonymi właściwościami kolumny.
Dodaj kolumny do istniejących tabel za pomocą ALTER TABLE
Za pomocą ALTER TABLE możesz modyfikować istniejącą tabelę, na przykład dodawać lub usuwać kolumny. Poniżej znajdziesz przykład dodania nowej kolumny do istniejącej tabeli za pomocą ALTER TABLE.
ALTER TABLE employees
ADD COLUMN email VARCHAR(100);
Te instrukcje SQL dodadzą nową kolumnę o nazwie „email” z typem danych VARCHAR i maksymalną długością 100 znaków do istniejącej tabeli „pracownicy”.
Usuń kolumny z istniejących tabel za pomocą ALTER TABLE
Możesz także użyć ALTER TABLE, aby usunąć kolumny z istniejącej tabeli w bazie danych. W poniższym przykładzie usuniemy kolumnę z tabeli za pomocą ALTER TABLE:
ALTER TABLE employees
DROP COLUMN email;
To polecenie usuwa kolumnę „e-mail” z tabeli „pracownicy”.
USUŃ całą tabelę za pomocą DROP TABLE
Aby usunąć całą tabelę z bazy danych, możesz użyć instrukcji DROP TABLE. Spójrz na poniższy przykład, w którym usuwamy całą tabelę za pomocą instrukcji DROP TABLE:
DROP TABLE employees;
To polecenie usunie całą tabelę „pracownicy”, w tym wszystkie jej dane i ograniczenia.
2. Język manipulacji danymi (DML)
DML koncentruje się na manipulowaniu i modyfikowaniu danych przechowywanych w bazie danych. Niektóre kluczowe polecenia DML obejmują:
WŁÓŻ W
WYBIERAĆ
AKTUALIZACJA
USUWAĆ
Dodaj dane do tabel za pomocą INSERT INTO
Po utworzeniu tabeli chcesz dodać do niej dane. Aby to zrobić, możesz użyć instrukcji INSERT INTO.
Poniższy przykład ilustruje dodawanie danych do utworzonej powyżej tabeli pracowników .
INSERT INTO employees (id, first_name, last_name, birth_date)
VALUES (1, 'John', 'Doe', '1985-03-20');
INSERT INTO employees (id, first_name, last_name, birth_date)
VALUES (2, 'Jane', 'Smith', '1990-06-15');
INSERT INTO employees (id, first_name, last_name, birth_date)
VALUES (3, 'Alice', 'Johnson', '1987-09-12');
INSERT INTO employees (id, first_name, last_name, birth_date)
VALUES (4, 'Bob', 'Williams', '1992-01-23');
INSERT INTO employees (id, first_name, last_name, birth_date)
VALUES (5, 'Charlie', 'Brown', '1988-11-07');
Powyższe instrukcje SQL dodadzą 5 nowych wpisów do tabeli pracowników .
Usuń dane z tabeli za pomocą DELETE
Możesz użyć instrukcji DELETE, aby usunąć rekordy z tabel danych.
Załóżmy, że chcesz usunąć pracownika o identyfikatorze 3 z tabeli „pracownicy”. Możesz użyć następującej instrukcji DELETE:
DELETE FROM employees
WHERE id = 3;
Pobieranie danych z tabel za pomocą SELECT
Instrukcja SELECT jest jedną z najczęściej używanych przez analityków danych i naukowców. Pozwala na pobieranie danych zapisanych w tabeli danych.
W poniższym przykładzie używamy instrukcji SELECT do pobrania danych przechowywanych w tabeli pracowników .
SELECT * FROM employees;
Znak „*” mówi kompilatorowi, aby wycofał wszystkie dane z tabeli pracowników .
Zmodyfikuj istniejące dane w tabeli za pomocą UPDATE
Jeśli chcesz wprowadzić jakiekolwiek zmiany w danych przechowywanych w tabelach, możesz użyć instrukcji UPDATE w języku SQL.
Załóżmy, że chcesz zaktualizować nazwisko pracownika o identyfikatorze 1 w tabeli „pracownicy”. Możesz użyć następującej instrukcji UPDATE:
UPDATE employees
SET last_name = 'UpdatedLastName'
WHERE id = 1;
Te instrukcje SQL zmienią last_name w tabeli pracowników, gdzie id jest równe 1.
3. Język kontroli danych (DCL)
DCL umożliwia zarządzanie dostępem i uprawnieniami w bazie danych. Za pomocą poleceń DCL można nadawać, odbierać lub modyfikować uprawnienia użytkownika.
Niektóre typowe polecenia DCL to:
DOTACJA
UNIEWAŻNIĆ
Użyj GRANT, aby określić uprawnienia dla użytkownika lub grupy
Załóżmy, że chcesz nadać uprawnienia SELECT i INSERT w tabeli „pracownicy” użytkownikowi o nazwie „użytkownik1”. Możesz użyć następującej instrukcji GRANT:
GRANT SELECT, INSERT ON employees TO user1;
Te instrukcje SQL pozwolą „użytkownikowi 1” WYBRAĆ i WSTAWIĆ dane do tabeli „pracownicy”.
Użyj REVOKE, aby usunąć określone uprawnienia użytkownika lub grupy
Jeśli chcesz usunąć uprawnienie INSERT z „user1” w tabeli „pracownicy”, możesz użyć następującej instrukcji REVOKE:
REVOKE INSERT ON employees FROM user1;
Te instrukcje SQL usuną uprawnienie INSERT z „użytkownika1” w tabeli „pracownicy”, jednocześnie umożliwiając im WYBIERANIE danych z tabeli.
4. Język zapytań o dane (DQL)
DQL zajmuje się wyłącznie pobieraniem danych z bazy danych. W SQL głównym poleceniem DQL jest SELECT. Za pomocą polecenia SELECT możesz określić, które kolumny mają zostać pobrane, zastosować filtry i połączyć wiele tabel.
W poniższym przykładzie używamy instrukcji DQL do pobierania danych i stosowania do nich filtrów.
SELECT *
FROM employees
WHERE birth_date > '1990-01-01'
ORDER BY birth_date ASC;
W tych instrukcjach SQL klauzula WHERE określa, że zwracane powinny być tylko wiersze z datą urodzenia większą niż „1990-01-01”. Instrukcja ORDER BY sortuje wynik w porządku rosnącym.
Jednym z kluczowych aspektów SQL jest to, że można go łatwo zintegrować ze środowiskiem, w którym pracujesz. Na przykład, jeśli tworzysz aplikację w Pythonie , możesz zintegrować SQL i Python razem, aby uruchamiać zapytania SQL w Pythonie.
Aby dowiedzieć się więcej o używaniu języka SQL do wysyłania zapytań do danych, obejrzyj następujący film:
W następnej sekcji omówimy popularne integracje obsługiwane przez SQL. Wejdźmy w to!
Wszechstronność i integracja języka SQL
SQL łatwo integruje się z językami takimi jak Python, C++ i Java. Podczas pracy z analizą danych lub projektami data science przekonasz się o skuteczności integracji SQL z innymi językami programowania. Bezproblemowa integracja pomaga wydajnie obsługiwać duże zbiory danych.
Niektóre kluczowe zalety języka SQL i jego integracji z językami programowania obejmują:
Python : biblioteka pandas Pythona umożliwia płynną integrację SQL, umożliwiając odczytywanie i zapisywanie danych z baz danych SQL. Ponadto biblioteki, takie jak SQLAlchemy, zapewniają solidne wsparcie dla pracy z relacyjnymi bazami danych przy użyciu razem języka SQL i Pythona .
C++ : Biblioteki takie jak sqlpp11 i nanodbc umożliwiają łączenie się i interakcję z relacyjnymi bazami danych przy użyciu SQL w kodzie C++. Biblioteki te ułatwiają wykonywanie zapytań SQL i zarządzanie połączeniami z bazami danych w środowisku C++.
Java : interfejs API JDBC języka Java umożliwia bezproblemową integrację z bazą danych SQL. Dzięki JDBC możesz łączyć się, wykonywać zapytania i manipulować danymi z kodu Java.
Używanie SQL wraz z tymi językami programowania poprawi twoją biegłość w analizie danych. Daje to możliwość tworzenia wydajniejszych i solidniejszych rozwiązań opartych na danych.
Ze względu na szerokie zastosowanie SQL , kilka wiodących firm zbudowało własne systemy zarządzania relacyjnymi bazami danych, które używają SQL jako podstawowego języka. Znajomość tych baz danych ułatwi pracę na różnych platformach.
W następnej sekcji wymieniliśmy niektóre z najlepszych systemów zarządzania relacyjnymi bazami danych.
Jakie są popularne systemy zarządzania relacyjnymi bazami danych?
Podczas poznawania języka SQL natkniesz się na różne systemy zarządzania relacyjnymi bazami danych, które używają języka SQL jako podstawowego języka do zarządzania przechowywanymi danymi i interakcji z nimi. Każda implementacja SQL ma unikalne cechy i odmiany składni.
Niektóre popularne RBDMS i ich implementacje SQL to: MySQL , SQL Server , Oracle , Oracle v2 i PostgreSQL .
1. MySQL
MySQL to system zarządzania bazami danych typu open source opracowany przez firmę Oracle Corporation. Jest szeroko stosowany w aplikacjach internetowych i bazach danych Oracle i jest znany ze swojej szybkości, niezawodności i łatwości użytkowania.
MySQL obsługuje standardowy SQL i zapewnia szereg dodatkowych funkcji, takich jak wyszukiwanie pełnotekstowe, transakcje i typy danych przestrzennych.
2. Serwer SQL
MS SQL Server to system zarządzania relacyjnymi bazami danych (RDBMS) firmy Microsoft. Oferuje szeroki zakres narzędzi i funkcji wymaganych do zarządzania danymi na poziomie przedsiębiorstwa, takich jak usługi integracyjne, raportowanie i usługi analityczne.
MS SQL Server zapewnia obsługę różnych języków programowania, w tym T-SQL , który rozszerza standardowy SQL o dodatkowe konstrukcje i funkcje charakterystyczne dla SQL Server.
3. Wyrocznia
Oracle to RDBMS opracowany przez Oracle Corporation, obsługujący duże korporacje i przedsiębiorstwa wymagające wysokiego poziomu bezpieczeństwa danych, wydajności i skalowalności.
Oracle oferuje zaawansowane funkcje, takie jak partycjonowanie, odbudowywanie indeksów online, podłączane bazy danych i zmaterializowane widoki.
Oracle v2 to po prostu starsza wersja systemu Oracle RDBMS i chociaż ma tę samą podstawową funkcjonalność, może brakować pewnych funkcji wprowadzonych w późniejszych wersjach.
4. PostgreSQL
PostgreSQL to system zarządzania obiektowo-relacyjnymi bazami danych typu open source (ORDBMS). Kładzie nacisk na rozszerzalność i zgodność z SQL.
PostgreSQL wyróżnia się obsługą zaawansowanych typów danych, metod indeksowania i wszechstronnych opcji zapytań, takich jak wspólne wyrażenia tabel (CTE) i funkcje okien.
Biorąc pod uwagę wszystkie te opcje dostępne na rynku, możesz się zastanawiać, która implementacja RDBMS i SQL jest lepsza. Odpowiedź na to pytanie sprowadza się do wymagań twojego projektu.
Dobrym podejściem jest najpierw zrozumienie wymagań projektu, a następnie poszukiwanie systemu RDBMS, który może spełnić Twoje wymagania.
Końcowe przemyślenia
Dane stały się paliwem naszego cyfrowego świata, ponieważ każdego dnia obserwujemy generowanie ogromnych ilości danych. Aby skutecznie wykorzystać te dane, potrzebujesz potężnego narzędzia, takiego jak SQL.
Jako profesjonalista w dziedzinie nauki o danych, analizy danych, analityki biznesowej lub uczenia maszynowego opanowanie języka SQL jest niezbędne . W rzeczywistości biegłość w SQL może być decydującym czynnikiem decydującym o tym, czy pracodawca cię zatrudni, czy odrzuci.
Poza swoją wartością na rynku pracy, SQL jest nieoceniony dla osób pracujących w dziedzinie danych. Eksperci szacują, że nawet 80% pracy z danymi obejmuje czyszczenie danych i zarządzanie nimi, z czym SQL radzi sobie znakomicie.
Co więcej, integracja języka SQL z różnymi językami programowania, takimi jak Python, C++ i Java, poszerza jego zastosowanie. Pozwala to na tworzenie niezawodnych rozwiązań opartych na danych.
Nauka języka SQL zapewni Ci przewagę konkurencyjną i wszechstronne narzędzie do sprostania wyzwaniom związanym z danymi na Twojej drodze zawodowej.
Tak więc, poruszając się po rozległym krajobrazie zarządzania i analizy danych, pamiętaj o SQL jako niezłomnym towarzyszu. Dzięki potężnej składni i szerokiemu zastosowaniu opanowanie języka SQL może otworzyć wiele możliwości w świecie technologii. Miłego zapytania!
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.