Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

이 튜토리얼은 dplyr 패키지 에 대한 논의의 연속입니다 . R에서 행을 정렬, 필터링 및 그룹화하는 방법을 배웁니다.

이전 수업은 열 작업에 관한 것이었습니다. 이번에는 dplyr 의 행 작업 에 초점을 맞춥니다 .

데이터 세트 정렬 및 필터링 과 레코드 집계 및 요약을 포함하는 기본 사항을 다룰 것입니다 . 이 강의에서 예상할 수 있는 내용에 대한 개요를 제공하기 위해 MS Excel의 피벗 테이블을 생각해 보십시오.

목차

시작하기
행 연산을 위한 기본 함수
결론

시작하기

RStudio에서 새 R 스크립트를 엽니다.

열 작업 강의와 유사하게 이 데모에서는 Lahman 데이터 세트 패키지를 사용합니다 . 빠른 Google 검색을 수행하여 다운로드하십시오.

Lahman 패키지를 R로 가져오려면 library (Lahman) 를 실행하십시오 . dplyr 패키지를 활성화하려면 library (tidyverse) 를 실행하십시오 . 또한 R에서 이름 지정 규칙에 대한 모범 사례는 소문자를 사용하므로 팀을 팀 으로 지정하는 것임을 기억하십시오 .

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

행 연산을 위한 기본 함수

1. R에서 행 정렬

dpyLR의 첫 번째 행 연산은 배열() 입니다 . 이 기능을 사용하면 행을 재정렬할 수 있습니다. 먼저 데이터 프레임 df 를 정렬한 다음 지정된 필드를 정렬하여 작동합니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

예를 들어 teamID 로 정렬해 보겠습니다 . 정렬(teams, teamID) 을 실행합니다 .

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

내림차순으로 정렬하려면 desc( ) 함수를 사용해야 합니다.

예를 들어 연도별로 내림차순으로 정렬하려면 배열 (teams, desc(yearID)) 를 실행합니다 .

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

이렇게 하면 출력을 팀 에 다시 할당하지 않습니다 . 콘솔에 결과가 표시됩니다.

여러 기준으로 정렬하는 것도 가능합니다. 예를 들어 teamID를 기준으로 정렬한 다음 yearID를 내림차순으로 정렬하려면 다음 코드만 실행하면 됩니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

행을 정렬하면 데이터가 변경되지 않습니다. 데이터가 이동되고 있습니다. 아무것도 추가되거나 제거되지 않습니다.

2. R에서 행 필터링

필터 ( ) 기능은 선택한 기준에 따라 데이터를 추가하거나 제거합니다. 기본 코드는 다음과 같습니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

예를 들어 yearID가 2000보다 크거나 같은 모든 데이터를 가져옵니다. 필터 함수의 형식을 따르고 필요한 정보를 입력합니다. 그런 다음 실행하십시오. 이것을 새 개체에 할당하는 것을 잊지 마십시오. 이 경우에는 현대 에 할당되었습니다 .

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

행이 실제로 필터링되었는지 확인하려면 dim( ) 함수를 사용할 수 있습니다. 데이터 프레임의 행과 열 수를 제공합니다.

dim (teams) 을 실행하면 데이터 프레임에 2,955개의 행과 48개의 열이 있음을 알 수 있습니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

modern 에서 dim 함수를 실행하면 행 수가 630개로 줄어들고 열 수는 동일하게 유지되는 것을 볼 수 있습니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

일부 레코드가 2000년 이후에 있기 때문에 행이 잘렸습니다.

여러 필드로 행 필터링

R에서 여러 필드로 행을 필터링하는 것도 가능합니다. AND 및 OR 문을 사용해야 합니다 .

예를 들어 영역별로 팀을 필터링해 보겠습니다. 이 경우 새 객체 ohio가 생성됩니다. 필터 기준은 teamID가 Cleveland 와 Cincinnati만 포함해야 한다는 것입니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

동일한지 확인하려면 이중 등호 ( == )를 사용해야 합니다 . 하나의 등호만 사용하는 경우 R은 이를 대입 연산자로 간주합니다. 앰퍼샌드( & )를 사용하여 AND를 나타냅니다 .

확인하려면 dim 기능을 사용하십시오. 행 수가 0인 것을 볼 수 있습니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

이것은 클리블랜드와 신시내티에 기반을 둔 팀이 없다는 것을 의미합니다.

다음으로 Cleveland OR Cincinnati를 시도해 보겠습니다 . OR 연산자는 파이프 연산자( | )로 표시됩니다. 따라서 앰퍼샌드를 파이프 연산자로 바꾼 다음 실행하기만 하면 됩니다. 그런 다음 dim 기능을 다시 실행하십시오.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

0이 아니라 251개의 행이 있음을 알 수 있습니다.

이제 이중 등호를 사용하는 것을 잊고 대신 하나만 사용하면 어떻게 될까요? 결과는 다음과 같습니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

RStudio는 콘솔에 이중 등호를 사용하도록 알려주는 매우 유용한 오류 메시지를 표시합니다.

3. R에서 행 그룹화 및 요약

그룹 기준( ) 기능을 사용하면 선택한 열별로 레코드를 집계한 다음 해당 집계를 기반으로 다른 열을 요약할 수 있습니다.

group by( ) 함수는 다음 알고리즘을 따릅니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

예를 들어 teamID 별로 그룹화 하고 새 개체에 할당해 보겠습니다. 이 경우 새 개체는 team_ID 입니다 . 그런 다음 인쇄하십시오.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

콘솔에서 첫 번째 줄이 tibble 이라는 것을 알 수 있습니다 .

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

tibble 은 기본 데이터 프레임에 대한 깔끔한 개선입니다. 바로 사용할 수 있는 기능을 강화하고 개선하는 패키지의 기능입니다.

두 번째 줄은 Groups 입니다 . 따라서 데이터는 이제 teamID 열로 그룹화됩니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

이제 해당 그룹에 대해 요약( ) 기능을 사용할 수 있습니다.

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

참고: 요약 기능은 s 또는 z와 함께 사용할 수 있으며 영국 또는 미국 영어 사용에 따라 달라집니다.

예를 들어, team_ID를 요약 하고 몇 가지 기본 요약 통계를 가져옵니다. 각 팀의 Wins 평균, 최소 및 최대를 찾아봅시다. Run 을 선택하기 전에 전체 코드를 강조 표시해야 합니다 .

Dplyr를 사용하여 R에서 행 정렬, 필터링 및 그룹화

그러면 콘솔에서 각 팀의 통계 요약이 표시되는 것을 볼 수 있습니다. 이는 데이터를 집계하고 요약하는 피벗 테이블과 매우 유사합니다.

R의 데이터 프레임: R의 기본
요소 수준 학습: 범주 및 순서 변수 사용
dplyr를 사용하여 R에서 열 추가, 제거 및 이름 바꾸기

결론

요약하면 dplyr의 두 가지 작업이 논의되었습니다. 이전 자습서는 열 작업에 중점을 두었습니다. 한편, 이번 강의에서는 RStudio에서 dplyr 패키지를 사용하여 행 작업을 수행하는 방법을 보여주었습니다. 특히 R에서 행을 정렬, 필터링 및 그룹화하는 방법을 배웠습니다.

다음으로 배울 것은 이 두 작업을 결합하는 방법입니다. 지금까지 배운 모든 함수를 사용하면 R에서 코드를 작성하는 데 큰 도움이 됩니다. 그러나 더 유용한 기술은 파이프라인입니다. 이것은 모든 것이 함께 흐르는 데 도움이 될 것입니다. 따라서 다음 자습서도 검토하십시오.

Leave a Comment

SharePoint의 계산된 열 | 개요

SharePoint의 계산된 열 | 개요

SharePoint에서 계산된 열의 중요성과 목록에서 자동 계산 및 데이터 수집을 수행하는 방법을 알아보세요.

Power Apps에서 변수 만들기: 컬렉션 작업

Power Apps에서 변수 만들기: 컬렉션 작업

컬렉션 변수를 사용하여 Power Apps에서 변수 만드는 방법 및 유용한 팁에 대해 알아보세요.

Microsoft Flow HTTP 트리거 | Power Automate 자습서

Microsoft Flow HTTP 트리거 | Power Automate 자습서

Microsoft Flow HTTP 트리거가 수행할 수 있는 작업과 Microsoft Power Automate의 예를 사용하여 이를 사용하는 방법을 알아보고 이해하십시오!

Power Automate 흐름: 사용법 및 유형 설명

Power Automate 흐름: 사용법 및 유형 설명

Power Automate 흐름 및 용도에 대해 자세히 알아보세요. 다양한 작업 및 시나리오에 사용할 수 있는 다양한 유형의 흐름에 대해 설명합니다.

흐름에서 Power Automate 종료 작업 제어

흐름에서 Power Automate 종료 작업 제어

조건이 충족되지 않는 경우 흐름에서 작업을 종료하는 Power Automate 종료 작업 컨트롤을 올바르게 사용하는 방법을 알아봅니다.

PowerApps 시작 기능: 앱에서 다른 서비스를 시작하는 방법

PowerApps 시작 기능: 앱에서 다른 서비스를 시작하는 방법

PowerApps 실행 기능에 대해 자세히 알아보고 자신의 앱에서 바로 웹사이트, 전화, 이메일 및 기타 앱과 같은 기타 서비스를 실행하십시오.

Power Automate의 HTTP 요청 – 소개

Power Automate의 HTTP 요청 – 소개

타사 애플리케이션 통합과 관련하여 Power Automate의 HTTP 요청이 작동하는 방식을 배우고 이해합니다.

Power Automate Desktop: 마우스 클릭 보내기 기능을 사용하는 방법

Power Automate Desktop: 마우스 클릭 보내기 기능을 사용하는 방법

Power Automate Desktop에서 Send Mouse Click을 사용하는 방법을 알아보고 이것이 어떤 이점을 제공하고 흐름 성능을 개선하는지 알아보십시오.

PowerApps 변수: 컨텍스트 및 전역 변수 식별

PowerApps 변수: 컨텍스트 및 전역 변수 식별

PowerApps 변수의 작동 방식, 다양한 종류, 각 변수가 앱에 기여할 수 있는 사항을 알아보세요.

Power Automate에서 실행할 데스크톱 흐름 예약

Power Automate에서 실행할 데스크톱 흐름 예약

이 자습서에서는 Power Automate를 사용하여 웹 또는 데스크톱에서 작업을 자동화하는 방법을 알려줍니다. 데스크톱 흐름 예약에 대한 포괄적인 가이드를 제공합니다.