R에서 코드 성능 평가 및 최적화

R 코드를 최적화하면 R 스크립트 및 프로그램의 성능이 크게 향상되어 보다 효율적으로 실행될 수 있습니다. 이것은 크고 복잡한 데이터 세트와 실시간 또는 정기적으로 실행해야 하는 애플리케이션에 특히 중요합니다.

이 자습서에서는 tidyverse 및 data.table과 같은 다양한 R 패키지를 사용하여 R 코드의 성능을 평가하고 최적화합니다 . 예를 들어, read.csv( ) 함수, tidyverse 패키지 및 data.table 패키지를 사용하여 RStudio가 대용량 CSV 파일을 읽는 데 걸리는 시간을 살펴보겠습니다 .

R에서 성능 최적화하기
Microbenchmark를 사용하여 R 패키지 비교
결론

R에서 성능 최적화하기

RStudio를 엽니다. R 스크립트에서 파일 확장자를 변수에 할당합니다.

기능이나 작업을 수행하는 데 걸리는 시간을 확인하려면 system.file( ) 함수를 사용해야 합니다 . 파일을 여는 데 걸리는 시간을 평가하고 싶기 때문에 인수에 read.csv(df)를 작성합니다.

R에서 코드 성능 평가 및 최적화

코드를 실행하면 콘솔에 파일을 여는 데 걸린 시간이 표시됩니다. 경과 열은 CPU가 R 코드를 수행하는 데 걸린 시간을 보여줍니다. 결과는 상당한 시간인 RStudio 31.93초가 걸렸음을 보여줍니다. 항상 대용량 데이터 세트로 작업하는 경우 이 로딩 시간은 비실용적입니다.

R에서 코드 성능 평가 및 최적화

R 코드의 성능을 최적화할 수 있는 방법 중 하나는 tidyverse 패키지를 사용하는 것입니다. 그렇게 하면 시간이 30초에서 5초로 줄어듭니다.

파일을 읽기 위해서는 read_csv( ) 함수를 사용해야 합니다.

R에서 코드 성능 평가 및 최적화

tidyverse 패키지 는 데이터 읽기 및 쓰기를 위한 빠르고 효율적인 기능 집합을 제공하는 readr 패키지를 사용하여 R의 로딩 시간을 개선합니다 . readr 패키지는 대용량 데이터 세트를 빠르고 효율적으로 읽을 수 있는 read_csv( ) 및 read_table( ) 과 같은 기능을 제공합니다.

R의 또 다른 최적화 방법은 data.table 패키지를 사용하는 것입니다. 이것은 인터넷에서 무료로 다운로드할 수 있습니다.

R의 data.table 패키지는 크고 복잡한 데이터 세트 작업을 위한 강력하고 효율적인 도구입니다. 이것은 R의 핵심 데이터 구조인 data.frame 개체의 향상된 버전을 제공합니다. data.table의 주요 이점은 대용량 데이터 세트로 작업할 때 높은 성능과 낮은 메모리 사용량입니다.

이 패키지를 사용할 때 read.csv( ) 대신 fread( ) 함수를 작성해야 합니다 . 이를 코드와 함께 실행하면 로딩 시간이 2.25초로 줄어드는 것을 확인할 수 있습니다.

R에서 코드 성능 평가 및 최적화

Microbenchmark를 사용하여 R 패키지 비교

각 방법 간의 성능을 비교하려면 microbenchmark( ) 기능을 사용할 수 있습니다.

R의 microbenchmark( ) 함수는 R 코드의 성능을 측정하기 위한 도구입니다. R 표현식의 실행 시간을 벤치마킹하기 위한 간단하고 사용하기 쉬운 인터페이스를 제공합니다.

이 기능의 좋은 점은 프로세스가 반복되는 횟수를 설정할 수 있다는 것입니다. 이것은 더 정확한 결과를 제공합니다. 또한 결과가 일관성이 있는지 확인할 수 있습니다.

R에서 코드 성능 평가 및 최적화

LuckyTemplates에서 CSV 파일을 읽는 데 문제가 있는 경우 RStudio에서 해결할 수 있습니다. R에는 코드 성능을 최적화하는 데 사용할 수 있는 다른 옵션이 있습니다. 그러나 단순성 때문에 data.table을 적극 권장합니다.

결론

R 코드 최적화는 R 스크립트가 효율적으로 실행되도록 하는 중요한 단계입니다. 데이터 조작을 위한 tidyverse 패키지 사용, 대규모 데이터 세트를 위한 data.table 패키지 사용, R 코드의 성능 측정을 위한 microbenchmark 패키지 사용 등 R 코드를 최적화하는 데 사용할 수 있는 몇 가지 기술과 도구가 있습니다.

또한 루프 대신 벡터화된 연산을 사용하고, 직접 작성하는 대신 내장 함수를 사용하고, 코드의 메모리 사용량을 염두에 두는 것과 같은 좋은 코딩 방법을 염두에 두는 것도 중요합니다.

모두 제일 좋다,

조지 마운트