Python에서 샘플 데이터 세트를 로드하는 방법

Python에서 샘플 데이터 세트를 로드하는 방법

이번 포스트에서는 파이썬에서 샘플 데이터셋을 불러오는 방법에 대해 알아보겠습니다. 이것은 가장 매력적인 주제처럼 보이지 않을 수도 있지만 실제로는 매우 중요합니다. 이상적으로는 새로운 개념을 배울 때 연습할 수 있는 Python 데이터 세트가 있을 것입니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.

코드를 공유하거나 수행 한 작업을 문서화하거나 도움 이 필요한 경우 일반적으로 사용 가능한 데이터 세트를 사용하여 최소한으로 재현할 수 있는 예제를 작성하는 것이 좋습니다 .

인터넷의 다른 누군가가 실행하고 도움을 줄 수 있는 사전 번들 코드 또는 스크립트를 갖게 될 것입니다. 이러한 최소한의 재현 가능한 예제를 생성하지 않으면 스택 오버플로와 같은 곳에서 불이 붙을 수 있으며 익숙하지 않은 경우 약간의 충격이 될 수 있습니다.

Python에서 샘플 데이터 세트를 로드하는 방법

이러한 최소한으로 재현 가능한 예제를 빌드하고 데이터 세트를 가져오는 몇 가지 방법을 살펴보겠습니다. 미리 만들어진 데이터 세트를 Python으로 로드하고 해당 코드를 공유하는 데 사용할 수 있는 몇 가지 패키지가 있습니다.

가장 일반적인 세 ​​가지 패키지를 살펴보겠습니다. 빈 Jupyter 노트북을 실행하고 시작하겠습니다.

Python에서 샘플 데이터 세트를 로드하는 방법

목차

Sklearn에서 Python의 데이터 세트 로드

첫 번째로 살펴볼 것은 Sklearn 입니다 . Anaconda를 사용하는 경우 다운로드할 필요가 없습니다. Python에 대해 더 많은 도움이 필요한 경우 LuckyTemplates에 등록할 수 있는

나는 당신이 패키지와 같은 것에 대해 이미 알고 있다고 가정하고 거기에서 갈 것입니다. 우리는 pandas와 Sklearn, 특히 dataset 하위 모듈을 가져올 것입니다.

Python에서 샘플 데이터 세트를 로드하는 방법

우리는 이러한 데이터 세트 중 몇 가지를 가져올 것입니다. 기계 학습 데이터 라이브러리인 Scikit-learn 은 이를 장난감 데이터 세트라고 부릅니다. 주택 가격 데이터 세트인 Boston을 로드할 것입니다. 이것을 가져올 때 데이터 프레임으로 가져와야 합니다.

데이터와 열이 Scikit-learn 데이터 세트에서 온다는 것을 실제로 지정하고 기능 변수와 대상 변수를 분리해야 합니다.

Python에서 샘플 데이터 세트를 로드하는 방법

우리는 이것을 데이터 프레임으로 가져와 작동하고 다른 작업을 수행할 수 있습니다. Panda는 LuckyTemplates 사용자가 알고 있는 훌륭한 패키지입니다.

Vega 데이터 세트에서 Python의 데이터 세트 로드

우리가 배울 수 있는 또 다른 옵션은 Vega 데이터 세트 패키지입니다. 이것은 Anaconda에서 사용할 수 없지만 PIP를 통해 설치할 수 있습니다. 이것은 Vega 데이터 세트를 설치하고 로컬 데이터 모듈을 설치하거나 가져오기 위해 명령줄에 입력할 내용입니다.

Python에서 샘플 데이터 세트를 로드하는 방법

이들 중 일부는 실제로 얻을 수 있지만 웹 연결이 필요합니다. 로컬 데이터를 가져와 실행하여 로컬에 설치된 것을 가져올 것입니다.

Python에서 샘플 데이터 세트를 로드하는 방법

보시다시피 꽤 많은 데이터 세트가 있습니다. 이들 중 일부는 시계열이고 일부는 범주형 또는 연속형 변수가 있습니다. 헤드 메서드를 실행할 수 있도록 데이터 프레임에서 자동차 데이터 세트를 선택해 보겠습니다.

Python에서 샘플 데이터 세트를 로드하는 방법

이제 사용하고 공유할 수 있는 또 다른 샘플 데이터 세트가 있습니다.

Python에서 샘플 데이터 세트를 로드하는 방법

Seaborn에서 Python으로 데이터 세트 로드

Seaborn은 Anaconda 배포판에서 사용할 수 있는 또 다른 패키지입니다. 기본적으로 Seaborn은 데이터 시각화로 가장 잘 알려져 있지만 사용할 수 있는 몇 가지 훌륭한 샘플 데이터 세트도 있습니다. 이것이 데이터 세트를 얻기 위해 입력할 내용입니다.

Python에서 샘플 데이터 세트를 로드하는 방법

보시다시피 여기에는 꽤 많은 데이터 세트가 있습니다. 계속해서 penguins 데이터 세트를 사용하고 처음 몇 행을 다시 가져옵니다.

Python에서 샘플 데이터 세트를 로드하는 방법

결과는 우리가 연습할 또 다른 데이터 세트입니다.

Python에서 샘플 데이터 세트를 로드하는 방법

여기서 아이디어는 연습할 데이터 세트를 갖는 것이 아닙니다. 누락된 값이 있거나, 데이터 세트를 삭제하는 데 문제가 있거나, 범주형 변수를 채우고 싶거나, 민감한 데이터를 제공하지 않고 다른 사람에게 예를 보여주고 싶은 경우 공개적으로 액세스할 수 있는 데이터 세트 중 정말 정말 쉬운 데이터 세트 중 하나를 사용할 수 있습니다. 사람들이 사용하고 공유할 수 있도록. 이것이 최소한으로 재현 가능한 예의 아이디어입니다.

Python 스크립팅을 사용하는 LuckyTemplates LuckyTemplates에서 날짜 테이블 Python 만들기
: LuckyTemplates 사용자를 위한 Python I 설치 및 설정 방법
- LuckyTemplates 교육 플랫폼의 새 과정

결론

요약하면 샘플 데이터 세트를 찾을 수 있는 세 곳이 있습니다. Scikit-learn은 기계 학습 패키지입니다. 전환하기가 조금 어렵지만 기계 학습과 관련된 작업을 수행하는 경우 여기를 방문하십시오. Vega 데이터 세트는 특히 웹에서 데이터 세트를 가져오는 방법을 사용하는 경우 상당히 많은 수의 데이터 세트를 가지고 있지만 로드하기가 상대적으로 어렵기 때문에 PIP를 사용해야 하고 Anaconda와 함께 사전 설치되어 있어야 합니다. Seaborn은 데이터 프레임을 로드하고 샘플 데이터 세트 및 재현 가능한 예제를 사용할 때 많은 다재다능함을 가지고 있기 때문에 최적의 장소입니다.

Stack Overflow에는 최소 재현 가능한 예제 또는 MRE를 작성하는 방법에 대한 자습서도 있으므로 온라인에 게시하려는 경우 확인하십시오.

좋은 데이터 세트를 얻을 수 있는 곳을 알고 좋은 MRE를 공유하는 것은 분석가로서 갖추어야 할 정말 중요한 기술입니다.

이 특정 튜토리얼에서 다루는 내용이 마음에 드셨다면 LuckyTemplates TV 채널을 구독하십시오. 저와 다양한 콘텐츠 작성자가 항상 제공하는 엄청난 양의 콘텐츠가 있습니다. 모두 LuckyTemplates 및 Power Platform을 사용하는 방식을 개선하는 데 전념하고 있습니다.


파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

R에서 RDS 파일을 저장하고 로드하는 방법

R에서 RDS 파일을 저장하고 로드하는 방법

R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.

LuckyTemplates의 컨텍스트 필터링 소개

LuckyTemplates의 컨텍스트 필터링 소개

이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.

LuckyTemplates를 사용한 비즈니스 보고

LuckyTemplates를 사용한 비즈니스 보고

지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것