파이썬에서 자기란 무엇인가: 실제 사례
파이썬에서 자기란 무엇인가: 실제 사례
이 블로그에서는 Python을 사용하여 텍스트 분석을 수행하여 LuckyTemplates 내의 텍스트 데이터에서 품사를 식별하는 방법을 보여줍니다 . 텍스트 분석을 위해 Python을 사용하는 단계를 다루고 텍스트 분석 프로젝트를 시작하는 데 도움이 되는 예제와 팁을 제공합니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.
목차
소스 데이터
이 자습서에서는 평가할 텍스트가 포함된 즉시 사용 가능한 단어 구름을 사용합니다. 이것은 아래 이미지의 왼쪽에 표시됩니다. 오른쪽에는 형용사나 동사와 같은 다양한 품사를 식별하는 필터가 있습니다.
부사, 명사, 다양한 유형의 명사 또는 동사, 동사 기반인 단어를 걸러낼 수 있습니다. 이는 마케팅 캠페인을 만들고 고객 리뷰에서 단어를 찾을 때 매우 유용합니다.
파워 쿼리 편집기 를 열어 시작하겠습니다 .
원본 데이터에는 ID, 나이, 제목 및 리뷰 텍스트에 대한 열이 있습니다. 검토 텍스트 열에 초점을 맞추고 텍스트 분석을 수행하기 위해 구문 분석할 것입니다. 분석에 유용할 수 있는 다른 범주도 있습니다.
Python을 사용한 텍스트 분석
가져온 일반 데이터부터 시작하겠습니다. 가장 먼저 할 일은 데이터가 많기 때문에 행을 필터링하는 것이고 텍스트 분석을 할 때 시간이 걸립니다.
데이터를 필터링하려면 텍스트 분석을 조금 더 빠르게 하기 위해 처음 50개 행을 가져옵니다.
필터링되면 Python 스크립트 변환 및 실행 으로 이동합니다. 코드가 많지 않기 때문에 여기에 모든 것을 코딩할 것입니다.
패키지 가져오기
Python 스크립트 편집기 를 사용하여 Python 텍스트 분석을 위한 두 개의 패키지를 가져와 보겠습니다 . 변수 pd로 저장할 데이터 조작 라이브러리인 " pandas as pd"를 가져올 것입니다 . 그런 다음 " from text blob " 단어 사이에 대문자를 사용하여 " TextBlob 가져오기"를 수행합니다 .
우리는 항상 문서 문자열을 넣어 우리가 하는 일을 문서화할 수 있습니다. 우리 패키지 위에 #bring in the essential library를 작성합시다 .
변수 이름 바꾸기
스크립트의 첫 번째 줄에는 # 'dataset'이 이 스크립트에 대한 입력 데이터를 보유한다고 말하는 LuckyTemplates에서 제공하는 이 줄이 있습니다. 이 줄은 데이터를 데이터 세트라고 합니다.
"데이터 세트"를 작성하는 데 너무 오래 걸리므로 변경하겠습니다. #change the dataset 변수를 입력 하고 다음 줄에 df = dataset을 입력합니다.
이제 변수를 작성하는 것이 더 짧습니다.
텍스트 분석하기
텍스트 분석을 진행해 보겠습니다. 검토 텍스트는 개별 셀이 있는 열에 있음을 기억하십시오. 이 설정은 우리가 분석을 수행할 수 있도록 모든 텍스트를 함께 원하기 때문에 실제로 도움이 되지 않습니다.
그러나 공백 없이 연결되는 것을 원하지 않으므로 큰따옴표 안에 공백을 두고 코드를 시작하겠습니다 .
그런 다음 .join을 추가 하고 데이터 세트를 보유하는 df 변수를 사용하여 리뷰 텍스트 열을 분리해 보겠습니다 . 열을 분리하는 대괄호 표기법 안에 'Review Text'를 입력 합니다 .
이 코드는 모든 것을 조인하지만 저장해야 하므로 단어라는 변수를 생성하겠습니다 .
모든 단어가 함께 있으면 텍스트 블롭을 사용하여 단어 분석을 시작할 수 있습니다.
가장 먼저 할 일은 텍스트 blob에 단어를 전달하는 데 필요한 blob 변수를 사용하여 품사를 만드는 것입니다 . 우리는 그 텍스트 blob을 사용하고 우리의 words 인 텍스트를 전달할 것입니다 . 이것은 blob = TextBlob(단어)로 입력됩니다 .
이제 해당 blob이 있으므로 blob.tags를 사용하여 parts_of_speech 변수를 생성합니다 . 태그는 각 품사의 약어입니다.
다음에 할 일은 우리가 가져온 Pandas를 사용하여 이것을 데이터 프레임으로 저장하는 것입니다. pd.DataFrame 과 동일한 데이터 라고 하고 parts_of_speech 를 가져옵니다 .
확인을 클릭하여 코드를 실행해 보겠습니다. 코드를 실행한 후 변수 테이블을 가져와야 합니다. 데이터 세트 또는 원본 데이터 가 있습니다 . 데이터 와 df 도 있습니다 .
의도한 결과를 얻지 못한 경우 코드에서 발생할 수 있는 몇 가지 오류를 방지할 수 있는 다양한 방법을 보여줍니다.
Python에서 텍스트 분석을 위한 코드 수정
때때로 우리는 관련된 텍스트의 형식을 변경하는 데 매우 명시적이어야 할 수 있습니다.
df 변수를 호출하고 대괄호 표기법 안에 있는 '리뷰 텍스트 '를 분리한 다음 .astype('str') 을 사용하여 유형을 문자열로 변경 하면 됩니다 . 그런 다음 이것을 df 변수 에 다시 저장하십시오 .
확인을 클릭하여 코드를 다시 실행합니다. 이전에 얻은 것과 동일한 결과를 얻어야 합니다.
이제 데이터가 어떻게 보이는지 확인하기 위해 가져온 마지막 변수인 데이터를 열고 싶습니다 .
우리는 모든 말을 품사로 구분해야 합니다. 아직 열 이름을 지정하지 않았지만 쉽게 지정할 수 있습니다.
이 동일한 텍스트 분석의 이전 버전에서는 첫 번째 열을 Word 로 , 두 번째 열을 Abbreviation 이라고 했습니다 .
품사 쿼리 에서 이러한 약어에 해당하는 실제 단어를 가져와 모두 함께 연결합니다.
이제 Close & Apply 를 해보자 .
우리가 수행한 단계를 통해 간단한 Python 코드 를 사용하여 식별한 다양한 품사를 필터링할 수 있었습니다 . LuckyTemplates에서 텍스트가 속하는 품사 범주에 따라 텍스트를 쉽게 필터링할 수 있는 시각적 개체를 제공합니다.
Python의 텍스트 분석 | Python 사용자 정의 함수 소개
| LuckyTemplates의 Python 목록 및 For 루프 개요
결론
데이터 분석가 로서 많은 양의 구조화되지 않은 텍스트 데이터에서 통찰력과 의미를 추출해야 할 필요성에 직면할 수 있습니다. 학습한 내용은 텍스트 분석을 통해 텍스트 데이터를 이해하는 데 유용한 접근 방식입니다.
이제 텍스트를 단어 및 문장과 같은 더 작은 단위로 쉽게 분해한 다음 패턴 및 관계에 대해 이러한 단위를 분석할 수 있습니다. Python 및 LuckyTemplates에서 텍스트 분석을 사용하여 이러한 모든 목표를 달성할 수 있습니다.
모두 제일 좋다,
파이썬에서 자기란 무엇인가: 실제 사례
R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.
이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.
이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.
이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.
LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.
LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.
이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.
지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.
LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것