파이썬에서 표제어화 | 초보자 가이드

파이썬에서 표제어화 | 초보자 가이드

이 자습서에서는 단어의 여러 요소를 함께 그룹화하는 데 사용되는 방법인 Python 의 원형 복원에 대해 논의할 것입니다 . Lemmatization은 또한 단어의 굴절을 줄이는 것을 목표로 하며 단어의 어근 또는 기본 형식( 정리형이 의미하는 바)을 제공하는 데 중점을 둡니다.

목차

원형 추출과 형태소 분석

원형 복원 은 단어의 어미를 줄이는 역할도 하는 형태소 분석과 유사합니다. 유일한 차이점은 원형 복원은 결과로 사전 기반 단어를 사용한다는 것입니다.

반면에 형태소 분석은 존재하지 않는 단어가 될 수 있는 굴절된 단어에서 접사만 제거합니다.

예를 들어, 단어 Studies 에 형태소 분석을 활용하면 단어 Studies 에서 접미사 es를 제거하는 것을 목표로 하기 때문에 단어 studi를 출력으로 제공합니다 .

반면 표제어화를 활용하면 단어의 기본형을 제공하는 데 초점을 두었기 때문에 결과적으로 단어 공부가 주어집니다.

표제어 활용 시 고려해야 할 사항

  • 사전 기반 단어를 사용합니다. 단어의 어근 또는 기본 형식을 의미하는 기본형이라는 용어와 함께 표제어 는 단어의 억양을 제거하는 것보다 단어의 기본 형식을 제공하는 것을 목표로 합니다.
  • 기본 단어를 찾는 것은 전적으로 품사에 달려 있습니다. 품사를 지정하지 않으면 표제어 정리가 제대로 수행되지 않을 수 있으며 원하는 결과를 얻지 못할 수 있습니다.
  • 형태소 분석보다 느리지만 더 강력합니다. 표제어 추출은 단어에 대해 수행하는 알고리즘과 품사 제공의 필요성을 따르지 않기 때문에 형태소 분석보다 느린 것으로 간주됩니다. 그러나 결과에 대해 사전 기반 단어를 사용하는 방식에서 더 강력합니다. 
  • 루트 단어를 찾는 정확도가 더 높습니다. 원형 복원은 어형 단어의 결과를 배치할 때 사전 기반 단어를 사용하므로 정확한 출력을 얻을 가능성이 높아집니다.

파이썬에서 표제어화를 위한 준비 단계

원형 복원 구현을 진행하기 전에 textblob 에서 Word 라이브러리를 가져오는 것으로 시작하겠습니다 .

파이썬에서 표제어화 |  초보자 가이드

그런 다음 단어 개체를 만들 것입니다. 

파이썬에서 표제어화 |  초보자 가이드

단어 개체를 만들기 위해 w 라는 변수를 만들었습니다 . 그런 다음 octopus 라는 단어의 복수형인 octopi 라는 단어 개체를 보유하는 Word 라이브러리를 저장했습니다 . Word 라이브러리를 사용하여 요소를 전달할 때 해당 요소를 작은따옴표로 묶는 것이 중요합니다.

변수 w를 초기화하여 방금 생성한 object라는 단어를 보유하고 있는지 확인합시다.

파이썬에서 표제어화 |  초보자 가이드

w 변수를 실행하면 결과적으로 object octopi 라는 단어를 얻습니다 .

파이썬에서 표제어 구현하기

다음으로 .lemmatize 함수를 사용하여 원형 복원을 구현하겠습니다 . 

파이썬에서 표제어화 |  초보자 가이드

이 단계에서는 객체 octopi 라는 단어를 보유하는 w 변수를 사용했고 .lemmatize 함수를 활용하여 표제어를 적용했습니다. 그 결과 octopi 라는 단어의 어근 또는 기본 형태인 octopus 라는 단어를 얻었습니다 .

그런 다음 단어 better 를 사용하여 표제어를 적용해 봅시다 .

파이썬에서 표제어화 |  초보자 가이드

이전 예제에서 단어 개체를 octopi 에서 better 로 업데이트했습니다 . 그런 다음 .lemmatize 함수를 사용하여 표제어를 지정했습니다 . 따라서 우리가 얻은 결과는 우리가 사용한 단어 객체와 동일합니다.

.lemmatize 함수를 사용할 때 품사를 전달하여 원형 복원 방식을 변경할 수 있습니다. 예를 들어 품사에서 형용사를 나타내는 .lemmatize 함수에  a를 전달해 봅시다 .

파이썬에서 표제어화 |  초보자 가이드

.lemmatize 함수에 품사를 추가한 후 결과적으로 좋은 기본 단어를 얻을 수 있습니다.

단어 객체를 다시 running 으로 변경해 봅시다 . 또한 .lemmatize 함수에 전달할 품사를 동사를 나타내는 v 로 변경해 보겠습니다.

파이썬에서 표제어화 |  초보자 가이드

변경을 수행하고 .lemmatize 함수를 초기화한 후 결과적으로 실행 되는 단어 running 의 루트 단어를 얻었습니다. 대부분의 lemmatizer는 방금 .lemmatize 함수를 사용하여 수행한 방법을 수행할 수 없습니다.

그러나 .lemmatize 함수는 단어의 기본 형식을 얻기 위해 Python에서 특정 유형의 텍스트 분석을 수행할 때 활용할 수 있는 상당한 도구입니다 .


LuckyTemplates에서 Python 스크립트를 사용하는 방법
Python에서 샘플 데이터 세트를 로드하는 방법
Python 사용자 정의 함수 | 개요

결론

간단히 말해서, 우리는 Python 에서 원형 복원의 사용법 과 작동 방식을 이해할 수 있습니다. 형태소 분석 에서 원형 복원 의 유사점과 차이점에 대해서도 논의했습니다 . 또한 Word 라이브러리를 사용하여 단어 개체를 만들고 .lemmatize 기능을 활용하는 방법 도 배울 수 있습니다 .

또한 .lemmatize 함수에서 다양한 품사를 적용하는 방법을 배웠습니다. 일상적인 텍스트 분석 작업에서 원형 복원을 구현하면 특정 단어의 기본 단어를 검색하는 데 드는 시간과 노력을 줄이는 데 크게 도움이 됩니다.

모두 제일 좋다,

갤림


파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

R에서 RDS 파일을 저장하고 로드하는 방법

R에서 RDS 파일을 저장하고 로드하는 방법

R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.

LuckyTemplates의 컨텍스트 필터링 소개

LuckyTemplates의 컨텍스트 필터링 소개

이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.

LuckyTemplates를 사용한 비즈니스 보고

LuckyTemplates를 사용한 비즈니스 보고

지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것