Pythonda Metin Analizi | Giriş

Bu blogda, metin içeriğinden yapılandırılmış veriler oluşturmak için Python'da metin analizini tartışacağız . Bu, büyük miktarda veriyi analiz etmenize ve belirli görevler üzerinde çalışırken daha az zaman harcamanıza yardımcı olacaktır. Ayrıca , doğal dil işleme görevleriyle ilgilenen textblob hakkında bilgi edineceksiniz .

Metin analizi, metin verilerinin otomatik olarak üretilmesi ve gruplandırılması için kodlar kullanarak metinleri analiz etme işlemidir.

Devam etmeden önce, bu eğitimde kullanacağımız kitaplığı yüklemeniz gerekebilir.

İçindekiler

Python'da Metin Analizi Uygulamak

textblob'u içe aktararak başlayalım . Yorumları kullanarak ne yaptığınızı belgelemeyi unutmayın.

Python'da Metin Analizi |  Giriş

Yukarıdaki kodu çalıştırarak artık textblob kitaplığına erişimimiz var. Yapacağımız bir sonraki adım, örneklerimiz için kullanacağımız bir cümle oluşturmak. Bunu bir cümleyi cümle adlı bir değişkende saklayarak yapacağız .

Eklemek istediğiniz cümleyi çift tırnak içine almayı unutmayınız.

Python'da Metin Analizi |  Giriş

Textblob , bir blob oluşturabileceğimiz ve Python'daki metin analizimiz için bazı fonksiyonlarını kullanabileceğimiz harika bir kütüphanedir .

Python'da Metin Analizi |  Giriş

Blobu oluştururken, bir değişken oluşturarak ve adını blob olarak adlandırarak başlıyoruz . Bu değişkene kullandığımız kütüphane olan TextBlob'u eklememiz gerekiyor .

Parantez içinde daha önce oluşturduğumuz cümleyi tutan cümle değişkenini kullanacağız . Bu kısım için cümleyi parantez içine manuel olarak yazmayı tercih edebileceğinizi unutmayın.

Bu blob değişkeninin ne yaptığını kontrol etmek için değişken adını yazıp Shift + Enter tuşlarına basarak basitçe başlatabilirsiniz. Çıktı aşağıdaki örneğe benzer olmalıdır.

Python'da Metin Analizi |  Giriş

Sonuçtan da görebileceğiniz gibi cümle değişkeninde sakladığımız cümle artık TextBlob tarafından içeriliyor .

Python'da Metin Verilerini Simgeleştirme

Bir cümledeki bazı kelimeleri çıkarmak isterseniz, bu kelimelerin her birini bir listede ayrı ayrı parçalara ayırabiliriz. Bu verilen cümle ile yapacağımız şey, onları tokenize etmek veya her bir kelimeyi ayırıp bir listeye koymak.

Bunu yapmak için blob değişkenini kullanacağız ve tokenize işlevini kullanacağız. Daha sonra onu kelimeler adlı bir değişkende saklayacağız .

Python'da Metin Analizi |  Giriş

Belirlenmiş listede ne olduğunu görmek için blob değişkenini başlatırken yaptığımız gibi, word değişkenini de başlatalım .

Python'da Metin Analizi |  Giriş

Gördüğünüz gibi, kelimelerin her biri ve hatta noktalama işaretleri artık bir listede ayrılmıştır. Tokenize işlevi bu şekilde çalışır.

Artık bir kelime listemiz olduğuna göre, ondan başka bir işlev gerçekleştirebiliriz. Noktalama işaretleri, artikeller gibi listemize girmesini istemediğimiz kelimeler için bir liste daha oluşturalım. Bu adımı gerçekleştirmek için aşağıdaki ekran görüntüsüne bakın.

Python'da Metin Analizi |  Giriş

Durdurma sözcükleri listesini oluştururken, durdurma sözcükleri listesini çevrelemek için köşeli parantezler kullandık. Ardından, durdurma sözcüklerinin her biri tek tırnak içine alınır ve her biri virgülle ayrılır. Listeyi stop_words değişkeninde sakladık .

Buradan, Python'da metin analizi yapmak için gerekli olan kelimeleri çıkarmak için bir liste kavrayışı yapacağız . Bu, cümleleri temizlemeyi, tokenleştirmeyi ve farklı listeleri karşılaştırmayı içerir. Şimdi bu iki listeyi karşılaştıracağız ve yeni bir clean_tokens listesi oluşturacağız .

Python'da Metin Analizi |  Giriş

Yukarıda sunulan kodda, bir öğeyi temsil etmesi için w olan bir yer tutucu kullandık . Bu kısımda yapmaya çalıştığımız şey stop_words değişkeninde eleman yoksa word değişkenindeki elemanı almaktır . clean_tokens'i başlatacaksak , sonuç bu olacaktır.

Python'da Metin Analizi |  Giriş

Bu süreçte noktalama işaretleri ve yazılar gibi gereksiz belirteçleri çıkarma işlemine sokarak belirteçlerimizi temizleyebiliyoruz . Bu nedenle, listemizde sadece öz kelimeleri kaldı.

Python'da Cümle Oluşturmak İçin Belirteçleri Birleştirme

Artık temiz belirteçleri ayırdığımıza göre , hepsini tek bir cümlede toplamaya çalışalım. Bunu yapmak için .join işlevini kullanmalıyız . Referans için aşağıdaki örneği kontrol edin.

Python'da Metin Analizi |  Giriş

Yukarıdaki örnekte, bir cümlede birleştirilecek olan temiz belirteçlerimizi tutmak için clean_sentence adlı bir değişken oluşturduk. Çift tırnak içine alınmış bir boşluk ve .join işlevi eklediğimizi de fark edebilirsiniz . Parametrelerin içine clean_tokens değişkenini ekledik.

clean_sentence değişkenini başlatırsak çıktı bu olacaktır .

Python'da Metin Analizi |  Giriş

Dikkat çekici bir şekilde, cümle doğru görünmüyor çünkü makaleleri ve noktalama işaretlerini daha önce kaldırdık.

clean_sentence'i oluşturduktan sonra , az önce oluşturduğumuz clean_sentence'ı içeren yeni bir textblob oluşturmayı deneyelim . Sonra onu yeni bir clean_blob değişkeninde saklayacağız .

Python'da Metin Analizi |  Giriş

.tags İşlevini Kullanarak Konuşma Bölümleri İçin Bir Metin Bloğunun İncelenmesi

Bu analiz blobundan, bu blobun parçalarını konuşmanın bölümlerini kontrol etmek veya daha da fazla değişiklik yapmak için kullanabiliriz. Yeni metin bloğumuzdaki her kelimenin konuşma bölümlerini kontrol etmeyi deneyelim .

Python'da Metin Analizi |  Giriş

Bir metin bloğundaki konuşma bölümlerini kontrol etmek için .tags işlevini kullanmalısınız . Bunu clean_blob değişkenimizi kullanarak yaptım ve hemen ardından .tags işlevini ekledim .

.tags işlevini başlattıktan sonra bir hata mesajı alırsanız , hatayı düzeltmek için adımları okuyun ve izleyin. Bu durumda, böyle görünüyor.

Python'da Metin Analizi |  Giriş

Bu hata mesajının sonunda aşağı kaydırırsanız, kullanmaya çalıştığınız özellik için ihtiyacınız olan gerekli verileri göreceksiniz.

Python'da Metin Analizi |  Giriş

Gerekli verileri indirmek için başlatmamız gereken kodu bulduğumuzda, sadece kodu kopyalayın ve ardından Anaconda Prompt'u Windows Search kullanarak açın .

Python'da Metin Analizi |  Giriş

Anaconda İstemi'ni kullanarak , .tags işlevini başlatırken aldığımız hatayı düzeltmeye çalışacağız . Şimdi daha önce hata mesajından kopyaladığımız kodu yapıştırıp Enter'a basarak çalıştıracağız .

Python'da Metin Analizi |  Giriş

Bittiğinde, .tags işlevini yeniden çalıştırmayı deneyin ve çalışıp çalışmadığına bakın.

Python'da Metin Analizi |  Giriş

Kodu tekrar çalıştırdığımızda, hatanın düzeltildiğini görebiliriz ve yeni textblob'daki her kelimeyi, etiketler veya konuşma bölümleriyle birlikte içeren bir sonuç aldık.

Bu etiketlerin ne anlama geldiği hakkında hiçbir fikriniz yoksa , bu etiketlerin neyi temsil ettiğini kontrol etmek için textblob web sitesine gidebilirsiniz . 

Python'da Metin Analizi İçin ngrams İşlevini Kullanma

ngramları almakla ilgili başka bir örneğe geçelim . ngrams işlevi , bir cümle veya belgede sıklıkla bir arada görülen sözcükleri aramak için kullanılır. Örnek olarak, yeni bir textblob oluşturarak başlayalım ve bunu blob3 değişkeninde depolayalım.

Python'da Metin Analizi |  Giriş

Bundan sonra, bazı sözcük kombinasyonlarını kontrol etmek için blob3 değişkenindeki ngrams işlevini kullanalım .

Python'da Metin Analizi |  Giriş

Varsayılan olarak, parametrelerde bir değer belirtmediyseniz, trigramları veya 3 kelimelik kombinasyonları gösterecektir . Ama cümleden 2 kelimelik kombinasyonlar görmek istiyorsak aşağıdaki örnekteki gibi parametrelerde 2 ayarlayabiliriz.

Python'da Metin Analizi |  Giriş

Bu sefer daha uzun bir cümle ile deneyelim. Bu örnekte, bir film incelemesinden daha uzun bir metin kopyaladım. Bu kısımda istediğiniz cümleyi kullanabilirsiniz.

Python'da Metin Analizi |  Giriş

Son bir örnek olarak, ngramları bir kez daha bilgilendirici bir cümle ile kullanmayı deneyelim .

Python'da Metin Analizi |  Giriş

Tüm bu örneklerle, ngrams fonksiyonu ile elde ettiğimiz sonuçlara göre Python'da daha fazla metin analizi yapabiliriz .


LuckyTemplates Kullanıcıları İçin Python II – İsteğe Bağlı Platformda Yeni Kurs LuckyTemplates'da
Python Kullanarak Örnek Veri Kümelerini Python'a Yükleme |
Veri Kümesi ve Dize İşlevi

Çözüm

Özetle, Python'da metin analizi yapmak için kullanabileceğiniz farklı işlevleri öğrendiniz.

Bunlar, bir cümledeki sözcükleri ayırmak için .tokenize işlevi , simgeleştirilmiş sözcükleri birleştirmek için .join işlevi , sözcüklerin konuşma bölümlerini kontrol etmek için .tags işlevi ve sözcüklerin birleşimini görüntülemek için ngrams işlevidir .

Ek olarak, Anaconda Bilgi İstemi kullanarak .tags işlevinde yaptığımız gibi hataları nasıl düzelteceğinizi öğrendiniz . Python'da metin analizi yapmak için içe aktarmayı, bir metin bloğu oluşturmayı ve bu kitaplığı kullanmayı da öğrendiniz .

Herşey gönlünce olsun,

Gaellim

Leave a Comment

Excel Hücrelerini Metne Sığdırma: 4 Kolay Çözüm

Excel Hücrelerini Metne Sığdırma: 4 Kolay Çözüm

Excel hücrelerini metne sığdırmak için güncel bilgileri ve 4 kolay çözümü keşfedin.

Bir Excel Dosyasının Boyutu Nasıl Küçültülür – 6 Etkili Yöntem

Bir Excel Dosyasının Boyutu Nasıl Küçültülür – 6 Etkili Yöntem

Bir Excel Dosyasının Boyutunu Küçültmek için 6 Etkili Yöntem. Hızlı ve kolay yöntemler ile verilerinizi kaybetmeden yer açın.

Pythonda Self Nedir: Gerçek Dünyadan Örnekler

Pythonda Self Nedir: Gerçek Dünyadan Örnekler

Python'da Self Nedir: Gerçek Dünyadan Örnekler

Rde Bir RDS Dosyası Nasıl Kaydedilir ve Yüklenir

Rde Bir RDS Dosyası Nasıl Kaydedilir ve Yüklenir

R'de bir .rds dosyasındaki nesneleri nasıl kaydedeceğinizi ve yükleyeceğinizi öğreneceksiniz. Bu blog aynı zamanda R'den LuckyTemplates'a nesnelerin nasıl içe aktarılacağını da ele alacaktır.

İlk N İş Günü Tekrar Ziyaret Edildi – Bir DAX Kodlama Dili Çözümü

İlk N İş Günü Tekrar Ziyaret Edildi – Bir DAX Kodlama Dili Çözümü

Bu DAX kodlama dili eğitiminde, GENERATE işlevinin nasıl kullanılacağını ve bir ölçü başlığının dinamik olarak nasıl değiştirileceğini öğrenin.

LuckyTemplatesda Çok İş Parçacıklı Dinamik Görsel Tekniği Kullanarak Öngörüleri Sergileyin

LuckyTemplatesda Çok İş Parçacıklı Dinamik Görsel Tekniği Kullanarak Öngörüleri Sergileyin

Bu eğitici, raporlarınızdaki dinamik veri görselleştirmelerinden içgörüler oluşturmak için Çok Kanallı Dinamik Görseller tekniğinin nasıl kullanılacağını kapsayacaktır.

LuckyTemplatesda İçeriği Filtrelemeye Giriş

LuckyTemplatesda İçeriği Filtrelemeye Giriş

Bu yazıda, filtre bağlamından geçeceğim. Filtre bağlamı, herhangi bir LuckyTemplates kullanıcısının başlangıçta öğrenmesi gereken en önemli konulardan biridir.

LuckyTemplates Çevrimiçi Hizmetindeki Uygulamaları Kullanmak İçin En İyi İpuçları

LuckyTemplates Çevrimiçi Hizmetindeki Uygulamaları Kullanmak İçin En İyi İpuçları

LuckyTemplates Apps çevrimiçi hizmetinin çeşitli kaynaklardan oluşturulan farklı raporların ve içgörülerin yönetilmesine nasıl yardımcı olabileceğini göstermek istiyorum.

Fazla Mesai Kâr Marjı Değişikliklerini Analiz Edin - LuckyTemplates ve DAX ile Analitik

Fazla Mesai Kâr Marjı Değişikliklerini Analiz Edin - LuckyTemplates ve DAX ile Analitik

LuckyTemplates'da ölçü dallandırma ve DAX formüllerini birleştirme gibi teknikleri kullanarak kâr marjı değişikliklerinizi nasıl hesaplayacağınızı öğrenin.

DAX Studioda Veri Önbellekleri İçin Materyalleştirme Fikirleri

DAX Studioda Veri Önbellekleri İçin Materyalleştirme Fikirleri

Bu öğreticide, veri önbelleklerini gerçekleştirme fikirleri ve bunların DAX'ın sonuç sağlama performansını nasıl etkilediği tartışılacaktır.