Bayt Çifti Kodlama (BPE), doğal dil işlemede (NLP) alt kelime belirtme için kullanılan popüler bir algoritmadır. Temel hedefi kelimelerin daha küçük birimlere bölünmesi, genellikle alt kelime belirteçleri, sözcüklerin dışında kalan kelimelerin ele alınması, nadir kelimelerin temsilinin iyileştirilmesi ve morfolojik varyasyonların daha iyi yakalanması **.
İşte BPE'nin nasıl çalıştığına dair bir döküm:
Bayt Çifti Kodlama Süreci (BPE)
Başlatma
- Kelime dağarcığını tek tek karakterlerle veya bayt dizileriyle başlatarak başlayın.
Yinelemeli Birleştirme
-
Derlemi yineleyin ve ardışık belirteçlerin en sık görülen çiftini belirleyin.
-
Yeni bir jeton oluşturmak için bu iki jetonu birleştirin.
-
Kelime dağarcığını bu yeni belirteçle güncelleyin ve yinelemeye devam edin.
Durdurma Kriteri
- Bu süreç belirli sayıda yineleme için veya belirli bir eşiğe (kelime dağarcığı boyutu veya derlem kapsamı gibi) ulaşılana kadar devam eder.
Son Kelime Bilgisi
- Nihai kelime dağarcığı, tek karakterler ve birleştirilmiş alt kelime belirteçleri de dahil olmak üzere birleştirilmiş belirteçlerden oluşur.
Kelime Dağarcığı Dışındaki (OOV) Kelimeleri Ele Alma
-
Kelime dağarcığında olmayan bir kelimeyle karşılaştığınızda, BPE onu kelime dağarcığından bir dizi alt kelime belirteci olarak temsil edebilir.
-
Bilinmeyen kelimeleri sözlükte bulunan alt kelime birimlerine bölerek, OOV kelimeleri kısmen yeniden oluşturarak işleyebilir.
Metin Sıkıştırma ve Dil Modellemede Uygulama
-
Metin Sıkıştırma: BPE'nin sık kullanılan çiftleri birleştirmesi, metnin sıkıştırılmış bir temsiliyle sonuçlanır. Sık karakter dizilerini daha kısa temsillerle değiştirir.
-
Dil Modelleme: BPE, kelimeleri daha küçük birimlere bölerek daha esnek bir şekilde temsil edilmesine olanak tanır. Bu, modelin morfolojik varyasyonları yakalamasına ve nadir veya daha önce görülmemiş kelimeleri daha etkili bir şekilde ele almasına olanak tanır.
Takaslar ve Etkililik
-
Ödüller: BPE'nin, tokenleri birleştirmenin yinelenen doğası nedeniyle hesaplama yükü vardır. Geniş bir kelime dağarcığı oluşturabilir, bu da hafızayı ve hesaplama verimliliğini etkileyebilir. Tokenleştirme süreci ayrıca daha büyük şirketler için yavaş olabilir.
-
Etkililik: BPE, özellikle kelimelerin karmaşık yapılara sahip olabildiği eklemeli dillerde (ör. Fince, Türkçe) morfolojik farklılıkları yakalamada oldukça etkilidir. Aynı zamanda nadir sözcükleri kullanma konusunda da ustadır ve modelin görünmeyen sözcükleri genelleştirme yeteneğini geliştirir.
Diğer Tokenizasyon Yöntemleriyle Karşılaştırma
-
Vs. Kelime Tabanlı Belirleme: BPE, OOV sözcüklerini sözcük tabanlı yöntemlere göre daha iyi işler ancak daha geniş sözcük dağarcığı oluşturabilir.
-
Vs. Karakter Tabanlı Belirteçleştirme: BPE, morfolojik bilgileri karakter tabanlı yöntemlere göre daha iyi yakalar ancak bazı kelimeleri verimli bir şekilde temsil etmek için daha fazla belirteç gerektirebilir.
BPE çok yönlüdür ve OOV sözcüklerini işleme yeteneği, nadir sözcükleri etkili bir şekilde temsil etme ve morfolojik bilgileri yakalama yeteneği nedeniyle çeşitli NLP görevlerinde yaygın olarak kullanılır ve bu da onu güçlü bir alt sözcük belirleme tekniği haline getirir.