Genel-İçerik

LLM Nedir? Nasıl çalışır?

Okuma Süresi: 3 dakika

Büyük dil modelleri (LLM – Large Language Model), büyük veriyle eğitilmiş, kelimeler arasındaki ilişkinin olasılık hesaplarıyla tespit edilip sayısallaştığı büyük derin öğrenme modelleridir. Peki derin öğrenme nedir diye soracak olursak; derin öğrenmede bu ilişkilerin modellendiği ağlardır. İnsan beyninin yapısını taklit eden yapay sinir ağları kurulabilmesine izin veren modellerden meydana gelir.

Peki LLM’ler nasıl çalışıyor?

Şimdi bu modellerin nasıl çalıştığını çok basit haliyle anlatayım.

Aslında LLM’lerin yapay zekayla yakından uzaktan ilişkisi yok. Olay sandığın kadar “zekice” değil. Daha çok, çok iyi ezber yapmış bir istatistikçi gibi düşün.

Şöyle çalışıyor:

Bu arkadaş önce milyarlarca metin okuyor. Romanlar, makaleler, forum kavgaları, tarifler, tweet’ler… Kısacası internet ne varsa yemiş bitirmiş.
Ama okuduğunu anlamak için değil. Daha çok şunu fark etmek için:

“Hmm… ‘Bir zamanlar’ dedikten sonra genelde ‘uzak bir ülkede’ geliyor.”

Yani yaptığı şey şu:
“X’ten sonra genelde Y geliyor.”
Sebep–sonuç yok. Anlam yok. Sadece olasılık.

Sonra sahneye sen çıkıyorsun.
Bir soru soruyorsun.
Model panik yapmıyor. Düşünmüyor. Derinlere dalmıyor.

Sadece şunu soruyor kendine (aslında biz sorduruyoruz):

“Buraya gelmesi en muhtemel kelime ne?”

Ve cevap vermeye başlıyor…Adım adım yani Token token. Kelime kelime.
Her adımda aynı soru:

“Şimdi buraya en çok yakışan şey ne?”

Bu işlem tamamen istatistik.

Yazdığı şeyi anlamıyor. Sadece temel olarak yaptığı örüntü eşleştirme (pattern matching). Bütün olasılıkları bildiği için çok ama çok iyi kalıp eşleştirme yapabiliyor.

Görüldüğü üzere ortada teknik olarak ortada herhangi bir zeka yok. “Pattern eşleştirme modeli” veya “büyük istatistiksel dil modeli” demek cazip ve pazarlanabilir olmadığı için yapay zeka demek daha doğru bir tercih oluyor. O nedenle mevcut yapı aslında dar yapay zeka olarak adlandırmak daha doğru bir ifade olacaktır.

GPT Nedir? LLM’den farklı nedir?

GPT (Generative Pre-trained Transformer)’ler özel bir amaç için üretilmiş doğal dil işleme alanında kullanılan modeldir. Üretken önceden eğitilmiş dönüştürücüler olarak Türkçe’ye çevrilebilir. Dönüştürücü mimarisini kullanan bir sinir ağı modeli ailesidir.

Büyük Dil Modeli (LLM), generatif yapay zekânın bir alt türüdür. Yani her LLM bir generatif yapay zekâdır, fakat her generatif yapay zekâ bir LLM değildir.

image
Kemal ŞAHİN | Akademik Hayat

Akademisyen, kullanıcı deneyimi ve arayüz tasarımı, veri görselleştirme, web/mobil uygulama geliştirme.

Kemal ŞAHİN'i yakından tanıyın.