Yapay Zeka Egemenliği: Türkiye Kendi Dil Modelini Geliştirmeli

Yapay zeka modelleri, İngilizce verilerle beslendiğinde Türkçe gibi diller ikinci sınıf muamele görüyor. Nüans kayboluyor, bağlam yitiriliyor, kültürel hafıza eksiliyor. Bu durum, dijital duvarlar örerek kullanıcıları anlamayan bir sistem yaratıyor. Uzmanlar, egemen yapay zeka geliştirmenin önemine vurgu yapıyor.

Yapay Zeka Egemenliği Nedir?

Dünya artık yalnızca "En iyi yapay zekayı kim yaptı?" sorusunu sormuyor. Yeni soru şu: "Yapay zekanın elektriği, çipi, verisi, dili ve hukuku kimin kontrolünde olacak?" Polonya'nın Bielik modeli, küçük ve orta ölçekli ülkelerin bile kendi egemen yapay zeka stratejilerini kurabileceğini gösteriyor.

Bielik Projesi: Polonya'nın Başarı Hikayesi

Polonyalı geliştirici ekibin seçtiği "Bielik" ismi ve logosu, Lehçede "Ak Kuyruklu Kartal" anlamına geliyor. Bu kuş, yüzyıllardır Polonya devlet armasının merkezinde yer alan ulusal gücün ve bağımsızlığın simgesi. Varşova'nın kuzey yakasındaki mütevazı bir ofiste, Maciej Piasecki ve ekibi aylar boyunca tek bir soruya yanıt aradı: Polonya'nın kendi yapay zekasına ihtiyacı var mı, yoksa Amerikan modellerini kullanmak yeter mi? Cevaplarını buldukları gün, Bielik projesini dünyaya duyurdular.

—

Geniş Pickt afişi — Telegram için ortak alışveriş listesi uygulaması

Bielik ekibi, başlangıçta teknik bir detay gibi görünen bir işlem yaptı. Mevcut 11 milyar parametreli bir modeli Nvidia'nın Minitron yöntemiyle 7,35 milyar parametreye sıkıştırdılar. Parametre sayısı yüzde 33 azaldı, ancak modelin performansı neredeyse hiç düşmedi. Üstelik Polonya dili için özelleştirilmiş, Polonya kültürüne göre hizalanmış ve Polonya veri merkezlerinde çalışan bir sistem ortaya çıktı. Teknik detayın arkasında ise siyasi bir manifesto yatıyor: Bir ülkenin yapay zekası yoksa, o ülkenin düşüncesi de başkalarına aittir.

İkinci Sınıf Dil Olmayı Kabul Etmeyin

Bielik ekibi, modellerini mümkün olduğunca geniş bir donanım yelpazesinde çalıştırılabilir kılmak istiyor. GGUF formatındaki modeller, hem Apple Silicon hem Intel işlemcili bilgisayarlarda GPU hızlandırmasıyla çalışabiliyor. Bu "çok donanımlı" yaklaşım, egemenlik stratejisinin bir parçası. Modeli sadece Nvidia'nın en pahalı kartlarına bağımlı kılmamak, daha geniş bir donanım tabanında erişilebilir tutmak hedefleniyor. Öte yandan, asıl eğitim altyapısı açısından tablo net: Bielik-11B-v2'nin eğitimi, Cyfronet AGH'daki Helios süperbilgisayarında 256 adet Nvidia GH200 kartı kullanılarak gerçekleştirildi. Yani Intel, Bielik ekosisteminde var, ancak amaç veri egemenliği, dil egemenliği ve tedarik zinciri bağımsızlığı.

Bir ülkenin vatandaşlarının yazdığı her metin, yüklediği her belge, kurumların işlediği her veri, eğer yabancı bulut sistemlerine akıyorsa, ne kadar hassas olursa olsun, bir anlamda o ülkenin sınırları dışında yaşıyor demektir. Dil meselesi ise bundan da derine iniyor. Türkçe gibi yapısal olarak Hint-Avrupa ailesiyle kökten farklı bir dil, İngilizce ağırlıklı verilerle beslenen modellerde her zaman ikinci sınıf muamele görür. Nüans kayar, bağlam yitirilir, kültürel hafıza eksilir. Biz, örneğin hatalarına ve doğrularına bakarak kendi yolumuzu bulabiliriz.

Pickt makale sonrası afişi — aile illüstrasyonlu ortak alışveriş listesi uygulaması

Sıfırdan Başlamak Zorunda Değilsiniz

Polonya ekibinin en cesur kararı, modeli sıfırdan eğitmemekti. Büyük bir modeli sıfırdan eğitmek bugün hâlâ yüzlerce milyon dolar ve binlerce GPU-saat gerektiriyor. Bielik bunun yerine mevcut büyük bir modeli alıp akıllıca budadı. Süreç birkaç aşamada ilerledi. Önce yapısal budama ile modelin içindeki dikkat başlıkları, nöronlar ve bazı katmanlar incelendi ve en az katkı sağlayanlar çıkarıldı. Sonra bilgi damıtma ile büyük "öğretmen" model, küçük "öğrenci" modele kendi iç olasılık dağılımlarını aktardı. Son aşamada ince ayar ve hizalama geldi. Model, Lehçe metinler, kültürel referanslar ve Avrupa değerleriyle yeniden biçimlendi. Sonuç çarpıcıydı: yüzde 33 daha küçük bir model, neredeyse aynı performansla çalışıyor, üstelik çok daha ucuz donanımda ve çok daha düşük enerji tüketimiyle. Nvidia'nın teknik belgelerinin özetlediği üzere, 7 milyar parametreli bir modeli orta ölçekli bir veri merkezinde çalıştırmak mümkündür; ancak 70 milyar parametreli bir modeli çalıştırmak için büyük ihtimalle bir hiperölçekli bulut sağlayıcısına bağımlılık kaçınılmaz.

Dil İşleme Araştırmaları Türkiye'de Hız Kazandı

Türkiye, yapay zeka politikası açısından orta gelirli ülkeler arasında görece aktif bir konumda. TÜBİTAK koordinasyonuyla ulusal yapay zeka stratejisi yayınlandı, bazı kamu kurumları dil modeli geliştirme çalışmalarına başladı, üniversitelerde Türkçe doğal dil işleme araştırmaları hız kazandı. Ancak donanım tarafında tablo daha çetrefilli. Henüz başlangıç aşamasında projeler var. Yüksek performanslı GPU tedariki için küresel tedarik zincirine bağımlılık sürüyor. Büyük ölçekli ulusal modellerin eğitimi için gereken hesaplama gücünü ülke sınırları içinde toplamak henüz siyasi öncelikler arasında üst sıralarda değil.

Bielik'in yöntemi tam da bu noktada Türkiye için somut bir yol haritası sunuyor. Kendi çipini üretmek zorunda olmaksızın, mevcut donanım kapasitesiyle çalışabilecek boyutta, ama Türk dili ve kültürü için özelleştirilmiş modeller geliştirmek mümkün. Donanım tarafı için de geliştirmeyi ertelemeden yola çıkabilirsiniz.

Veri Merkezleri İnşa Etmek Yetmez, Bağımsızlık Şart!

Türkiye'nin coğrafi avantajı da dikkat çekiyor. Avrupa, Körfez ve Orta Asya arasında konumlanan Türkiye, veri merkezi yatırımları açısından bölgesel bir merkez olabilir. Özellikle düşük gecikme avantajı, telekom altyapısı ve büyüyen enerji yatırımları bu potansiyeli destekliyor. Ancak uzmanlara göre asıl risk, Türkiye'nin yalnızca uygulama katmanında kalması. Yani başkalarının modellerini kullanan, abonelik ödeyen ve API tüketen ancak çekirdek teknoloji geliştirmeyen bir yapı oluşması. Çünkü gelecekte ekonomik değerin büyük bölümü yapay zeka modellerini eğitenlerde, veri merkezi işletenlerde ve GPU altyapısını kontrol edenlerde olacak. Sadece uygulama geliştiren ülkeler ise daha düşük katma değerle sınırlı kalabilir.

Bielik örneği Türkiye için bu nedenle önemli bir uyarı niteliği taşıyor. Çünkü egemen yapay zeka meselesi yalnızca teknoloji değil; aynı zamanda kültür, ekonomi ve dil konusu. Eğer Türkçe içerik üretimi, açık kaynak veri setleri ve yerel yapay zeka modelleri yeterince büyümezse, geleceğin dijital ekonomisinde Türkçe'nin görünürlüğü de azalabilir.

Türkiye İçin Yol Haritası

Türkiye'nin önünde birkaç somut yol var. Birincisi koordineli açık kaynak geliştirme: Üniversiteler, kamu kurumları ve özel sektörün bir araya gelerek Türkçe veri kümeleri oluşturması ve ortak model geliştirmesi. İkincisi hesaplama altyapısı: Kamu destekli bir GPU kümesi kurulması, araştırmacılara ve girişimcilere hesaplama kapasitesi sunulması. Üçüncüsü standartlar ve denetim: Egemen yapay zeka modellerinin ne anlama geldiğini, hangi mekanizmalara tabi olacağını tanımlayan yasal çerçeve.

Bielik'in hikayesi, bunların hepsinin mümkün olduğunu gösteriyor. Polonya, Türkiye'nin iki katı nüfusa sahip değil, çok daha büyük bir ekonomi de değil. Ancak siyasi irade ve teknik odaklanmayla, küresel oyunculara bağımlı olmaksızın kendi dilinde düşünen bir yapay zeka yarattı. AB Yapay Zeka Ofisi'nin 2025 tarihli politika belgesi bu tartışmayı net bir çerçeveye oturttu. Egemen yapay zeka bir lüks değil, dijital çağda kendi kaderinizi tayin hakkıdır. Asıl soru şu: Türkiye bu seçimi bilinçli ve erkenden yapacak mı, yoksa teknoloji gerçekleri dayatana kadar beklemeye devam mı edecek?