Foundation0 | Sovereign AI-Native Infrastructure

Yazılım mantığını Türkçe promptlarla kurgulamanın token tüketimini nasıl artırdığını, gecikme sürelerini uzattığını ve bağlam penceresini nasıl daralttığını öğrenin.

Yapay zeka modellerine gönderilen her prompt, arka planda dinamik bir işlem ücretine tabidir. 2026 yılında, sistemlerini tamamen Türkçe promptlarla yöneten şirketler, faturalarında görünmeyen bir %70-%90 token ek maliyeti ödemektedir. Foundation0 olarak biz bunu Türkçe Prompt Vergisi olarak adlandırıyoruz.

Bu durum, yapay zeka şirketlerinin belirlediği bir ceza tarifesi değildir. Modern sinir ağlarının insan dilini sayısal verilere (token) dönüştürme ve sıkıştırma yönteminin fiziksel bir sonucudur.

Byte Pair Encoding (BPE) ve Türkçe Morfolojisi

Büyük dil modelleri kelimeleri veya harfleri tek tek okumaz. Metinleri Byte Pair Encoding (BPE) gibi algoritmalarla "token" adı verilen alt kelime gruplarına böler. BPE kelime dağarcığını frekansa dayalı oluşturur. İnternetteki verilerin %60-70'inden fazlası İngilizce olduğu için tokenizer, İngilizce hece ve kelime kombinasyonlarını tek bir token olarak birleştirir (örneğin, "development" kelimesi genellikle 1 token'dır).

Türkçe küresel eğitim verilerinde %0.5'in altında temsil edildiği için, tokenizer Türkçe kök ve eklerin birleşik hallerini kelime dağarcığına almamıştır. Dolayısıyla bitişken bir dil olan Türkçe'deki tek bir kelime, model tarafından çok sayıda küçük, anlamsız token'a bölünür.

Morfolojik Parçalanma: 'Hazırlanmalarından' gibi tek bir Türkçe kelime 6-7 token'a bölünebilirken, İngilizce karşılığı olan 'from their preparation' ifadesi sadece 3 token tüketebilir.

Bağlam Penceresi (Context Window) Kaybı

Prompt Vergisi yalnızca API faturalarını şişirmekle kalmaz, doğrudan modelin zekasını kısıtlar. Modellerin sabit bir bağlam penceresi (örneğin 128k veya 200k token limit) vardır. Türkçe metinler aynı anlam için İngilizceye kıyasla neredeyse iki katı token harcadığı için, modelin etkin hafızası yarı yarıya düşer. Modeli besleyebileceğiniz kod tabanı, doküman veya işlem geçmişi hacmi yarıya inmiş olur.

Token Verginizi Nasıl Hesaplarsınız?

Aşağıdaki Python kodunu kendi mühendislik ortamınızda çalıştırarak, açık kaynaklı tiktoken kütüphanesi üzerinden aradaki farkı net olarak görebilirsiniz:

import tiktoken

def calculate_token_tax(en_text: str, tr_text: str, model: str = "gpt-4o"):
    encoding = tiktoken.encoding_for_model(model)
    en_tokens = len(encoding.encode(en_text))
    tr_tokens = len(encoding.encode(tr_text))
    
    tax_percentage = ((tr_tokens - en_tokens) / en_tokens) * 100
    print(f"İngilizce Token: {en_tokens}")
    print(f"Türkçe Token: {tr_tokens}")
    print(f"Gizli Token Vergisi: {tax_percentage:.2f}%")

# Örnek karşılaştırma
calculate_token_tax(
    "Analyze the structural database vulnerabilities and compliance risks.",
    "Veritabanı yapısal zafiyetlerini ve regülatif uyumluluk risklerini analiz edin."
)

Teknik metinlerde bu test genellikle %80 veya daha yüksek bir token vergisi sonucu verir. Ajanların milyarlarca işlem yaptığı bir dünyada hayatta kalmak için mantığı İngilizce kurmalı, yerelleştirmeyi sadece çıkış kapısında yapmalıyız.

Disclaimer

Bu belge yalnızca stratejik ve mimari bilgi sağlama amacı taşır. Foundation 0'ın egemen mühendislik standartlarını yansıtır ve B2C veya B2VC pazarlarında varlık gösteren şirketler için bir teşhis niteliğindedir. Bu metin, finansal veya yasal danışmanlık olarak değerlendirilemez.