Kritik Sistemlerde Text-to-SQL: Prompt Injection'a Karşı Fine-Tuning
Kritik altyapılarda doğal dille sorgu üretmek, kullanıcı deneyimini iyileştirirken yeni saldırı yüzeyleri de açar. Bu çalışmada, küçük bir dil modelini defansif fine-tuning ile eğiterek prompt enjeksiyonuna karşı dayanıklılığı artırmayı hedefledim.
Problem
Klasik Text-to-SQL zincirleri, kullanıcı girdisini doğrudan modele ilettiğinde kötü niyetli talimatlar şema ve politika ihlallerine yol açabiliyor. Büyük modellerde bağlam penceresi geniş olsa da, kontrolsüz üretim riski büyüyor.
Yaklaşım
- Güvenli ve güvensiz örnekleri ayıran dengeli bir eğitim kümesi.
- Şema uyumu ve politika ihlali olmayan çıktıları ödüllendiren eğitim hedefi.
- Sınırlı boyutlu model ile düşük gecikmeli çıkarım.
Örnek politika: yalnızca SELECT; belirli tablolara erişim;
açıkça onaylanmayan JOIN yok.
Değerlendirme
Deneysel kurulumda, saldırı senaryolarına karşı başarı oranını artırırken geçerli sorgu üretiminde kabul edilebilir bir doğruluk düzeyi korumayı amaçladım. Ayrıntılı metrikler ve karşılaştırmalar makale kapsamında.
Sonraki adımlar
Daha sıkı formal doğrulama katmanları ve şema grafı kısıtlarının modele erken enjekte edilmesi üzerinde çalışmaya devam ediyorum.