DeepSeek, Mixture of Experts (MOE) mimarisini kullanarak açık kaynaklı büyük dil modelleri geliştiriyor. Geçtiğimiz hafta 671 milyar parametreye sahip R1 modelinin açık kaynak versiyonunu yayınlayan girişim, Silikon Vadisi’nin ilgi odağı oldu. Geçtiğimiz ay bir makale yayınlayan DeepSeek araştırmacıları, mobil uygulamaya da güç veren DeepSeek-V3 modelinin eğitiminde Nvidia’nın H800 çiplerini kullandıklarını ve bunun şirkete 5.6 milyon dolara mâl olduğunu açıkladı.
H800, ABD’nin en gelişmiş yapay zeka çiplerinin Çin’e ihracat edilmesini yasaklamasının ardından yapay zeka çip lideri haline gelen Nvidia’nın ambargolardan etkilenen pazarlarda satışa çıkardığı daha düşük işlem kapasiteli GPU’lardan biri.
ÇİPLERİN MALİYETİ 5.6 MİLYON DOLAR
Yapay zeka modellerini eğitmek için milyar dolar harcayan ABD’li şirketler, sadece 5.6 milyon dolar maliyetle 671 milyar parametreye sahip bir modelin geliştirilebilmesinin ardından teknoloji ihracat kontrollerinin verimliliğini sorgulamaya başladı. R1 modeliyle OpenAI’ın kullanıcıların erişimine sunduğu en gelişmiş modeli o1 ile bazı konularda başa baş rekabet eden bazı konularda ise geride bırakan DeepSeek hakkında ABD’nin girişimcilik ve teknoloji dünyasının önemli isimleri de yorumda bulundu.
Andreessen Horowitz’in (a16z) Kurucusu Marc Andreessen, DeepSeek’i “şimdiye kadar gördüğüm en şaşırtıcı ve etkileyici atılımlardan biri” olarak nitelendirirken; Y Combinator CEO’su Garry Tan, DeepSeek’in başarısının Amerikan rakipler için iyi olduğunu savundu.
MODEL EĞİTİMİ UCUZ HALE GELİRSE DAHA HIZLI İLERLER
Gazeteci Holger Zschaepitz’in sosyal medya gönderisine yorum yapan Tan, “İnsanlar buna gerçekten inanıyor mu? Eğer modelleri eğitmek daha ucuz, daha hızlı ve daha kolay hale gelirse, yapay zekanın gerçek dünya kullanımına yönelik çıkarımlara (inference) olan talep daha da hızlı büyür ve hızlanır. Bu da, hesaplama gücü arzının kullanılacağını garanti eder” dedi.
Gazeteci Holger Zschaepitz, “Çin merkezli #DeepSeek, ABD hisse senedi piyasaları için en büyük tehditlerden birini temsil edebilir. Şirketin, son teknoloji çiplere erişimi olmadan ve son derece düşük bir maliyetle çığır açan bir yapay zeka modeli geliştirmiş gibi görünüyor. Bu durum, sektöre akıtılan yüz milyarlarca dolarlık sermaye harcamalarının faydasını sorgulatıyor” demişti.
Meta’nın Baş Yapay Zeka Bilim İnsanı Yann LeCun ise DeepSeek’in faaliyetlerine Çin ve ABD arasındaki siyasi bakış açısıyla bakılmaması gerektiğini belirtti. Açık kaynaklı modellerin tescilli olanları geride bıraktığının alınması gereken bir ders olduğunu ifade etti.
LeCun, “Yeni fikirler buldular ve bunları başkalarının çalışmalarının üzerine inşa ettiler. Çalışmaları yayınladığı ve açık kaynak olduğu için herkes bundan kâr elde edebilir. Bu da açık kaynağın ve açık araştırmanın gücü” cümlesini kurdu.
Kaynak: Haber Merkezi
***Mutluluk, adalet, özgürlük, hukuk, insanlık ve sevgi paylaştıkça artar***