Yapay zeka endüstrisindeki son gelişmeler bazı kişiler tarafından dördüncü sanayi devrimi olarak görülmektedir. Büyük modellerin ortaya çıkışı, farklı sektörlerdeki verimliliği önemli ölçüde artırmış ve ABD için çalışma verimliliğini yaklaşık %20 oranında artırdığı tahmin edilmektedir. Aynı zamanda, büyük modellerin sağladığı genelleme yeteneği, geçmişteki kesin kodlardan daha genelleştirilmiş büyük model çerçevelerine yazılım içine yerleştirilmesi gibi yeni bir yazılım tasarım paradigması olarak değerlendirilmektedir; bu, daha geniş modal giriş ve çıkışları desteklemektedir. Derin öğrenme teknolojisi, AI endüstrisine dördüncü bir refah dönemini getirmiştir ve bu dalga kripto para endüstrisini de etkilemiştir.
Bu rapor, AI endüstrisinin gelişim tarihini, teknoloji sınıflandırmasını ve derin öğrenme teknolojisinin endüstri üzerindeki etkisini detaylı bir şekilde inceleyecektir. Derin öğrenme alanında GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi sanayi zincirinin yukarı ve aşağı akışındaki gelişim durumu ve trendlerini derinlemesine analiz edecektir. Ayrıca, kripto para birimleri ile AI endüstrisi arasındaki ilişkiyi esasen tartışacak ve kripto para birimleri ile ilgili AI sanayi zinciri yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlarda farklı dönemlerde farklı disiplin arka planlarıyla çeşitli yapay zeka türleri geliştirilmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini kullanmaktadır; bu, makinelerin veriye dayanarak görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesi fikridir. Temel adımlar, verilerin algoritmaya gönderilmesi, modelin eğitilmesi, modelin test edilmesi ve uygulanması, modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminde üç ana akım bulunmaktadır: bağlantıcılık, sembolistlik ve davranışçılık, bunlar sırasıyla insan sinir sistemini, düşüncesini ve davranışını taklit eder. Şu anda, sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinir, üstünlük sağlamaktadır. Bunun ana nedeni, bu yapının bir giriş katmanı ve bir çıkış katmanı olmasına rağmen birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron (parametre) sayısı yeterince fazla olduğunda, karmaşık genel görevleri modelleme şansı yeterince artar. Veri girişi vasıtasıyla nöronların parametreleri sürekli olarak ayarlanabilir; birden fazla veri setinin ardından bu nöron en iyi duruma (parametre) ulaşır; bu da "derinliğinin" kaynağıdır - yeterince fazla katman ve nöron.
Sinir ağlarına dayalı derin öğrenme teknolojisi, en erken sinir ağlarından, ileri beslemeli sinir ağlarına, RNN'lere, CNN'lere, GAN'lara kadar birçok teknik iterasyona ve evrime sahiptir ve sonunda modern büyük modellerin, örneğin GPT gibi, kullandığı Transformer teknolojisine evrilmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modların (örneğin ses, video, resim vb.) verilerini temsil etmek için karşılık gelen sayılara kodlamak amacıyla bir dönüştürücü ekler. Daha sonra bu veriler sinir ağına girilir, böylece sinir ağı her türlü veriyi uyumlu hale getirebilir, yani çok modlu hale getirir.
AI gelişimi üç teknolojik dalga geçirdi:
İlk dalga 1960'lı yıllarda, AI teknolojisinin ortaya çıkmasından on yıl sonra gerçekleşti. Bu dalga, sembolist teknolojinin gelişimiyle tetiklendi ve bu teknoloji, genel doğal dil işleme ve insan-makine diyalogu sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu.
İkinci AI teknolojisi dalgası 1997'de meydana geldi, IBM'in Deep Blue'su 3.5:2.5 ile satranç şampiyonu Garry Kasparov'u (Kasparov) yenerek bu zafer, yapay zekanın bir dönüm noktası olarak değerlendirildi.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını temel alan, verileri temsil öğrenimi için kullanılan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi; bu algoritmalar bu üçüncü teknoloji dalgasını şekillendirdi ve bağlantıcılığın altın çağı oldu.
Derin Öğrenme Sanayi Zinciri
Mevcut büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yaratarak çok sayıda oyuncunun bu sektöre girmesine neden oldu; pazar, veri ve hesaplama gücüne olan talebin büyük ölçüde artmasına yol açtı. Bu bölüm, derin öğrenme algoritmalarının endüstri zincirini, yukarı ve aşağı akış bileşenlerini, ayrıca yukarı ve aşağı akışın mevcut durumu ve arz-talep ilişkisi ile gelecekteki gelişimini keşfetmeye odaklanmaktadır.
Transformer teknolojisine dayalı GPT öncüsü LLM'lerin (büyük modeller) eğitimi üç aşamaya ayrılır:
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek model altındaki her bir nöronun en iyi parametrelerini bulmak, bu süreç büyük miktarda veri gerektirir ve aynı zamanda en fazla hesaplama gücünü tüketen süreçtir.
İkinci adım, ince ayar yapmaktır. Modelin çıktı kalitesini artırmak için, az ama çok kaliteli bir veri seti verin.
Üçüncü adım, pekiştirmeli öğrenme. Büyük modelin çıktısının yüksek kaliteli olup olmadığını belirlemek için bir "ödül modeli" oluşturun, bu da büyük modelin parametrelerini otomatik olarak yinelemek için kullanılır.
Kısaca, büyük modelin eğitim sürecinde, ön eğitim veri miktarı açısından çok yüksek bir talep gerektirir ve gereken GPU hesaplama gücü de en fazladır; ince ayar, parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar; pekiştirme öğrenimi, daha yüksek kaliteli sonuçlar üretmek için parametreleri tekrar tekrar yinelemek üzere ödül modelini kullanabilir.
Büyük modelin performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortak olarak etkiler. Parametre sayısının p, veri miktarının n (Token sayısı ile hesaplanan) olduğunu varsayarsak, deneysel kurallar kullanılarak gerekli hesaplama miktarı hesaplanabilir ve böylece satın alınması gereken hesaplama gücü durumu ve eğitim süresi tahmin edilebilir.
Hesaplama gücü genellikle bir kez kayan nokta işlemi temsil eden temel birim olarak Flops ile ifade edilir. Deneysel kurallara göre, büyük bir modelin ön eğitim süreci yaklaşık 6np Flops gerektirir. Çıkarım (giriş verilerinin büyük modelin çıktı vermesini beklediği süreç) yaklaşık 2np Flops gerektirir.
Erken dönemlerde eğitim için CPU çipleri kullanılarak hesaplama gücü sağlandı, daha sonra giderek GPU'lar, örneğin Nvidia'nın A100, H100 çipleri gibi, ile yer değiştirdi. Çünkü GPU'lar özel hesaplama olarak işlev görebilir ve enerji verimliliği açısından CPU'lara göre çok daha üstündür. GPU'lar, kayan nokta işlemlerini esas olarak Tensor Core modülü aracılığıyla gerçekleştirir. Çipin FP16/FP32 hassasiyetindeki Flops verileri, ana hesaplama yeteneğini temsil eder ve çipin ana ölçüm kriterlerinden biridir.
Varsayalım ki büyük model parametreleri GPT3 örneği olarak 175 milyar parametreye, 180 milyar Token veri miktarına (yaklaşık 570GB) sahiptir. O halde bir ön eğitim işlemi için 6np Flops gerekmektedir, bu da yaklaşık 3.1510^22 Flops eder. TFLOPS (Trilyon FLOPs) cinsinden bu yaklaşık 3.1510^10 TFLOPS'tır, yani bir SXM modelindeki bir çipin GPT3'ü bir kez ön eğitmesi yaklaşık 584 gün sürmektedir.
Bundan, önceden eğitilmiş büyük hesaplama gücünün birden fazla en gelişmiş çipin birlikte çalışmasını gerektirdiği görülüyor. GPT-4'ün parametre sayısı, GPT-3'ün on katı, bu da veri miktarı değişmese bile çip sayısının on kat daha fazla satın alınması gerektiği anlamına geliyor. GPT-4'ün Token sayısı 13 trilyon, bu da GPT-3'ün on katı ve nihayetinde GPT-4, 100 katın üzerinde çip gücü gerektirebilir.
Büyük model eğitimi sırasında, veri depolama sorunları da bulunmaktadır. GPU'nun bellek alanı genellikle küçüktür (örneğin A100 için 80GB), tüm verileri barındıramaz, bu nedenle çipin bant genişliğini, yani sabit diskten belleğe veri aktarım hızını incelemek gerekmektedir. Aynı zamanda birden fazla GPU çipi kullanıldığı için, GPU'lar arasındaki aktarım hızları da önem kazanmaktadır. Bu nedenle birçok durumda, model eğitimi uygulamalarını kısıtlayan faktörler veya maliyetler, çipin hesaplama yeteneği değil, daha çok çipin bant genişliğidir. Çünkü veri aktarım hızı çok yavaşsa, modelin çalışma süresi uzar ve elektrik maliyetleri artar.
Derin öğrenme endüstri zinciri esas olarak aşağıdaki birkaç bölümden oluşmaktadır:
Donanım GPU sağlayıcıları
Bulut Hizmeti Sağlayıcı
Eğitim Veri Kaynağı Sağlayıcıları
Veritabanı sağlayıcısı
Kenar Aygıtları
Uygulama
Donanım GPU Tedarikçileri
Şu anda Nvidia, AI GPU çipleri alanında kesin bir lider konumda. Akademik çevreler genellikle tüketici seviyesindeki GPU'ları (RTX serisi) kullanırken; sanayi, büyük modeller için H100, A100 gibi ticari çözümler kullanıyor.
2023 yılında, Nvidia'nın en gelişmiş H100 çipi piyasaya sürüldüğünde birçok şirketten talep aldı. H100 çipine olan küresel talep, arzdan çok daha fazla ve teslimat süresi 52 haftaya kadar çıkmış durumda. Nvidia'nın tekel durumu göz önüne alındığında, Google önderliğinde Intel, Qualcomm, Microsoft ve Amazon birlikte CUDA İttifakı'nı kurdu ve Nvidia'nın etkisinden kurtulmak için GPU geliştirmeyi umuyorlar.
Ultra büyük teknoloji şirketleri/ bulut hizmet sağlayıcıları/ ulusal laboratuvarlar için, genellikle binlerce, on binlerce H100 çipi satın alarak HPC (yüksek performanslı hesaplama merkezi) kuruyorlar. 2023 yılı sonu itibarıyla, H100 çiplerinin sipariş miktarı 500.000'den fazla oldu.
Nvidia'nın çip tedariği konusunda, şu anda H200 ile ilgili haberler yayımlandı, H200'ün performansının H100'ün performansının iki katı olması bekleniyor ve B100 2024 yılının sonlarında veya 2025 yılının başlarında piyasaya sürülecek. Şu anda GPU gelişimi hala Moore yasasını karşılıyor, performans her 2 yılda bir iki katına çıkıyor, fiyatlar ise yarı yarıya düşüyor.
Bulut Hizmeti Sağlayıcısı
Bulut hizmeti sağlayıcıları, yeterli GPU satın aldıktan sonra, sınırlı bütçeye sahip yapay zeka şirketlerine esnek hesaplama gücü ve barındırma eğitim çözümleri sunabiliyor. Mevcut piyasada üç ana bulut hesaplama sağlayıcı türü bulunmaktadır:
Geleneksel bulut sağlayıcıları tarafından temsil edilen süper ölçekli genişletilmiş bulut hesaplama platformları (AWS, Google, Azure)
Dikey alanların bulut hesaplama platformu, esasen AI veya yüksek performanslı hesaplama için düzenlenmiştir.
Çıkarım hizmeti sağlayıcıları, önceden eğitilmiş modelleri müşterilere dağıtarak, ince ayar yapmak veya çıkarım yapmakla ilgilenir.
Eğitim Veri Kaynağı Sağlayıcı
Büyük model eğitimi esas olarak üç aşamadan geçer: ön eğitim, ince ayar ve pekiştirmeli öğrenme. Ön eğitim, büyük miktarda veriye ihtiyaç duyar, ince ayar ise yüksek kaliteli veriler gerektirir. Bu nedenle, Google gibi arama motorları ve kaliteli diyalog verilerine sahip olan Reddit gibi şirketler piyasa tarafından geniş bir ilgi görüyor.
Bazı geliştirici firmalar, genel büyük modellerle rekabet etmemek için finans, sağlık, kimya gibi niş alanlarda geliştirmeyi tercih ediyor ve bu nedenle belirli bir alanın verilerine ihtiyaç duyuyorlar. Bu yüzden bu büyük modellere özel veriler sağlayan şirketler bulunmaktadır, bunlara da Veri Etiketleme Şirketi denir.
Model araştırma ve geliştirme şirketleri için, büyük veri, kaliteli veri ve belirli veri üç ana veri talebidir.
Microsoft'un araştırması, eğer küçük dil modellerinin veri kalitesi büyük dil modellerinden belirgin şekilde üstünse, performanslarının kötü olmayacağını düşünüyor. Aslında GPT'nin yaratıcılık ve veri açısından belirgin bir avantajı yok, esasen bu alandaki yatırımları başarısını oluşturdu. Sequoia Amerika da, GPT'nin gelecekte rekabet avantajını koruyamayacağını düşünüyor, çünkü bu alanda derin bir koruma duvarı yok, ana sınırlama ise hesaplama gücü ediniminden kaynaklanıyor.
Tahminlere göre, mevcut model ölçeği büyüme durumuna göre 2030 yılında tüm düşük kaliteli ve yüksek kaliteli veriler tükenecek. Bu nedenle sektör, sonsuz veri üretmek için yapay zeka ile sentetik veriler keşfetmektedir, böylece tek engel işlem gücü kalmaktadır. Bu yön hâlâ keşif aşamasındadır ve dikkate değer.
Veritabanı Sağlayıcısı
AI verileri ve derin öğrenme eğitim çıkarım görevleri için, sektör şu anda "vektör veritabanı" kullanıyor. Vektör veritabanları, büyük miktarda yüksek boyutlu vektör verilerini verimli bir şekilde depolamak, yönetmek ve dizinlemek için tasarlanmıştır. Yapısal olmayan verileri "vektör" biçiminde birleştirerek depolamak için uygundur ve bu vektörlerin depolanması ve işlenmesi için uygundur.
Başlıca oyuncular arasında Chroma, Zilliz, Pinecone, Weaviate gibi isimler bulunmaktadır. Veri hacmi talebinin artması ve çeşitli alt alanlardaki büyük modeller ile uygulamaların patlak vermesiyle, Vector Database'e olan talebin büyük ölçüde artması beklenmektedir. Bu alanda güçlü bir teknik engel bulunduğundan, yatırım yaparken daha çok olgun ve müşterisi olan şirketlere yönelmek gerekmektedir.
Kenar Aygıtı
GPU HPC (Yüksek Performanslı Hesaplama Kümesi) kurarken genellikle büyük miktarda enerji tüketilir ve ısı üretir, bu nedenle soğutma ekipmanına ihtiyaç vardır.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 Likes
Reward
10
7
Share
Comment
0/400
NFTRegretDiary
· 07-08 17:35
Metaverse çok absürt, para kazandırmıyor.
View OriginalReply0
FUDwatcher
· 07-08 04:00
Yine birileri AI ile enayileri oyuna getirdi.
View OriginalReply0
TokenUnlocker
· 07-06 20:54
Blok Zinciri ölü long pozisyonlar dipten satın al işte bu kadar.
View OriginalReply0
WagmiWarrior
· 07-06 20:54
Para kazanmak önemli, Kripto Para Trade her zaman bir efsanedir.
View OriginalReply0
HodlNerd
· 07-06 20:54
istatistiksel önem piyasa gürültüsünü geride bırakıyor... desen tanıma, AI + kripto arasında birleşim aşamasına girdiğimizi onaylıyor
AI ve şifreleme endüstrisinin birleşimi: Derin öğrenme Web3 manzarasını nasıl yeniden şekillendiriyor
AI x Crypto: Sıfırdan Zirveye
Giriş
Yapay zeka endüstrisindeki son gelişmeler bazı kişiler tarafından dördüncü sanayi devrimi olarak görülmektedir. Büyük modellerin ortaya çıkışı, farklı sektörlerdeki verimliliği önemli ölçüde artırmış ve ABD için çalışma verimliliğini yaklaşık %20 oranında artırdığı tahmin edilmektedir. Aynı zamanda, büyük modellerin sağladığı genelleme yeteneği, geçmişteki kesin kodlardan daha genelleştirilmiş büyük model çerçevelerine yazılım içine yerleştirilmesi gibi yeni bir yazılım tasarım paradigması olarak değerlendirilmektedir; bu, daha geniş modal giriş ve çıkışları desteklemektedir. Derin öğrenme teknolojisi, AI endüstrisine dördüncü bir refah dönemini getirmiştir ve bu dalga kripto para endüstrisini de etkilemiştir.
Bu rapor, AI endüstrisinin gelişim tarihini, teknoloji sınıflandırmasını ve derin öğrenme teknolojisinin endüstri üzerindeki etkisini detaylı bir şekilde inceleyecektir. Derin öğrenme alanında GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi sanayi zincirinin yukarı ve aşağı akışındaki gelişim durumu ve trendlerini derinlemesine analiz edecektir. Ayrıca, kripto para birimleri ile AI endüstrisi arasındaki ilişkiyi esasen tartışacak ve kripto para birimleri ile ilgili AI sanayi zinciri yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlarda farklı dönemlerde farklı disiplin arka planlarıyla çeşitli yapay zeka türleri geliştirilmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini kullanmaktadır; bu, makinelerin veriye dayanarak görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesi fikridir. Temel adımlar, verilerin algoritmaya gönderilmesi, modelin eğitilmesi, modelin test edilmesi ve uygulanması, modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminde üç ana akım bulunmaktadır: bağlantıcılık, sembolistlik ve davranışçılık, bunlar sırasıyla insan sinir sistemini, düşüncesini ve davranışını taklit eder. Şu anda, sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinir, üstünlük sağlamaktadır. Bunun ana nedeni, bu yapının bir giriş katmanı ve bir çıkış katmanı olmasına rağmen birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron (parametre) sayısı yeterince fazla olduğunda, karmaşık genel görevleri modelleme şansı yeterince artar. Veri girişi vasıtasıyla nöronların parametreleri sürekli olarak ayarlanabilir; birden fazla veri setinin ardından bu nöron en iyi duruma (parametre) ulaşır; bu da "derinliğinin" kaynağıdır - yeterince fazla katman ve nöron.
Sinir ağlarına dayalı derin öğrenme teknolojisi, en erken sinir ağlarından, ileri beslemeli sinir ağlarına, RNN'lere, CNN'lere, GAN'lara kadar birçok teknik iterasyona ve evrime sahiptir ve sonunda modern büyük modellerin, örneğin GPT gibi, kullandığı Transformer teknolojisine evrilmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modların (örneğin ses, video, resim vb.) verilerini temsil etmek için karşılık gelen sayılara kodlamak amacıyla bir dönüştürücü ekler. Daha sonra bu veriler sinir ağına girilir, böylece sinir ağı her türlü veriyi uyumlu hale getirebilir, yani çok modlu hale getirir.
AI gelişimi üç teknolojik dalga geçirdi: İlk dalga 1960'lı yıllarda, AI teknolojisinin ortaya çıkmasından on yıl sonra gerçekleşti. Bu dalga, sembolist teknolojinin gelişimiyle tetiklendi ve bu teknoloji, genel doğal dil işleme ve insan-makine diyalogu sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu.
İkinci AI teknolojisi dalgası 1997'de meydana geldi, IBM'in Deep Blue'su 3.5:2.5 ile satranç şampiyonu Garry Kasparov'u (Kasparov) yenerek bu zafer, yapay zekanın bir dönüm noktası olarak değerlendirildi.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını temel alan, verileri temsil öğrenimi için kullanılan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi; bu algoritmalar bu üçüncü teknoloji dalgasını şekillendirdi ve bağlantıcılığın altın çağı oldu.
Derin Öğrenme Sanayi Zinciri
Mevcut büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yaratarak çok sayıda oyuncunun bu sektöre girmesine neden oldu; pazar, veri ve hesaplama gücüne olan talebin büyük ölçüde artmasına yol açtı. Bu bölüm, derin öğrenme algoritmalarının endüstri zincirini, yukarı ve aşağı akış bileşenlerini, ayrıca yukarı ve aşağı akışın mevcut durumu ve arz-talep ilişkisi ile gelecekteki gelişimini keşfetmeye odaklanmaktadır.
Transformer teknolojisine dayalı GPT öncüsü LLM'lerin (büyük modeller) eğitimi üç aşamaya ayrılır:
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek model altındaki her bir nöronun en iyi parametrelerini bulmak, bu süreç büyük miktarda veri gerektirir ve aynı zamanda en fazla hesaplama gücünü tüketen süreçtir.
İkinci adım, ince ayar yapmaktır. Modelin çıktı kalitesini artırmak için, az ama çok kaliteli bir veri seti verin.
Üçüncü adım, pekiştirmeli öğrenme. Büyük modelin çıktısının yüksek kaliteli olup olmadığını belirlemek için bir "ödül modeli" oluşturun, bu da büyük modelin parametrelerini otomatik olarak yinelemek için kullanılır.
Kısaca, büyük modelin eğitim sürecinde, ön eğitim veri miktarı açısından çok yüksek bir talep gerektirir ve gereken GPU hesaplama gücü de en fazladır; ince ayar, parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar; pekiştirme öğrenimi, daha yüksek kaliteli sonuçlar üretmek için parametreleri tekrar tekrar yinelemek üzere ödül modelini kullanabilir.
Büyük modelin performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortak olarak etkiler. Parametre sayısının p, veri miktarının n (Token sayısı ile hesaplanan) olduğunu varsayarsak, deneysel kurallar kullanılarak gerekli hesaplama miktarı hesaplanabilir ve böylece satın alınması gereken hesaplama gücü durumu ve eğitim süresi tahmin edilebilir.
Hesaplama gücü genellikle bir kez kayan nokta işlemi temsil eden temel birim olarak Flops ile ifade edilir. Deneysel kurallara göre, büyük bir modelin ön eğitim süreci yaklaşık 6np Flops gerektirir. Çıkarım (giriş verilerinin büyük modelin çıktı vermesini beklediği süreç) yaklaşık 2np Flops gerektirir.
Erken dönemlerde eğitim için CPU çipleri kullanılarak hesaplama gücü sağlandı, daha sonra giderek GPU'lar, örneğin Nvidia'nın A100, H100 çipleri gibi, ile yer değiştirdi. Çünkü GPU'lar özel hesaplama olarak işlev görebilir ve enerji verimliliği açısından CPU'lara göre çok daha üstündür. GPU'lar, kayan nokta işlemlerini esas olarak Tensor Core modülü aracılığıyla gerçekleştirir. Çipin FP16/FP32 hassasiyetindeki Flops verileri, ana hesaplama yeteneğini temsil eder ve çipin ana ölçüm kriterlerinden biridir.
Varsayalım ki büyük model parametreleri GPT3 örneği olarak 175 milyar parametreye, 180 milyar Token veri miktarına (yaklaşık 570GB) sahiptir. O halde bir ön eğitim işlemi için 6np Flops gerekmektedir, bu da yaklaşık 3.1510^22 Flops eder. TFLOPS (Trilyon FLOPs) cinsinden bu yaklaşık 3.1510^10 TFLOPS'tır, yani bir SXM modelindeki bir çipin GPT3'ü bir kez ön eğitmesi yaklaşık 584 gün sürmektedir.
Bundan, önceden eğitilmiş büyük hesaplama gücünün birden fazla en gelişmiş çipin birlikte çalışmasını gerektirdiği görülüyor. GPT-4'ün parametre sayısı, GPT-3'ün on katı, bu da veri miktarı değişmese bile çip sayısının on kat daha fazla satın alınması gerektiği anlamına geliyor. GPT-4'ün Token sayısı 13 trilyon, bu da GPT-3'ün on katı ve nihayetinde GPT-4, 100 katın üzerinde çip gücü gerektirebilir.
Büyük model eğitimi sırasında, veri depolama sorunları da bulunmaktadır. GPU'nun bellek alanı genellikle küçüktür (örneğin A100 için 80GB), tüm verileri barındıramaz, bu nedenle çipin bant genişliğini, yani sabit diskten belleğe veri aktarım hızını incelemek gerekmektedir. Aynı zamanda birden fazla GPU çipi kullanıldığı için, GPU'lar arasındaki aktarım hızları da önem kazanmaktadır. Bu nedenle birçok durumda, model eğitimi uygulamalarını kısıtlayan faktörler veya maliyetler, çipin hesaplama yeteneği değil, daha çok çipin bant genişliğidir. Çünkü veri aktarım hızı çok yavaşsa, modelin çalışma süresi uzar ve elektrik maliyetleri artar.
Derin öğrenme endüstri zinciri esas olarak aşağıdaki birkaç bölümden oluşmaktadır:
Donanım GPU Tedarikçileri
Şu anda Nvidia, AI GPU çipleri alanında kesin bir lider konumda. Akademik çevreler genellikle tüketici seviyesindeki GPU'ları (RTX serisi) kullanırken; sanayi, büyük modeller için H100, A100 gibi ticari çözümler kullanıyor.
2023 yılında, Nvidia'nın en gelişmiş H100 çipi piyasaya sürüldüğünde birçok şirketten talep aldı. H100 çipine olan küresel talep, arzdan çok daha fazla ve teslimat süresi 52 haftaya kadar çıkmış durumda. Nvidia'nın tekel durumu göz önüne alındığında, Google önderliğinde Intel, Qualcomm, Microsoft ve Amazon birlikte CUDA İttifakı'nı kurdu ve Nvidia'nın etkisinden kurtulmak için GPU geliştirmeyi umuyorlar.
Ultra büyük teknoloji şirketleri/ bulut hizmet sağlayıcıları/ ulusal laboratuvarlar için, genellikle binlerce, on binlerce H100 çipi satın alarak HPC (yüksek performanslı hesaplama merkezi) kuruyorlar. 2023 yılı sonu itibarıyla, H100 çiplerinin sipariş miktarı 500.000'den fazla oldu.
Nvidia'nın çip tedariği konusunda, şu anda H200 ile ilgili haberler yayımlandı, H200'ün performansının H100'ün performansının iki katı olması bekleniyor ve B100 2024 yılının sonlarında veya 2025 yılının başlarında piyasaya sürülecek. Şu anda GPU gelişimi hala Moore yasasını karşılıyor, performans her 2 yılda bir iki katına çıkıyor, fiyatlar ise yarı yarıya düşüyor.
Bulut Hizmeti Sağlayıcısı
Bulut hizmeti sağlayıcıları, yeterli GPU satın aldıktan sonra, sınırlı bütçeye sahip yapay zeka şirketlerine esnek hesaplama gücü ve barındırma eğitim çözümleri sunabiliyor. Mevcut piyasada üç ana bulut hesaplama sağlayıcı türü bulunmaktadır:
Eğitim Veri Kaynağı Sağlayıcı
Büyük model eğitimi esas olarak üç aşamadan geçer: ön eğitim, ince ayar ve pekiştirmeli öğrenme. Ön eğitim, büyük miktarda veriye ihtiyaç duyar, ince ayar ise yüksek kaliteli veriler gerektirir. Bu nedenle, Google gibi arama motorları ve kaliteli diyalog verilerine sahip olan Reddit gibi şirketler piyasa tarafından geniş bir ilgi görüyor.
Bazı geliştirici firmalar, genel büyük modellerle rekabet etmemek için finans, sağlık, kimya gibi niş alanlarda geliştirmeyi tercih ediyor ve bu nedenle belirli bir alanın verilerine ihtiyaç duyuyorlar. Bu yüzden bu büyük modellere özel veriler sağlayan şirketler bulunmaktadır, bunlara da Veri Etiketleme Şirketi denir.
Model araştırma ve geliştirme şirketleri için, büyük veri, kaliteli veri ve belirli veri üç ana veri talebidir.
Microsoft'un araştırması, eğer küçük dil modellerinin veri kalitesi büyük dil modellerinden belirgin şekilde üstünse, performanslarının kötü olmayacağını düşünüyor. Aslında GPT'nin yaratıcılık ve veri açısından belirgin bir avantajı yok, esasen bu alandaki yatırımları başarısını oluşturdu. Sequoia Amerika da, GPT'nin gelecekte rekabet avantajını koruyamayacağını düşünüyor, çünkü bu alanda derin bir koruma duvarı yok, ana sınırlama ise hesaplama gücü ediniminden kaynaklanıyor.
Tahminlere göre, mevcut model ölçeği büyüme durumuna göre 2030 yılında tüm düşük kaliteli ve yüksek kaliteli veriler tükenecek. Bu nedenle sektör, sonsuz veri üretmek için yapay zeka ile sentetik veriler keşfetmektedir, böylece tek engel işlem gücü kalmaktadır. Bu yön hâlâ keşif aşamasındadır ve dikkate değer.
Veritabanı Sağlayıcısı
AI verileri ve derin öğrenme eğitim çıkarım görevleri için, sektör şu anda "vektör veritabanı" kullanıyor. Vektör veritabanları, büyük miktarda yüksek boyutlu vektör verilerini verimli bir şekilde depolamak, yönetmek ve dizinlemek için tasarlanmıştır. Yapısal olmayan verileri "vektör" biçiminde birleştirerek depolamak için uygundur ve bu vektörlerin depolanması ve işlenmesi için uygundur.
Başlıca oyuncular arasında Chroma, Zilliz, Pinecone, Weaviate gibi isimler bulunmaktadır. Veri hacmi talebinin artması ve çeşitli alt alanlardaki büyük modeller ile uygulamaların patlak vermesiyle, Vector Database'e olan talebin büyük ölçüde artması beklenmektedir. Bu alanda güçlü bir teknik engel bulunduğundan, yatırım yaparken daha çok olgun ve müşterisi olan şirketlere yönelmek gerekmektedir.
Kenar Aygıtı
GPU HPC (Yüksek Performanslı Hesaplama Kümesi) kurarken genellikle büyük miktarda enerji tüketilir ve ısı üretir, bu nedenle soğutma ekipmanına ihtiyaç vardır.