A importância da rede na era da IA e as direções de inovação
A rede tornou-se uma parte fundamental na era dos grandes modelos de IA. Com o rápido crescimento da escala dos modelos, os clusters de múltiplos servidores tornaram-se a solução principal para resolver problemas de treinamento, sendo essa a base para a "ascensão" da rede na era da IA. Em comparação com o passado, quando se tratava apenas de transmitir dados, atualmente a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que exige uma maior densidade e capacidade da rede.
A demanda da rede vem principalmente de três áreas:
O tamanho dos modelos está a aumentar rapidamente. O tempo de treino é proporcional à quantidade de parâmetros do modelo e inversamente proporcional à velocidade de cálculo. Para reduzir o tempo de treino, é necessário aumentar o número de dispositivos através da rede e melhorar a eficiência de paralelismo entre múltiplos dispositivos.
Comunicação complexa de sincronização de múltiplas placas. Após a divisão do modelo para uma única placa, cada cálculo requer alinhamento, o que impõe exigências mais altas para a transmissão e troca de rede.
Custo de falha cada vez mais elevado. O treinamento de grandes modelos geralmente dura meses, e interrupções podem causar perdas graves em termos de progresso e custo. As redes de IA modernas tornaram-se a cristalização da capacidade de engenharia de sistemas humanos, comparável a aviões, porta-aviões, entre outros.
A inovação na rede futura será desenvolvida em torno de três direções: "redução de custos", "abertura" e equilíbrio da escala de computação:
Mudança de meio de comunicação: os módulos ópticos buscam taxas de transmissão mais altas enquanto exploram rotas de redução de custos como LPO, LRO e fotônica de silício. Os cabos de cobre ocupam a conexão dentro do armário devido à sua relação custo-benefício. Novas tecnologias semicondutoras, como Chiplet e Wafer-scaling, aceleram a exploração do limite de interconexão baseado em silício.
Competição de protocolos de rede: protocolos de comunicação entre chips fortemente vinculados às placas gráficas, como NV-LINK, Infinity Fabric, etc. A comunicação entre nós concentra-se principalmente na competição entre os dois grandes protocolos, IB e Ethernet.
Mudanças na arquitetura de rede: atualmente, a arquitetura de folha e espinha é amplamente utilizada, mas à medida que o tamanho do cluster aumenta, novas arquiteturas como Dragonfly e rail-only têm potencial para se tornarem a direção de evolução de superclusters.
Sugestões de investimento a considerar:
Elementos centrais do sistema de comunicação: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.
Inovação no sistema de comunicação: Fibra Óptica Changfei, Tai Chen Guang, Yuan Jie Ke Ji, Sheng Ke Tong Xin-U, Han Wu Ji, De Ke Li.
Aviso de risco: A demanda por IA não atinge as expectativas, a lei de escalonamento falha, a concorrência no setor aumenta.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
9 Curtidas
Recompensa
9
5
Compartilhar
Comentário
0/400
CryptoSurvivor
· 07-14 21:49
Outra onda de fazer as pessoas de parvas começou.
Ver originalResponder0
HalfIsEmpty
· 07-14 02:14
Não complicar tanto, é apenas um trabalho que queima dinheiro.
Ver originalResponder0
FundingMartyr
· 07-14 02:08
Poder de computação não é tudo, ainda depende da largura de banda.
Inovação na rede na era da IA: redução de custos, abertura e equilíbrio do Poder de computação são fundamentais
A importância da rede na era da IA e as direções de inovação
A rede tornou-se uma parte fundamental na era dos grandes modelos de IA. Com o rápido crescimento da escala dos modelos, os clusters de múltiplos servidores tornaram-se a solução principal para resolver problemas de treinamento, sendo essa a base para a "ascensão" da rede na era da IA. Em comparação com o passado, quando se tratava apenas de transmitir dados, atualmente a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que exige uma maior densidade e capacidade da rede.
A demanda da rede vem principalmente de três áreas:
O tamanho dos modelos está a aumentar rapidamente. O tempo de treino é proporcional à quantidade de parâmetros do modelo e inversamente proporcional à velocidade de cálculo. Para reduzir o tempo de treino, é necessário aumentar o número de dispositivos através da rede e melhorar a eficiência de paralelismo entre múltiplos dispositivos.
Comunicação complexa de sincronização de múltiplas placas. Após a divisão do modelo para uma única placa, cada cálculo requer alinhamento, o que impõe exigências mais altas para a transmissão e troca de rede.
Custo de falha cada vez mais elevado. O treinamento de grandes modelos geralmente dura meses, e interrupções podem causar perdas graves em termos de progresso e custo. As redes de IA modernas tornaram-se a cristalização da capacidade de engenharia de sistemas humanos, comparável a aviões, porta-aviões, entre outros.
A inovação na rede futura será desenvolvida em torno de três direções: "redução de custos", "abertura" e equilíbrio da escala de computação:
Mudança de meio de comunicação: os módulos ópticos buscam taxas de transmissão mais altas enquanto exploram rotas de redução de custos como LPO, LRO e fotônica de silício. Os cabos de cobre ocupam a conexão dentro do armário devido à sua relação custo-benefício. Novas tecnologias semicondutoras, como Chiplet e Wafer-scaling, aceleram a exploração do limite de interconexão baseado em silício.
Competição de protocolos de rede: protocolos de comunicação entre chips fortemente vinculados às placas gráficas, como NV-LINK, Infinity Fabric, etc. A comunicação entre nós concentra-se principalmente na competição entre os dois grandes protocolos, IB e Ethernet.
Mudanças na arquitetura de rede: atualmente, a arquitetura de folha e espinha é amplamente utilizada, mas à medida que o tamanho do cluster aumenta, novas arquiteturas como Dragonfly e rail-only têm potencial para se tornarem a direção de evolução de superclusters.
Sugestões de investimento a considerar:
Elementos centrais do sistema de comunicação: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.
Inovação no sistema de comunicação: Fibra Óptica Changfei, Tai Chen Guang, Yuan Jie Ke Ji, Sheng Ke Tong Xin-U, Han Wu Ji, De Ke Li.
Aviso de risco: A demanda por IA não atinge as expectativas, a lei de escalonamento falha, a concorrência no setor aumenta.