Ainda restam 10h para a atividade da Openledger desta edição no Cookie ~
@cookiedotfun @OpenledgerHQ
Estive preguiçoso durante muito tempo, sempre a publicar Sapien, e por fim o snapshot ficou em mais de 80 lugares... Nos últimos 10h, vou escrever mais um sobre Openledger.
Hoje, vou falar sobre o que a Ha Mei acabou de ler na documentação técnica da @OpenledgerHQ, não consigo conter. Este framework, em termos de eficiência na implementação de IA, eu admito que é um avanço, mas se é "revolucionário", ainda falta um pouco.
Um destaque é a redução do uso de memória de 40-50 GB para 8-12 GB, especialmente para pequenas e médias empresas. No entanto, o que não é mencionado no documento é que essa otimização depende em grande medida de hacks do núcleo CUDA, e o custo de manutenção a longo prazo pode ser muito alto. As pessoas devem ter visto projetos semelhantes, com indicadores de desempenho impressionantes no início, mas que começam a apresentar vários erros estranhos de OOM três meses depois.
Dois, tempo de troca de modelo < 100 ms? Em ambientes de produção reais, considerando a latência da rede e os problemas de arranque a frio, alcançar 200 ms já é uma grande conquista. Os benchmarks no documento foram feitos em ambientes ideais, e se não me engano, nem mesmo os dados básicos de teste de estresse foram incluídos. A referência para menos de 100ms ainda precisa ser verificada na prática.
Três, a solução de expansão de GPU não é uma promessa vazia. O design básico da estrutura topológica ainda não foi divulgado, é bom saber que, em um ambiente distribuído, a sincronização do adaptador LoRA será um pesadelo. No ano passado, um projeto semelhante morreu por causa disso, @KaitoAI deve lembrar-se desse acontecimento.
Quatro, o suporte a dispositivos de borda é realmente uma necessidade. Fiquei impressionado ao ver a otimização do Jetson Nano, afinal, as soluções disponíveis no mercado são ou muito pesadas ou têm uma grande perda de precisão. No entanto, a tecnologia de quantificação mencionada no documento, para ser sincero, é apenas uma QAT comum com um nome diferente, algo que a equipa @cookiedotfun já havia explorado há dois anos.
Cinco, quem já viu a parte da blockchain entende. A tomada de decisão da IA em blockchain soa bem, mas o documento não menciona de forma alguma como resolver as taxas de gás. Um simples pedido de raciocínio requer a escrita de dezenas de registros na blockchain, quem pode suportar esse custo a longo prazo? É melhor usar diretamente um registro centralizado + colocar a raiz Merkle em cadeia periodicamente.
Claro que não é uma negação total. O design do adaptador de carregamento dinâmico é realmente engenhoso, especialmente a ideia de ajuste automático zero-shot, embora o nome seja um pouco exagerado, a abordagem técnica está correta. Se conseguirmos resolver o problema da fragmentação de memória, esta funcionalidade pode tornar-se um trunfo!!!
De um modo geral, não é fácil realizar uma mudança tão radical no modelo de serviços de IA como mencionado no white paper; é necessário manter uma visão positiva a longo prazo~
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Ainda restam 10h para a atividade da Openledger desta edição no Cookie ~
@cookiedotfun @OpenledgerHQ
Estive preguiçoso durante muito tempo, sempre a publicar Sapien, e por fim o snapshot ficou em mais de 80 lugares... Nos últimos 10h, vou escrever mais um sobre Openledger.
Hoje, vou falar sobre o que a Ha Mei acabou de ler na documentação técnica da @OpenledgerHQ, não consigo conter.
Este framework, em termos de eficiência na implementação de IA, eu admito que é um avanço, mas se é "revolucionário", ainda falta um pouco.
Um destaque é a redução do uso de memória de 40-50 GB para 8-12 GB, especialmente para pequenas e médias empresas.
No entanto, o que não é mencionado no documento é que essa otimização depende em grande medida de hacks do núcleo CUDA, e o custo de manutenção a longo prazo pode ser muito alto.
As pessoas devem ter visto projetos semelhantes, com indicadores de desempenho impressionantes no início, mas que começam a apresentar vários erros estranhos de OOM três meses depois.
Dois, tempo de troca de modelo < 100 ms?
Em ambientes de produção reais, considerando a latência da rede e os problemas de arranque a frio, alcançar 200 ms já é uma grande conquista.
Os benchmarks no documento foram feitos em ambientes ideais, e se não me engano, nem mesmo os dados básicos de teste de estresse foram incluídos. A referência para menos de 100ms ainda precisa ser verificada na prática.
Três, a solução de expansão de GPU não é uma promessa vazia.
O design básico da estrutura topológica ainda não foi divulgado, é bom saber que, em um ambiente distribuído, a sincronização do adaptador LoRA será um pesadelo.
No ano passado, um projeto semelhante morreu por causa disso, @KaitoAI deve lembrar-se desse acontecimento.
Quatro, o suporte a dispositivos de borda é realmente uma necessidade.
Fiquei impressionado ao ver a otimização do Jetson Nano, afinal, as soluções disponíveis no mercado são ou muito pesadas ou têm uma grande perda de precisão.
No entanto, a tecnologia de quantificação mencionada no documento, para ser sincero, é apenas uma QAT comum com um nome diferente, algo que a equipa @cookiedotfun já havia explorado há dois anos.
Cinco, quem já viu a parte da blockchain entende.
A tomada de decisão da IA em blockchain soa bem, mas o documento não menciona de forma alguma como resolver as taxas de gás. Um simples pedido de raciocínio requer a escrita de dezenas de registros na blockchain, quem pode suportar esse custo a longo prazo?
É melhor usar diretamente um registro centralizado + colocar a raiz Merkle em cadeia periodicamente.
Claro que não é uma negação total.
O design do adaptador de carregamento dinâmico é realmente engenhoso, especialmente a ideia de ajuste automático zero-shot, embora o nome seja um pouco exagerado, a abordagem técnica está correta.
Se conseguirmos resolver o problema da fragmentação de memória, esta funcionalidade pode tornar-se um trunfo!!!
De um modo geral, não é fácil realizar uma mudança tão radical no modelo de serviços de IA como mencionado no white paper; é necessário manter uma visão positiva a longo prazo~
#Openledger