Sora emerge: 2024 será o ano da revolução AI+Web3?

2/29/2024, 2:39:27 PM

iniciantes

Além do Depin, que tipo de faíscas o entrelaçamento da Web3 e da IA pode acender? Que oportunidades existem na trilha da Sora? Este artigo também contempla as possibilidades da Web3 na era da IA.

Prefácio

No dia 16 de fevereiro, a OpenAI anunciou seu mais recente modelo de difusão generativa de texto para vídeo, chamado "Sora", marcando outro marco na IA generativa com sua capacidade de produzir vídeos de alta qualidade em uma ampla gama de tipos de dados visuais. Diferentemente das ferramentas de geração de vídeo de IA, como o Pika, que gera alguns segundos de vídeo a partir de várias imagens, o Sora treina no espaço latente compactado de vídeos e imagens, dividindo-os em patches espaço-temporais para geração de vídeo dimensionável. Além disso, o modelo demonstra a capacidade de simular tanto o mundo físico quanto o digital, com sua demonstração de 60 segundos descrita como um "simulador universal do mundo físico".

O Sora continua o caminho técnico de "dados de origem-Transformador-Difusão-emergência" visto em modelos GPT anteriores, indicando que sua maturidade de desenvolvimento também depende da capacidade de computação. Dado o maior volume de dados necessário para o treinamento em vídeo em comparação com o texto, espera-se que a demanda por potência computacional aumente ainda mais. No entanto, conforme discutido em nosso artigo anterior "Previsão de setor promissor: The Decentralized Computing Power Market", a importância da potência computacional na era da IA foi explorada e, com a crescente popularidade da IA, surgiram vários projetos de potência computacional, beneficiando outros projetos do Depin (armazenamento, potência computacional etc.) com um aumento de valor. Além do Depin, este artigo tem como objetivo atualizar e completar discussões anteriores, ponderando as faíscas que podem surgir do entrelaçamento da Web3 e da IA e as oportunidades dessa trajetória na era da IA.

O desenvolvimento da IA: três direções principais

A Inteligência Artificial (IA) é um campo em expansão voltado para emular, ampliar e enriquecer a inteligência humana. Desde sua criação nas décadas de 1950 e 1960, a IA passou por mais de meio século de evolução, emergindo como uma tecnologia essencial que impulsiona a transformação da sociedade e de vários setores. Ao longo dessa jornada, o progresso entrelaçado de três direções principais de pesquisa - simbolismo, conexionismo e behaviorismo - estabeleceu a base para o rápido avanço da IA atualmente.

Simbolismo

O simbolismo, também conhecido como logicismo ou raciocínio baseado em regras, postula que é possível replicar a inteligência humana por meio do processamento de símbolos. Essa abordagem utiliza símbolos para representar e manipular objetos, conceitos e seus relacionamentos em um determinado domínio de problema, empregando raciocínio lógico para resolver questões. O simbolismo obteve um sucesso notável, principalmente em sistemas especializados e representação de conhecimento. Seu princípio central é que o comportamento inteligente pode ser realizado por meio da manipulação de símbolos e da inferência lógica, com os símbolos servindo como abstrações de alto nível do mundo real.

Conexionismo

O conexionismo, também conhecido como abordagem de rede neural, busca alcançar a inteligência espelhando a estrutura e a funcionalidade do cérebro humano. Essa metodologia constrói redes que compreendem várias unidades de processamento simples, semelhantes a neurônios, e ajusta os pontos fortes da conexão entre essas unidades, semelhantes a sinapses, para facilitar o aprendizado. Ao enfatizar o aprendizado e a generalização a partir dos dados, o conexionismo é adequado para tarefas como reconhecimento de padrões, classificação e mapeamento contínuo de entrada e saída. A aprendizagem profunda, uma evolução do conexionismo, alcançou avanços em domínios como reconhecimento de imagem e fala, bem como processamento de linguagem natural.

Behaviorismo

O behaviorismo, intimamente ligado à robótica biomimética e à pesquisa de sistemas inteligentes autônomos, ressalta que os agentes inteligentes podem aprender por meio da interação ambiental. Diferentemente das abordagens anteriores, o behaviorismo não se concentra na simulação de representações internas ou processos cognitivos, mas sim na obtenção de comportamento adaptativo por meio do ciclo percepção-ação. Ele postula que a inteligência se manifesta por meio da interação ambiental dinâmica e da aprendizagem, o que a torna especialmente eficaz para robôs móveis e sistemas de controle adaptativos que operam em ambientes complexos e imprevisíveis.

Apesar de suas disparidades fundamentais, essas três direções de pesquisa podem sinergizar e complementar umas às outras em pesquisas e aplicações práticas de IA, impulsionando coletivamente o desenvolvimento do campo.

Os princípios do AIGC

O crescente campo do Conteúdo Gerado por Inteligência Artificial (AIGC) representa uma evolução e uma aplicação do conexionismo, facilitando a geração de conteúdo novo ao emular a criatividade humana. Esses modelos são treinados usando vastos conjuntos de dados e algoritmos de aprendizagem profunda para discernir estruturas, relacionamentos e padrões subjacentes nos dados. Solicitados pela entrada do usuário, eles produzem diversos resultados, incluindo imagens, vídeos, códigos, músicas, designs, traduções, respostas a perguntas e textos. Atualmente, o AIGC é composto fundamentalmente por três elementos: Aprendizagem profunda (DL), Big Data e Poder Computacional Massivo.

Aprendizagem profunda

A aprendizagem profunda, um subconjunto da aprendizagem de máquina (ML), emprega algoritmos modelados de acordo com as redes neurais do cérebro humano. Assim como o cérebro humano é composto por neurônios interconectados que processam informações, as redes neurais de aprendizagem profunda consistem em várias camadas de neurônios artificiais que realizam cálculos em um computador. Esses neurônios artificiais, ou nós, aproveitam as operações matemáticas para processar dados e resolver problemas complexos por meio de algoritmos de aprendizagem profunda.

As redes neurais são compostas por camadas: entrada, oculta e saída, com parâmetros que ligam essas camadas.

- Camada de entrada: A primeira camada da rede neural recebe dados de entrada externos. Cada neurônio dentro dessa camada corresponde a um recurso dos dados de entrada. Por exemplo, no processamento de dados de imagem, os neurônios individuais podem representar valores de pixel.

- Camadas ocultas: Após a camada de entrada, as camadas ocultas processam e transmitem dados pela rede. Essas camadas analisam as informações em vários níveis, adaptando seu comportamento à medida que recebem novas informações. As redes de aprendizagem profunda podem ter centenas de camadas ocultas, permitindo a análise de problemas multifacetados. Por exemplo, ao classificar um animal desconhecido a partir de uma imagem, a rede pode compará-lo com animais conhecidos, avaliando características como formato da orelha, número de patas e tamanho da pupila. As camadas ocultas funcionam de forma semelhante, cada uma processando diferentes características dos animais para ajudar na classificação precisa.

- Camada de saída: A camada final da rede neural produz a saída da rede. Os neurônios dessa camada representam categorias ou valores de saída em potencial. Nas tarefas de classificação, cada neurônio pode corresponder a uma categoria, enquanto nas tarefas de regressão, a camada de saída pode apresentar um único neurônio cujo valor prevê o resultado.

- Parâmetros: Nas redes neurais, as conexões entre as diferentes camadas são representadas por pesos e vieses, que são otimizados durante o processo de treinamento para permitir que a rede reconheça com precisão os padrões nos dados e faça previsões. O aumento dos parâmetros pode melhorar a capacidade do modelo da rede neural, ou seja, a capacidade de aprender e representar padrões complexos nos dados. No entanto, isso também aumenta a demanda por poder computacional.

Big Data

O treinamento eficaz da rede neural geralmente requer dados extensos, diversificados, de alta qualidade e de várias fontes. Esses dados formam a base para o treinamento e a validação de modelos de aprendizado de máquina. Por meio da análise de big data, os modelos de aprendizado de máquina podem identificar padrões e relacionamentos nos dados, facilitando as previsões ou classificações.

Poder computacional maciço

A intrincada estrutura multicamada das redes neurais, os inúmeros parâmetros, os requisitos para o processamento de big data, os métodos de treinamento iterativos (que envolvem cálculos repetidos de propagação para frente e para trás, incluindo cálculos de funções de ativação e perda, cálculos de gradiente e atualizações de peso), as necessidades de computação de alta precisão, os recursos de computação paralela, as técnicas de otimização e regularização e os processos de avaliação e validação de modelos contribuem coletivamente para demandas computacionais substanciais.

Sora

O Sora, o mais recente modelo de IA de geração de vídeo da OpenAI, representa um avanço substancial na capacidade da inteligência artificial de processar e compreender diversos dados visuais. Ao empregar redes de compactação de vídeo e técnicas de correção espaço-temporal, o Sora pode converter grandes quantidades de dados visuais capturados em todo o mundo e de vários dispositivos em uma representação unificada. Esse recurso permite o processamento e a compreensão eficientes de conteúdo visual complexo. O Sora utiliza modelos de difusão condicionados por texto para gerar vídeos ou imagens altamente correlacionados com solicitações de texto, demonstrando criatividade e adaptabilidade notáveis.

Apesar dos avanços do Sora na geração de vídeos e na simulação de interações no mundo real, ele encontra certas limitações. Isso inclui a precisão das simulações do mundo físico, a consistência na geração de vídeos longos, a compreensão de instruções de texto complexas e a eficiência no treinamento e na geração. Essencialmente, o Sora segue a trajetória técnica "big data-Transformador-Difusão-emergência", facilitada pelo poder computacional monopolista da OpenAI e pela vantagem de ser a primeira empresa a se destacar, resultando em uma forma de estética de força bruta. No entanto, outras empresas de IA ainda têm o potencial de superar a Sora por meio da inovação tecnológica.

Embora a conexão da Sora com o blockchain permaneça modesta, prevê-se que, nos próximos um ou dois anos, a influência da Sora levará ao surgimento e ao rápido desenvolvimento de outras ferramentas de geração de IA de alta qualidade. Espera-se que esses desenvolvimentos afetem vários setores da Web3, como GameFi, plataformas sociais, plataformas criativas, Depin, etc. Consequentemente, é essencial adquirir uma compreensão geral do Sora e considerar como a IA se integrará efetivamente ao Web3 no futuro torna-se uma consideração crucial.

Os quatro caminhos da integração IA x Web3

Conforme discutido anteriormente, os componentes fundamentais essenciais para a IA generativa podem ser resumidos em três elementos principais: algoritmos, dados e capacidade de computação. Por outro lado, a IA, sendo uma ferramenta universal com efeitos de longo alcance nos métodos de produção, revoluciona a forma como os setores operam. Enquanto isso, os impactos significativos da tecnologia blockchain são duplos: ela reestrutura as relações de produção e permite a descentralização. Assim, a convergência dessas duas tecnologias pode dar origem a quatro caminhos potenciais:

Poder de computação descentralizado

Esta seção tem o objetivo de fornecer insights sobre o cenário atual da capacidade de computação. No campo da IA, a capacidade de computação tem uma importância imensa. A demanda por capacidade de computação em IA, especialmente destacada após o surgimento da Sora, atingiu níveis sem precedentes. Durante o Fórum Econômico Mundial em Davos, Suíça, em 2024, o CEO da OpenAI, Sam Altman, enfatizou que a capacidade de computação e a energia são atualmente as principais restrições, sugerindo sua futura equivalência à moeda. Posteriormente, em 10 de fevereiro, Sam Altman anunciou um plano inovador via Twitter para levantar a impressionante quantia de 7 trilhões de dólares (equivalente a 40% do PIB da China em 2023) para revolucionar o setor global de semicondutores, com o objetivo de estabelecer um império de semicondutores. Anteriormente, minhas considerações sobre o poder de computação estavam limitadas a restrições nacionais e monopólios corporativos; no entanto, a noção de uma única entidade que aspira a dominar o setor global de semicondutores é realmente notável.

A importância da capacidade de computação descentralizada é evidente. Os recursos do blockchain oferecem soluções para os problemas predominantes de monopolização da capacidade de computação e os custos exorbitantes associados à aquisição de GPUs especializadas. Do ponto de vista dos requisitos de IA, a utilização da potência de computação pode ser categorizada em dois aspectos: inferência e treinamento. Os projetos que se concentram principalmente no treinamento são escassos devido à complexa integração necessária para as redes descentralizadas e às exigências substanciais de hardware, o que impõe barreiras significativas à implementação. Por outro lado, as tarefas de inferência são relativamente mais simples, com projetos de rede descentralizados menos complexos e requisitos menores de hardware e largura de banda, representando, portanto, um caminho mais acessível.

O cenário da capacidade de computação centralizada tem um grande potencial, geralmente associado ao descritor "nível de trilhão", e continua sendo um tópico altamente sensacionalista na era da IA. Entretanto, ao observar a grande quantidade de projetos recentes, muitos parecem ser empreendimentos concebidos às pressas com o objetivo de capitalizar as tendências. Embora esses projetos geralmente defendam a descentralização, eles tendem a evitar discussões sobre as ineficiências das redes descentralizadas. Além disso, existe um grau notável de uniformidade no design, com vários projetos adotando abordagens semelhantes (como o L2 com um clique e o design de mineração), o que pode levar ao fracasso e complicar os esforços para se diferenciar da corrida tradicional da IA.

Algoritmo e sistema de colaboração de modelos

Os algoritmos de aprendizado de máquina são projetados para aprender padrões e regras a partir de dados, o que lhes permite fazer previsões ou tomar decisões com base nesses padrões aprendidos. Devido à complexidade envolvida em seu projeto e otimização, os algoritmos são inerentemente intensivos em tecnologia, exigindo profundo conhecimento especializado e inovação tecnológica. Eles servem como a espinha dorsal do treinamento de modelos de IA, determinando como os dados são processados para obter insights úteis ou tomar decisões. Algoritmos de IA generativa notáveis, como Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs) e Transformers, são adaptados para domínios específicos, como pintura, reconhecimento de linguagem, tradução ou geração de vídeo, e são fundamentais para o treinamento de modelos de IA especializados.

A infinidade de algoritmos e modelos com pontos fortes distintos levanta a questão: eles podem ser integrados em um modelo versátil? O Bittensor, um projeto de destaque recente, lidera os esforços nessa direção ao incentivar a colaboração entre vários modelos e algoritmos de IA, promovendo assim o desenvolvimento de modelos de IA mais eficientes e capazes. Outras iniciativas, como a Commune AI, concentram-se em promover a colaboração de código, embora o compartilhamento de algoritmos e modelos continue sendo um desafio devido à sua natureza proprietária dentro das empresas de IA.

O conceito de um ecossistema colaborativo de IA é intrigante, aproveitando a tecnologia blockchain para mitigar as desvantagens associadas a algoritmos de IA isolados. No entanto, sua capacidade de gerar o valor correspondente ainda não foi determinada. As empresas de IA estabelecidas, equipadas com algoritmos e modelos proprietários, possuem fortes capacidades de atualização, iteração e integração de suas tecnologias. Por exemplo, a OpenAI progrediu rapidamente dos primeiros modelos de geração de texto para modelos generativos de vários domínios em um período de dois anos. Projetos como o Bittensor podem precisar explorar caminhos inovadores em seus domínios-alvo para competir de forma eficaz.

Big Data descentralizado

De um ponto de vista simplista, a integração de dados privados para alimentar a IA e a anotação de dados são caminhos que se harmonizam bem com a tecnologia blockchain. As principais preocupações giram em torno de como impedir dados inúteis e atividades mal-intencionadas. Além disso, o armazenamento de dados pode ser vantajoso para projetos do Depin, como FIL e AR.

Olhando por um ângulo mais complexo, aproveitar os dados de blockchain para aprendizado de máquina (ML) para lidar com a acessibilidade dos dados de blockchain apresenta outra direção atraente, conforme explorado por Giza.

Em teoria, os dados da blockchain podem ser acessados a qualquer momento e refletem o estado de toda a blockchain. No entanto, para quem não faz parte do ecossistema de blockchain, o acesso a esses extensos conjuntos de dados não é simples. O armazenamento de uma blockchain inteira requer um conhecimento substancial e recursos de hardware especializados.

Para superar os desafios de acessar os dados de blockchain, o setor testemunhou o surgimento de várias soluções. Por exemplo, os provedores de RPC oferecem acesso ao nó por meio de APIs, enquanto os serviços de indexação facilitam a recuperação de dados por meio de SQL e GraphQL, desempenhando um papel fundamental na atenuação do problema. No entanto, esses métodos têm suas limitações. Os serviços de RPC são inadequados para casos de uso de alta densidade que exigem consultas extensas de dados e muitas vezes não atendem à demanda. Enquanto isso, embora os serviços de indexação ofereçam uma abordagem mais estruturada para a recuperação de dados, a complexidade dos protocolos Web3 torna a construção de consultas eficientes extremamente desafiadora, às vezes exigindo centenas ou até milhares de linhas de código complexo. Essa complexidade representa uma barreira significativa para os profissionais de dados em geral e para aqueles com conhecimento limitado das complexidades da Web3. O impacto coletivo dessas limitações ressalta a necessidade de um método mais acessível e utilizável para obter e aproveitar os dados de blockchain, o que poderia estimular uma aplicação mais ampla e a inovação no campo.

Portanto, a fusão do ZKML (Zero-Knowledge Proof Machine Learning, que alivia o ônus do aprendizado de máquina na cadeia) com dados de blockchain de alta qualidade poderia produzir conjuntos de dados que abordam os desafios de acessibilidade dos dados de blockchain. A IA tem o potencial de reduzir significativamente as barreiras de acesso aos dados do blockchain. Com o tempo, desenvolvedores, pesquisadores e entusiastas de ML poderão ter acesso a mais conjuntos de dados relevantes e de alta qualidade para criar soluções eficazes e inovadoras.

Capacitação de IA para Dapps

Desde a explosão do ChatGPT3 em 2023, a capacitação de IA para Dapps se tornou uma direção muito comum. A IA generativa amplamente aplicável pode ser integrada por meio de APIs, simplificando e tornando mais inteligentes as plataformas de dados, os bots de negociação, as enciclopédias de blockchain e outros aplicativos. Ele também pode funcionar como chatbots (como o Myshell) ou companheiros de IA (como o Sleepless AI) e até mesmo criar NPCs em jogos de blockchain usando IA generativa. No entanto, devido às baixas barreiras técnicas, a maioria das implementações são meros ajustes após a integração de uma API, e a integração com os próprios projetos geralmente é imperfeita, portanto, raramente mencionada.

Com o advento da Sora, acredito pessoalmente que a capacitação da IA para GameFi (incluindo o metaverso) e plataformas criativas será o foco principal no futuro. Dada a natureza ascendente do campo da Web3, é improvável produzir produtos que possam competir diretamente com jogos tradicionais ou empresas criativas. No entanto, o surgimento da Sora tem o potencial de romper esse impasse, possivelmente em apenas dois ou três anos. Pela demonstração do Sora, ele parece capaz de competir com empresas de microdrama. Além disso, a cultura ativa da comunidade da Web3 pode promover uma infinidade de ideias interessantes. Quando o único limite for a imaginação, as barreiras entre o setor de baixo para cima e o setor tradicional de cima para baixo cairão por terra.

Conclusão

Como as ferramentas de IA generativa continuam avançando, estamos prontos para vivenciar "momentos iPhone" mais transformadores no futuro. Apesar do ceticismo inicial em torno da integração da IA com a Web3, estou confiante de que as trajetórias atuais estão, em geral, no caminho certo, embora com três pontos problemáticos principais que exigem atenção: necessidade, eficiência e compatibilidade. Embora a convergência desses domínios permaneça exploratória, ela não deve nos impedir de prever sua adoção generalizada no próximo mercado em alta.

É fundamental manter uma mentalidade de curiosidade e receptividade a novas ideias. Os precedentes históricos, como a rápida transição das carruagens puxadas por cavalos para os automóveis e a evolução das inscrições nos NFTs do passado, ressaltam a importância de evitar preconceitos excessivos, que muitas vezes resultam em oportunidades perdidas.

Isenção de responsabilidade：

Este artigo foi reimpresso de[Deep Tide], Todos os direitos autorais pertencem ao autor original[YBB Capital Zeke]. Se houver alguma objeção a essa reimpressão, entre em contato com a equipe do Gate Learn, que tratará do assunto imediatamente.
Isenção de responsabilidade: Os pontos de vista e opiniões expressos neste artigo são de responsabilidade exclusiva do autor e não constituem consultoria de investimento.
As traduções do artigo para outros idiomas são feitas pela equipe do Gate Learn. A menos que mencionado, é proibido copiar, distribuir ou plagiar os artigos traduzidos.

Conteúdo

Prefácio

O desenvolvimento da IA: três direções principais

Os princípios do AIGC

Conclusão

Calendário Cripto

Encontro em Ho Chi Minh

Metis trará sua iniciativa BUIDL Hour para Ho Chi Minh City como parte do ETHVietnam em 9 de agosto.

METIS

-3.22%

2025-08-08

AMA no X

THORChain irá segurar um AMA no X com Vultisig no dia 9 de agosto às 15:00 UTC para examinar os desenvolvimentos em torno da carteira VULT. A discussão deve delinear os objetivos do projeto e seu potencial impacto na funcionalidade das carteiras de criptomoeda.

RUNE

-6.6%

2025-08-08

AMA no Discord

Nibiru fará um AMA no Discord no dia 9 de agosto às 16:00 UTC para demonstrar a navegação dos aplicativos da Festa de Blocos.

NIBI

-1.36%

2025-08-08

ETH Vietnã em Ho Chi Minh City

A Kadena participará da conferência ETH Vietnam, programada para os dias 9 e 10 de agosto em Ho Chi Minh City. O evento está marcado para reunir desenvolvedores de blockchain e profissionais da indústria para discussões sobre desenvolvimentos tecnológicos dentro do ecossistema Ethereum.

KDA

-4.87%

2025-08-09

Rare Evo em Las Vegas

COTI participará do evento Rare Evo em Las Vegas de 6 a 10 de agosto.

COTI

-5.31%

2025-08-09