El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de modelos grandes ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los modelos grandes se considera un nuevo paradigma de diseño de software, pasando de un código preciso en el pasado a un marco de modelos grandes más generalizados incrustados en el software, lo que permite soportar una gama más amplia de entradas y salidas de modalidades. La tecnología de aprendizaje profundo ha traído la cuarta prosperidad a la industria de la IA, y esta tendencia también ha impactado en la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Analizará en profundidad el estado actual y las tendencias de desarrollo en la cadena de suministro de la industria, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Además, se discutirá esencialmente la relación entre las criptomonedas y la industria de la IA, y se organizará el patrón de la cadena de suministro de IA relacionada con las criptomonedas.
La historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinares.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", que implica que las máquinas mejoren el rendimiento del sistema iterando repetidamente en tareas basadas en datos. Los pasos principales son enviar datos al algoritmo para entrenar el modelo, probar el modelo implementado y utilizar el modelo para completar tareas de predicción automatizada.
Actualmente, hay tres corrientes principales en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso humano, el pensamiento y el comportamiento. En la actualidad, el conexionismo, representado por las redes neuronales (también conocido como aprendizaje profundo), está en la cima, principalmente porque esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas (parámetros) son suficientes, hay suficiente oportunidad para ajustar tareas generales complejas. A través de la entrada de datos, es posible ajustar continuamente los parámetros de las neuronas; después de múltiples datos, esa neurona alcanzará su estado óptimo (parámetros), lo que también da origen a su "profundidad": un número suficiente de capas y neuronas.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones tecnológicas, desde las primeras redes neuronales, pasando por redes neuronales de retroalimentación, RNN, CNN, GAN, hasta finalmente evolucionar hacia modelos modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección evolutiva de las redes neuronales, que agrega un convertidor para codificar los datos de todos los modos (como audio, video, imágenes, etc.) en valores numéricos correspondientes para su representación. Luego, estos datos se introducen en la red neuronal, permitiendo que la red neuronal ajuste cualquier tipo de dato, lo que se traduce en la realización de multimodalidad.
El desarrollo de la IA ha pasado por tres oleadas tecnológicas:
La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, nacieron los sistemas expertos.
La segunda ola de tecnología de IA ocurrió en 1997, cuando Deep Blue de IBM venció al campeón de ajedrez Garry Kasparov con un marcador de 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos algoritmos moldearon conjuntamente esta tercera ola tecnológica y también marcaron la época dorada del conexionismo.
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Liderados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo y provocando una gran demanda de datos y potencia de cálculo en el mercado. Esta sección explora principalmente la cadena industrial de los algoritmos de aprendizaje profundo, su composición en términos de upstream y downstream, así como el estado actual de estas partes y la relación de oferta y demanda, y su desarrollo futuro.
El entrenamiento de los LLMs (modelos grandes) liderados por GPT basado en la tecnología Transformer se divide en tres pasos:
Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada para encontrar los mejores parámetros de cada neurona en el modelo, este proceso requiere una gran cantidad de datos y es el proceso que más potencia de cálculo consume.
Paso dos, ajuste fino. Proporcionar un conjunto de datos de menor volumen pero de muy alta calidad para entrenar, con el fin de mejorar la calidad de salida del modelo.
El tercer paso, aprendizaje reforzado. Establecer un "modelo de recompensa" para determinar si la salida del gran modelo es de alta calidad, utilizado para iterar automáticamente los parámetros del gran modelo.
En resumen, durante el proceso de entrenamiento de modelos grandes, el preentrenamiento requiere una cantidad muy alta de datos y el poder de cálculo de GPU necesario es también el más alto; el ajuste fino requiere datos de mayor calidad para mejorar los parámetros; el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para producir resultados de mayor calidad.
El rendimiento de los grandes modelos está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres influyen conjuntamente en la calidad de los resultados del gran modelo y su capacidad de generalización. Supongamos que la cantidad de parámetros es p y la cantidad de datos es n (calculada en términos de cantidad de tokens), entonces, a través de una regla empírica, se puede calcular la potencia de cálculo necesaria, lo que permite estimar la situación de la potencia de cálculo que se necesita comprar y el tiempo de entrenamiento.
La capacidad de cómputo generalmente se mide en Flops, que representa una operación de punto flotante. Según la regla general, se necesita aproximadamente 6np Flops para preentrenar un gran modelo. La inferencia (el proceso de esperar que el gran modelo produzca una salida a partir de los datos de entrada) requiere aproximadamente 2np Flops.
El uso temprano de chips CPU para el entrenamiento proporcionó soporte de computación, y luego gradualmente se reemplazó por GPU, como los chips A100 y H100 de Nvidia. Esto se debe a que las GPU pueden funcionar como computación dedicada, siendo mucho más eficientes en términos de consumo energético que las CPU. Las GPU realizan operaciones de punto flotante principalmente a través del módulo Tensor Core. Los datos de Flops del chip bajo la precisión FP16/FP32 representan su capacidad de cálculo principal, siendo uno de los principales indicadores de evaluación del chip.
Supongamos que los parámetros del gran modelo, tomando como ejemplo GPT-3, tienen 175 mil millones de parámetros y un volumen de datos de 180 mil millones de tokens (aproximadamente 570 GB). Entonces, realizar un preentrenamiento requiere 6np de Flops, aproximadamente 3.1510^22 Flops. En unidades de TFLOPS (billones de FLOPs), esto equivale a aproximadamente 3.1510^10 TFLOPS, lo que significa que un chip del modelo SXM necesita alrededor de 584 días para preentrenar GPT-3.
Como se puede ver, la enorme cantidad de cálculo necesaria para el preentrenamiento requiere que múltiples chips de última generación trabajen juntos para lograrlo. La cantidad de parámetros de GPT-4 es diez veces mayor que la de GPT-3, lo que significa que, incluso si la cantidad de datos no cambia, también se deben comprar diez veces más chips. La cantidad de tokens de GPT-4 es de 13 billones, que también es diez veces la de GPT-3, y en última instancia, GPT-4 podría necesitar más de 100 veces la capacidad de cálculo de los chips.
En el entrenamiento de modelos grandes, también hay problemas de almacenamiento de datos. El espacio de memoria de la GPU suele ser pequeño (como el A100 que tiene 80GB), lo que no permite almacenar todos los datos, por lo tanto, es necesario examinar el ancho de banda del chip, es decir, la velocidad de transferencia de datos desde el disco duro a la memoria. Al mismo tiempo, debido al uso de múltiples chips GPU, también se involucra la tasa de transferencia entre GPUs. Por lo tanto, en muchas ocasiones, los factores o costos que limitan la práctica del entrenamiento del modelo no son necesariamente la capacidad de cálculo del chip, sino que muchas veces pueden ser el ancho de banda del chip. Debido a que la transferencia de datos es muy lenta, esto puede llevar a que el tiempo de ejecución del modelo se alargue, lo que aumentará los costos de electricidad.
La cadena de la industria del aprendizaje profundo incluye principalmente las siguientes partes:
Proveedor de hardware GPU
Proveedor de servicios en la nube
Proveedores de fuentes de datos de entrenamiento
Proveedor de bases de datos
Dispositivos de borde
Aplicación
Proveedores de hardware GPU
Actualmente, Nvidia ocupa una posición de liderazgo absoluto en el campo de los chips GPU de IA. En el ámbito académico, se utilizan principalmente GPUs de nivel de consumo (serie RTX); en la industria, se utilizan principalmente H100, A100, entre otros, para la implementación comercial de grandes modelos.
En 2023, el chip H100 de Nvidia, el más avanzado, recibió suscripciones de varias empresas tan pronto como fue lanzado. La demanda global del chip H100 supera con creces la oferta, y su ciclo de entrega ha alcanzado las 52 semanas. Dada la situación de monopolio de Nvidia, Google lideró la formación de la Alianza CUDA, junto con Intel, Qualcomm, Microsoft y Amazon, con la esperanza de desarrollar conjuntamente GPUs para liberarse de la influencia de Nvidia.
Para las megaempresas tecnológicas / proveedores de servicios en la nube / laboratorios nacionales, es común que compren miles o incluso decenas de miles de chips H100 para construir centros de HPC (computación de alto rendimiento). Hasta finales de 2023, el número de pedidos de chips H100 superó las 500,000 unidades.
En cuanto al suministro de chips de Nvidia, ya se ha publicado información sobre el H200, se espera que el rendimiento del H200 sea el doble que el del H100, y el B100 se lanzará a finales de 2024 o principios de 2025. Actualmente, el desarrollo de GPU aún cumple con la ley de Moore, duplicando el rendimiento cada 2 años y reduciendo el precio a la mitad.
Proveedor de servicios en la nube
Los proveedores de servicios en la nube, después de adquirir suficientes GPU para construir HPC, pueden ofrecer potencia de cálculo flexible y soluciones de entrenamiento alojadas a empresas de inteligencia artificial con recursos limitados. Actualmente, el mercado se divide principalmente en tres tipos de proveedores de potencia en la nube:
Plataformas de nube de computación a gran escala representadas por proveedores de nube tradicionales (AWS, Google, Azure)
Plataforma de computación en la nube de potencia vertical, principalmente diseñada para IA o computación de alto rendimiento.
Proveedores de Inferencia como Servicio, que principalmente implementan modelos previamente entrenados para los clientes, realizando ajustes finos o inferencias.
Proveedores de datos de entrenamiento
El entrenamiento de modelos grandes pasa principalmente por tres pasos: preentrenamiento, ajuste fino y aprendizaje por refuerzo. El preentrenamiento requiere grandes cantidades de datos, el ajuste fino necesita datos de alta calidad, por lo tanto, empresas como Google, que tienen motores de búsqueda, y Reddit, que cuenta con datos de conversación de calidad, han recibido una amplia atención en el mercado.
Algunos desarrolladores, para no competir con modelos generales, eligen desarrollar en campos específicos como finanzas, salud, química, etc., lo que requiere datos de dominios específicos. Por lo tanto, existen empresas que proporcionan datos específicos para estos grandes modelos, también conocidas como empresas de etiquetado de datos.
Para las empresas de desarrollo de modelos, los datos en grandes cantidades, los datos de alta calidad y los datos específicos son las tres principales demandas de datos.
La investigación de Microsoft sugiere que, si la calidad de los datos de un modelo de lenguaje pequeño es claramente superior a la de un modelo de lenguaje grande, su rendimiento no necesariamente será inferior. De hecho, GPT no tiene una ventaja clara en creatividad y datos, su éxito se debe principalmente a su apuesta en esta dirección. Sequoia América también considera que GPT no necesariamente mantendrá su ventaja competitiva en el futuro, ya que no hay una muralla defensiva profunda en este aspecto, y las principales limitaciones provienen de la obtención de capacidad de cálculo.
Según las predicciones, de acuerdo con el crecimiento actual del modelo, para 2030 todos los datos de baja y alta calidad se habrán agotado. Por lo tanto, la industria está explorando datos sintéticos generados por inteligencia artificial para producir datos infinitos, dejando como único obstáculo la capacidad de cálculo. Esta dirección aún se encuentra en fase de exploración y merece atención.
Proveedor de bases de datos
Para tareas de inferencia y entrenamiento de datos de IA y aprendizaje profundo, actualmente en la industria se utiliza "base de datos de vectores". La base de datos de vectores está diseñada para almacenar, gestionar e indexar de manera eficiente grandes volúmenes de datos vectoriales de alta dimensión. Puede almacenar datos no estructurados de manera uniforme en forma de "vectores", lo que es adecuado para el almacenamiento y procesamiento de estos vectores.
Los principales actores incluyen Chroma, Zilliz, Pinecone, Weaviate, entre otros. Se espera que a medida que aumente la demanda de datos y surjan modelos y aplicaciones grandes en varios campos de especialización, la demanda de bases de datos vectoriales aumente considerablemente. Debido a las fuertes barreras tecnológicas en este campo, la inversión se inclina más hacia empresas maduras y con clientes.
Dispositivos de borde
Al construir un clúster de HPC (computación de alto rendimiento) con GPU, generalmente se consume una gran cantidad de energía que genera calor, por lo que se necesitan dispositivos de enfriamiento.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
7
Compartir
Comentar
0/400
NFTRegretDiary
· 07-08 17:35
Metaverso es demasiado absurdo, no gana dinero.
Ver originalesResponder0
FUDwatcher
· 07-08 04:00
Otra vez hay quienes dicen que la IA está tomando a la gente por tonta.
Ver originalesResponder0
TokenUnlocker
· 07-06 20:54
Cadena de bloques muerta posiciones en largo comprar la caída y listo.
Ver originalesResponder0
WagmiWarrior
· 07-06 20:54
Hacer dinero es lo importante, Comercio de criptomonedas es siempre un dios.
Ver originalesResponder0
HodlNerd
· 07-06 20:54
la significancia estadística supera el ruido del mercado... el reconocimiento de patrones confirma que estamos entrando en una fase convergente entre la IA + cripto
La fusión de la IA y la encriptación: cómo el aprendizaje profundo está remodelando el panorama de Web3
IA x Cripto: De cero a la cima
Introducción
El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de modelos grandes ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los modelos grandes se considera un nuevo paradigma de diseño de software, pasando de un código preciso en el pasado a un marco de modelos grandes más generalizados incrustados en el software, lo que permite soportar una gama más amplia de entradas y salidas de modalidades. La tecnología de aprendizaje profundo ha traído la cuarta prosperidad a la industria de la IA, y esta tendencia también ha impactado en la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Analizará en profundidad el estado actual y las tendencias de desarrollo en la cadena de suministro de la industria, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Además, se discutirá esencialmente la relación entre las criptomonedas y la industria de la IA, y se organizará el patrón de la cadena de suministro de IA relacionada con las criptomonedas.
La historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinares.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", que implica que las máquinas mejoren el rendimiento del sistema iterando repetidamente en tareas basadas en datos. Los pasos principales son enviar datos al algoritmo para entrenar el modelo, probar el modelo implementado y utilizar el modelo para completar tareas de predicción automatizada.
Actualmente, hay tres corrientes principales en el aprendizaje automático: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso humano, el pensamiento y el comportamiento. En la actualidad, el conexionismo, representado por las redes neuronales (también conocido como aprendizaje profundo), está en la cima, principalmente porque esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y el número de neuronas (parámetros) son suficientes, hay suficiente oportunidad para ajustar tareas generales complejas. A través de la entrada de datos, es posible ajustar continuamente los parámetros de las neuronas; después de múltiples datos, esa neurona alcanzará su estado óptimo (parámetros), lo que también da origen a su "profundidad": un número suficiente de capas y neuronas.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones tecnológicas, desde las primeras redes neuronales, pasando por redes neuronales de retroalimentación, RNN, CNN, GAN, hasta finalmente evolucionar hacia modelos modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección evolutiva de las redes neuronales, que agrega un convertidor para codificar los datos de todos los modos (como audio, video, imágenes, etc.) en valores numéricos correspondientes para su representación. Luego, estos datos se introducen en la red neuronal, permitiendo que la red neuronal ajuste cualquier tipo de dato, lo que se traduce en la realización de multimodalidad.
El desarrollo de la IA ha pasado por tres oleadas tecnológicas: La primera ola fue en la década de 1960, diez años después de que se propusiera la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, nacieron los sistemas expertos.
La segunda ola de tecnología de IA ocurrió en 1997, cuando Deep Blue de IBM venció al campeón de ajedrez Garry Kasparov con un marcador de 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres grandes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales para el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos algoritmos moldearon conjuntamente esta tercera ola tecnológica y también marcaron la época dorada del conexionismo.
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Liderados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo y provocando una gran demanda de datos y potencia de cálculo en el mercado. Esta sección explora principalmente la cadena industrial de los algoritmos de aprendizaje profundo, su composición en términos de upstream y downstream, así como el estado actual de estas partes y la relación de oferta y demanda, y su desarrollo futuro.
El entrenamiento de los LLMs (modelos grandes) liderados por GPT basado en la tecnología Transformer se divide en tres pasos:
Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada para encontrar los mejores parámetros de cada neurona en el modelo, este proceso requiere una gran cantidad de datos y es el proceso que más potencia de cálculo consume.
Paso dos, ajuste fino. Proporcionar un conjunto de datos de menor volumen pero de muy alta calidad para entrenar, con el fin de mejorar la calidad de salida del modelo.
El tercer paso, aprendizaje reforzado. Establecer un "modelo de recompensa" para determinar si la salida del gran modelo es de alta calidad, utilizado para iterar automáticamente los parámetros del gran modelo.
En resumen, durante el proceso de entrenamiento de modelos grandes, el preentrenamiento requiere una cantidad muy alta de datos y el poder de cálculo de GPU necesario es también el más alto; el ajuste fino requiere datos de mayor calidad para mejorar los parámetros; el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para producir resultados de mayor calidad.
El rendimiento de los grandes modelos está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres influyen conjuntamente en la calidad de los resultados del gran modelo y su capacidad de generalización. Supongamos que la cantidad de parámetros es p y la cantidad de datos es n (calculada en términos de cantidad de tokens), entonces, a través de una regla empírica, se puede calcular la potencia de cálculo necesaria, lo que permite estimar la situación de la potencia de cálculo que se necesita comprar y el tiempo de entrenamiento.
La capacidad de cómputo generalmente se mide en Flops, que representa una operación de punto flotante. Según la regla general, se necesita aproximadamente 6np Flops para preentrenar un gran modelo. La inferencia (el proceso de esperar que el gran modelo produzca una salida a partir de los datos de entrada) requiere aproximadamente 2np Flops.
El uso temprano de chips CPU para el entrenamiento proporcionó soporte de computación, y luego gradualmente se reemplazó por GPU, como los chips A100 y H100 de Nvidia. Esto se debe a que las GPU pueden funcionar como computación dedicada, siendo mucho más eficientes en términos de consumo energético que las CPU. Las GPU realizan operaciones de punto flotante principalmente a través del módulo Tensor Core. Los datos de Flops del chip bajo la precisión FP16/FP32 representan su capacidad de cálculo principal, siendo uno de los principales indicadores de evaluación del chip.
Supongamos que los parámetros del gran modelo, tomando como ejemplo GPT-3, tienen 175 mil millones de parámetros y un volumen de datos de 180 mil millones de tokens (aproximadamente 570 GB). Entonces, realizar un preentrenamiento requiere 6np de Flops, aproximadamente 3.1510^22 Flops. En unidades de TFLOPS (billones de FLOPs), esto equivale a aproximadamente 3.1510^10 TFLOPS, lo que significa que un chip del modelo SXM necesita alrededor de 584 días para preentrenar GPT-3.
Como se puede ver, la enorme cantidad de cálculo necesaria para el preentrenamiento requiere que múltiples chips de última generación trabajen juntos para lograrlo. La cantidad de parámetros de GPT-4 es diez veces mayor que la de GPT-3, lo que significa que, incluso si la cantidad de datos no cambia, también se deben comprar diez veces más chips. La cantidad de tokens de GPT-4 es de 13 billones, que también es diez veces la de GPT-3, y en última instancia, GPT-4 podría necesitar más de 100 veces la capacidad de cálculo de los chips.
En el entrenamiento de modelos grandes, también hay problemas de almacenamiento de datos. El espacio de memoria de la GPU suele ser pequeño (como el A100 que tiene 80GB), lo que no permite almacenar todos los datos, por lo tanto, es necesario examinar el ancho de banda del chip, es decir, la velocidad de transferencia de datos desde el disco duro a la memoria. Al mismo tiempo, debido al uso de múltiples chips GPU, también se involucra la tasa de transferencia entre GPUs. Por lo tanto, en muchas ocasiones, los factores o costos que limitan la práctica del entrenamiento del modelo no son necesariamente la capacidad de cálculo del chip, sino que muchas veces pueden ser el ancho de banda del chip. Debido a que la transferencia de datos es muy lenta, esto puede llevar a que el tiempo de ejecución del modelo se alargue, lo que aumentará los costos de electricidad.
La cadena de la industria del aprendizaje profundo incluye principalmente las siguientes partes:
Proveedores de hardware GPU
Actualmente, Nvidia ocupa una posición de liderazgo absoluto en el campo de los chips GPU de IA. En el ámbito académico, se utilizan principalmente GPUs de nivel de consumo (serie RTX); en la industria, se utilizan principalmente H100, A100, entre otros, para la implementación comercial de grandes modelos.
En 2023, el chip H100 de Nvidia, el más avanzado, recibió suscripciones de varias empresas tan pronto como fue lanzado. La demanda global del chip H100 supera con creces la oferta, y su ciclo de entrega ha alcanzado las 52 semanas. Dada la situación de monopolio de Nvidia, Google lideró la formación de la Alianza CUDA, junto con Intel, Qualcomm, Microsoft y Amazon, con la esperanza de desarrollar conjuntamente GPUs para liberarse de la influencia de Nvidia.
Para las megaempresas tecnológicas / proveedores de servicios en la nube / laboratorios nacionales, es común que compren miles o incluso decenas de miles de chips H100 para construir centros de HPC (computación de alto rendimiento). Hasta finales de 2023, el número de pedidos de chips H100 superó las 500,000 unidades.
En cuanto al suministro de chips de Nvidia, ya se ha publicado información sobre el H200, se espera que el rendimiento del H200 sea el doble que el del H100, y el B100 se lanzará a finales de 2024 o principios de 2025. Actualmente, el desarrollo de GPU aún cumple con la ley de Moore, duplicando el rendimiento cada 2 años y reduciendo el precio a la mitad.
Proveedor de servicios en la nube
Los proveedores de servicios en la nube, después de adquirir suficientes GPU para construir HPC, pueden ofrecer potencia de cálculo flexible y soluciones de entrenamiento alojadas a empresas de inteligencia artificial con recursos limitados. Actualmente, el mercado se divide principalmente en tres tipos de proveedores de potencia en la nube:
Proveedores de datos de entrenamiento
El entrenamiento de modelos grandes pasa principalmente por tres pasos: preentrenamiento, ajuste fino y aprendizaje por refuerzo. El preentrenamiento requiere grandes cantidades de datos, el ajuste fino necesita datos de alta calidad, por lo tanto, empresas como Google, que tienen motores de búsqueda, y Reddit, que cuenta con datos de conversación de calidad, han recibido una amplia atención en el mercado.
Algunos desarrolladores, para no competir con modelos generales, eligen desarrollar en campos específicos como finanzas, salud, química, etc., lo que requiere datos de dominios específicos. Por lo tanto, existen empresas que proporcionan datos específicos para estos grandes modelos, también conocidas como empresas de etiquetado de datos.
Para las empresas de desarrollo de modelos, los datos en grandes cantidades, los datos de alta calidad y los datos específicos son las tres principales demandas de datos.
La investigación de Microsoft sugiere que, si la calidad de los datos de un modelo de lenguaje pequeño es claramente superior a la de un modelo de lenguaje grande, su rendimiento no necesariamente será inferior. De hecho, GPT no tiene una ventaja clara en creatividad y datos, su éxito se debe principalmente a su apuesta en esta dirección. Sequoia América también considera que GPT no necesariamente mantendrá su ventaja competitiva en el futuro, ya que no hay una muralla defensiva profunda en este aspecto, y las principales limitaciones provienen de la obtención de capacidad de cálculo.
Según las predicciones, de acuerdo con el crecimiento actual del modelo, para 2030 todos los datos de baja y alta calidad se habrán agotado. Por lo tanto, la industria está explorando datos sintéticos generados por inteligencia artificial para producir datos infinitos, dejando como único obstáculo la capacidad de cálculo. Esta dirección aún se encuentra en fase de exploración y merece atención.
Proveedor de bases de datos
Para tareas de inferencia y entrenamiento de datos de IA y aprendizaje profundo, actualmente en la industria se utiliza "base de datos de vectores". La base de datos de vectores está diseñada para almacenar, gestionar e indexar de manera eficiente grandes volúmenes de datos vectoriales de alta dimensión. Puede almacenar datos no estructurados de manera uniforme en forma de "vectores", lo que es adecuado para el almacenamiento y procesamiento de estos vectores.
Los principales actores incluyen Chroma, Zilliz, Pinecone, Weaviate, entre otros. Se espera que a medida que aumente la demanda de datos y surjan modelos y aplicaciones grandes en varios campos de especialización, la demanda de bases de datos vectoriales aumente considerablemente. Debido a las fuertes barreras tecnológicas en este campo, la inversión se inclina más hacia empresas maduras y con clientes.
Dispositivos de borde
Al construir un clúster de HPC (computación de alto rendimiento) con GPU, generalmente se consume una gran cantidad de energía que genera calor, por lo que se necesitan dispositivos de enfriamiento.