El gran modelo puede organizar lo que ha sucedido en China durante cinco mil años, pero no puede responder qué hora es; puede explicar claramente qué es la mecánica cuántica, pero le resulta muy difícil hacer una presentación profesional con texto e imágenes.
¿Por qué los grandes modelos parecen omnipotentes, pero en la práctica siempre se quedan un poco cortos?
La razón es simple, ser inteligente y erudito no significa ser capaz de trabajar.
Inteligente, necesita que un gran modelo sea entrenado y aprenda a través de una gran cantidad de conocimientos, desarrollando un cerebro avanzado que puede responder bien a una pregunta;
Y al mismo tiempo, para satisfacer los dos elementos de ser inteligente y capaz, es necesario dotar a este cerebro inteligente de extremidades flexibles para lograr "pensamiento profundo + entrega profunda".
Por lo tanto, cómo impulsar la evolución de los grandes modelos desde el pensamiento inteligente hacia la realización de "inteligente y capaz" se ha convertido en la clave para determinar si esta ola de grandes modelos es solo un destello pasajero o un cambio histórico.
Baidu dio una muestra.
El 25 de abril, en la conferencia de desarrolladores de IA Create 2025 de Baidu, el fundador de Baidu, Li Yanhong, presentó el primer sistema operativo del mundo en el ámbito del contenido, llamado Cangzhou OS, lanzado en colaboración con Baidu Wenku y Baidu Wangpan.
Al integrar completamente la tecnología subyacente, las capacidades y los datos acumulados por Baidu Library y Netdisk en el pasado, se puede integrar en diferentes escenarios como el agua, en la forma más razonable y la interfaz interactiva más conveniente para los usuarios, para lograr un umbral bajo y una entrega de alta calidad de extremo a extremo.
Apoyándose en el sistema operativo Cangzhou, la visión y las expectativas de Baidu Wenku y Baidu Wangpan sobre la IA son lograr una entrega verdaderamente integral y de extremo a extremo en cualquier momento, en cualquier lugar y en cualquier dispositivo terminal, permitiendo que la IA sea "todo lo que se puede y en todas partes".
01
El barco de los mares OS, permite que la IA avance hacia una evolución a nivel de sistema operativo.
En la industria tecnológica existe un consenso de que cualquier tecnología, desde el laboratorio hasta llegar realmente a los hogares de miles de personas, necesita pasar por un largo proceso de la curva de Gartner.
En esta curva, el crecimiento de la primera fase depende principalmente de las expectativas de entusiasmo del mercado generadas por los avances tecnológicos, pero a medida que los efectos de la implementación de la tecnología no son ideales, el crecimiento de esta fase entrará rápidamente en declive, hasta que las condiciones necesarias para la implementación de la tecnología maduren gradualmente y se materialicen en una infraestructura casi sin barreras, omnipotente y omnipresente, y así llegará la explosión ecológica de la segunda fase.
Uno de los signos del inicio de la segunda etapa de la industria del software es, por lo general, la aparición de un sistema operativo maduro, como Windows para la industria de las computadoras, iOS para la industria de los teléfonos móviles.
¿Cómo se define un sistema operativo maduro? Hace unos 15 años, en la industria tecnológica global, hubo un debate sobre esto: siendo todos capaces de operar con pantalla táctil, teléfonos móviles de gran pantalla, hacer llamadas, tomar fotos, escuchar música y enviar mensajes de texto, ¿por qué Apple o, mejor dicho, los smartphones son dos especies diferentes en comparación con los teléfonos funcionales del pasado?
Una de las razones principales es que iOS heredó la estabilidad a nivel de núcleo y la capacidad de multitarea de MAC OS, y lo convirtió en un ecosistema abierto, donde los desarrolladores pueden integrar libremente estas capacidades subyacentes de Apple para crear sus propias aplicaciones innovadoras. Esto también transformó la definición de un teléfono móvil, de ser un asunto de un par de gigantes como Motorola y Nokia, a convertirse en una vasta industria con la participación de todo el ecosistema, llena de posibilidades infinitas, abriendo así la puerta a más de diez años de Internet móvil.
La tecnología avanzará sin parar, pero las tramas comerciales siempre se repetirán con un ritmo similar. La lógica subyacente validada en los sistemas operativos móviles sigue siendo aplicable en la construcción de sistemas operativos en la era de los grandes modelos.
En resumen, hay tres: capacidad de base completa, programación central flexible y un ecosistema de servicios de aplicación próspero. Esto corresponde exactamente a la arquitectura de tres capas de Cangzhou OS: infraestructura de base, sistema central y servicios de aplicación. La única diferencia es que el puente entre la aplicación y el central, y la base, ha cambiado de API a MCP, que es más estandarizado y de menor umbral.
Entre ellos, el componente principal de MCP Server es Chatfile plus, que se utiliza principalmente para desensamblar y analizar contenido en diferentes modalidades, formas y formatos a través de un marco basado en el conocimiento, así como una serie de componentes del marco de herramientas, como la comprensión multimodo, la recuperación multimodo y la transcodificación y análisis de archivos.
Al mismo tiempo, Baidu Wenku y Wangpan han construido tres grandes bibliotecas: la biblioteca de conocimiento público, la biblioteca de conocimiento privado y la memoria. Esto se refiere específicamente a los datos de conocimiento público acumulados por Baidu Wenku durante muchos años (biblioteca de conocimiento público), los datos de conocimiento autorizados por los usuarios en Wangpan (biblioteca de conocimiento privado) y las instrucciones, hábitos de uso y registros generados históricamente por los usuarios en Wenku o Wangpan (memoria).
Estos datos a menudo se presentan en diferentes modalidades, diferentes formas y diferentes formatos. Entre ellos, la base de conocimientos pública ofrece conocimientos generales, mientras que la base de conocimientos privada y la memoria guardan los datos personalizados del usuario.
En el marco de conocimiento, el sistema operativo Cangzhou OS procesará el contenido multimodal en las "tres grandes bibliotecas" mediante la vectorización y etiquetado, es decir, convertirá datos no estructurados como imágenes, texto, video, audio y documentos en datos vectoriales multidimensionales que la computadora puede entender, que son un conjunto de tokens.
Y en el sistema central, Baidu Wenku y Wangpan han desarrollado "tres bombas", que son herramientas como el editor integrado (correspondiente a la edición de documentos, PPT, etc.), el lector (lectura de documentos y contenido de PPT, etc.) y el reproductor (reproducción de audio y video).
Al mismo tiempo, el sistema operativo Cangzhou también puede a través del "centro de programación", mediante componentes interactivos, modelos de intención y la infraestructura de transporte, combinar la memoria del usuario y los datos de imagen, para comprender la intención del usuario mediante modelos y asignar de manera eficiente los Agentes de programación.
En la capa más alta, hay una serie de Agentes AI. "Cangzhou OS" integra cientos de Agentes AI como bibliotecas, discos en la nube, PPT, libros ilustrados AI, mapas mentales AI, carteles AI, notas AI, escaneo AI, dictado AI, etc. Los modos generativos abarcan varios tipos como imágenes, textos, videos, audios, cubriendo completamente escenarios de aprendizaje, trabajo, vida y entretenimiento, y basándose en las capacidades de edición, modificación y ajuste fino del editor integrado, lo que permite que la calidad de la búsqueda y generación de contenido sea más alta y se ajuste mejor a las necesidades personalizadas de las tareas reales.
02
En el sistema operativo Cangzhou OS,
Crear más Agentes que sean "inteligentes y capaces"
En torno a los servicios de aplicación de más alto nivel, Baidu Wenku y Baidu Wangpan han lanzado cientos de agentes de IA probados por cientos de millones de usuarios, al mismo tiempo que han integrado una gran cantidad de agentes profesionales de terceros para ampliar el ecosistema de aplicaciones.
Como una "plataforma integral de adquisición y creación de contenido AI", los usuarios de pago de Baidu Wenku han superado los 40 millones, y los usuarios activos mensuales de AI alcanzan los 97 millones. Baidu Wangpan también se ha actualizado a "plataforma integral de servicios de contenido", sirviendo a más de 1 mil millones de usuarios, con un espacio total utilizado que supera los 1000 millones de GB, y los usuarios activos mensuales de AI superan los 80 millones. Baidu Wenku y Baidu Wangpan se han convertido en la verdadera "superproducción" de la era de los grandes modelos.
En la conferencia, Baidu Wenku y Baidu Wangpan también presentaron nuevas capacidades desarrolladas sobre "Cangzhou OS": "GenFlow Super Buddy" y "AI Notas".
GenFlow Super Partner es la capacidad de colaboración de múltiples agentes lanzada por la APP de Baidu Wenku. Con el apoyo de "Cangzhou OS", la generación de contenido puede realizar múltiples tareas en paralelo y también puede completar las entregas de tareas basándose en la información en línea más completa y profesional, así como en los hábitos y preferencias del usuario.
Por ejemplo, el usuario quiere hacer una planificación de boda, pero la entrada inicial solo es una simple: Quiero hacer una boda al aire libre en Hainan el cinco de mayo, ayúdame a hacer el plan y la invitación.
La demanda parece simple, solo hay que completar el formulario en blanco siguiendo la plantilla histórica. Pero para lograr la satisfacción del usuario, es necesario conocer sus preferencias estéticas, expectativas de presupuesto y preferencias de proceso. También es necesario saber sobre el clima en Hainan durante el 1 de mayo, la afluencia de personas y la distribución del lugar. Después de esto, se deben combinar estas imágenes y conocimientos utilizando herramientas de PPT para generar un plan completo, y finalmente, basado en el plan y las preferencias estéticas del usuario, generar un cartel completo para la invitación de bodas.
Para completar el contenido anterior, es necesario programar por separado el historial de chat del usuario, el historial de navegación, así como el reconocimiento de intenciones, la búsqueda en toda la red y la herramienta PPT, analizar la intención del usuario, comprender las preferencias del usuario, combinar libremente las herramientas y, finalmente, proporcionar al usuario un plan completo muy específico que incluya el proceso, la fecha, el lugar, el presupuesto, el tema, los detalles de ejecución, el estilo y la organización del personal.
Al mismo tiempo, los planes y los carteles que necesitan los usuarios son complementarios, lo que requiere que toda la información de ambos se mantenga consistente y se produzca en paralelo utilizando el mismo sistema operativo.
Por supuesto, la IA definitivamente no puede generar resultados que satisfagan a todos de una sola vez, lo que requiere que tanto los planes de boda como los carteles tengan capacidad de edición, y lo que respalda esta capacidad es la capacidad del editor integrado de "Cangzhou OS".
No es difícil darse cuenta de que, desde el pensamiento profundo hasta la entrega profunda, GenFlow 超能搭子 es casi el único producto genuino de "colaboración de múltiples agentes" disponible en el mercado. No solo resuelve los problemas comunes de los productos de colaboración de múltiples agentes, como los altos costos, el largo tiempo de generación, la baja eficiencia, la incapacidad para entregar de manera estable y la falta de ajuste en diálogos de múltiples rondas, sino que también está directamente integrado en la combinación de productos maduros y datos privados autorizados por los usuarios, permitiendo que la IA realmente tenga la oportunidad de lograr el objetivo de "todo poderoso y omnipresente".
Las notas de IA de Baidu Wangpan son un gran aliado para innumerables trabajadores de oficina y aquellos que se preparan para exámenes de posgrado y de servicios públicos.
AI Notas es la primera nota multimodal de la industria, que puede incrustar varios videos de estudio para el examen de ingreso y páginas de notas almacenadas por el usuario en Baidu Wangpan en una misma interfaz, logrando una interacción fluida. Además, el contenido del video y las notas están fuertemente interconectados, desde ver videos, generar notas AI, resumir mapas mentales AI hasta la verificación de resultados de aprendizaje mediante preguntas AI, cubriendo completamente todo el ciclo de aprendizaje del usuario.
Por ejemplo, el examen de inglés para el posgrado ha sido un tema candente en el último tiempo, y los usuarios desean realizar una revisión concentrada sobre el inglés del examen de posgrado. Las notas de IA primero buscarán los materiales relevantes almacenados en el disco en la nube del usuario, al mismo tiempo que consultan los puntos de examen proporcionados por la información pública en línea y los organizan. Pero todo el proceso no se detiene ahí; las notas de IA también combinarán las preguntas reales de años anteriores para realizar una verificación final de los puntos de examen generados. Solo los puntos de examen verificados podrán, sobre esta base, continuar generando mapas mentales y predicciones de preguntas, ayudando a los usuarios a acelerar su progreso de aprendizaje.
Y en este proceso, las herramientas utilizadas no son menos que las que se requieren para planificar una boda. Por ejemplo, encontrar puntos de examen y buscar preguntas de examen requiere la capacidad de búsqueda en toda la red, y las preguntas de examen a menudo se presentan en formato PDF o incluso en imágenes, mientras que las interpretaciones de expertos se presentan en forma de video, lo que requiere la capacidad de análisis de contenido multimodal. La generación del mapa mental final y la predicción de preguntas de examen requieren la capacidad de razonamiento de un gran modelo, la capacidad de generación de contenido multimodal, así como la capacidad de mapeo y correlación entre diferentes contenidos, y también se necesita garantizar la absoluta precisión en la generación de contenido.
Detrás de esto está el empoderamiento de "Cangzhou OS".
Por supuesto, Baidu apoya a los desarrolladores para que abracen completamente MCP, por lo que el sistema operativo Cangzhou OS no solo sirve al ecosistema interno de Baidu. Una de las partes más importantes del desarrollo y crecimiento del sistema operativo es la apertura hacia el exterior, estimulando la capacidad de innovación de los desarrolladores.
Por lo tanto, para maximizar el valor del ecosistema y las aplicaciones, Baidu Wenku y Baidu Wangpan, basados en "Cangzhou OS", han utilizado plenamente MCP en la conexión de productos y ecosistemas, construyendo un sistema de tres capas Server-Client-Host de MCP, abriendo las capacidades de Wenku y Wangpan en forma de MCP Server, y facilitando la conexión de más usuarios empresariales, desarrolladores y aplicaciones de agentes inteligentes a través del MCP Client SDK.
Entre ellos, el caso más representativo es el de los teléfonos Samsung. Los teléfonos Samsung están conectando múltiples servidores MCP para la carga, descarga, búsqueda, compartición y comprensión de contenido del servicio de almacenamiento en la nube de Baidu.
Por un lado, los usuarios pueden realizar funciones como la carga de archivos en la nube, la compartición en la nube, el resumen de documentos y las preguntas sobre el contenido directamente a través de la interfaz del asistente de voz en el teléfono, simplemente hablando.
Por otro lado, estos servidores también pueden enriquecer la capacidad de almacenamiento en la nube del sistema de teléfonos Samsung, resolviendo el problema de la dificultad de la propia teléfono para realizar copias de seguridad y compartir archivos grandes o múltiples en lotes.
Por ejemplo, si el usuario en la galería de fotos del móvil invoca al asistente de voz y dice: «Haz una copia de seguridad de las fotos tomadas ayer en Aoshen en Baidu Wangpan y envía la foto de Xiaoming a él». Las fotos relacionadas se subirán a la cuenta de Wangpan autorizada por el usuario y se generará un enlace para compartir. Luego, el asistente del móvil llamará a la libreta de direcciones y enviará este enlace por SMS al teléfono del destinatario; solo tienen que hacer clic en el enlace para que el usuario pueda acceder directamente a Baidu Wangpan para ver o transferir.
Sin duda, verificar si la capacidad subyacente del sistema operativo es confiable no depende de la acumulación de herramientas o de la cantidad de tecnología avanzada. La utilidad, madurez y riqueza del ecosistema de servicios de aplicaciones de nivel superior es el mejor estándar para evaluar la capacidad del sistema operativo.
03
La historia de OS no tiene fin.
En el mercado de capitales, el tipo de empresa más reconocido por los inversores se llama «amigo del tiempo».
El llamado amigo del tiempo es que cuando una empresa hace bien algo, solo necesita seguir haciéndolo, entonces el rendimiento se mantendrá en un crecimiento perpetuo, y los desarrolladores ecológicos también pueden beneficiarse continuamente.
Y el sistema operativo es un típico mercado de máquina perpetua. Mientras exista el mercado de computadoras y teléfonos móviles, la historia de los sistemas operativos de Microsoft, Apple y Google no tendrá fin.
Los grandes modelos son lo mismo. Cuando la "reflexión profunda + entrega profunda + datos públicos y privados + ecosistema MCP" se combinan, en el futuro se convertirá en una IA omnipotente y omnipresente de la nueva era, y entonces, una explosión de nuevas especies similares a Cambrian se generará continuamente.
En este proceso, al mirar hacia abajo, están Baidu Wenku, Baidu Wangpan y otros que abren sus capacidades. Al abrazar activamente el ecosistema, se convierten en creadores de nuevas especies de modelos grandes y en formuladores de nuevas reglas.
Al mirar hacia arriba, hay innumerables nuevos agentes creados y vistos basados en "Cangzhou OS", formando un poderoso y emergente ecosistema de nuevos servicios de aplicación.
Y ahora, todas las historias, apenas han comenzado.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¿Por qué Baidu quiere comenzar desde el "sistema operativo" para crear una IA que sea "todo capaz y omnipresente"?
Autor: bomba de geek
El gran modelo puede organizar lo que ha sucedido en China durante cinco mil años, pero no puede responder qué hora es; puede explicar claramente qué es la mecánica cuántica, pero le resulta muy difícil hacer una presentación profesional con texto e imágenes.
¿Por qué los grandes modelos parecen omnipotentes, pero en la práctica siempre se quedan un poco cortos?
La razón es simple, ser inteligente y erudito no significa ser capaz de trabajar.
Inteligente, necesita que un gran modelo sea entrenado y aprenda a través de una gran cantidad de conocimientos, desarrollando un cerebro avanzado que puede responder bien a una pregunta;
Y al mismo tiempo, para satisfacer los dos elementos de ser inteligente y capaz, es necesario dotar a este cerebro inteligente de extremidades flexibles para lograr "pensamiento profundo + entrega profunda".
Por lo tanto, cómo impulsar la evolución de los grandes modelos desde el pensamiento inteligente hacia la realización de "inteligente y capaz" se ha convertido en la clave para determinar si esta ola de grandes modelos es solo un destello pasajero o un cambio histórico.
Baidu dio una muestra.
El 25 de abril, en la conferencia de desarrolladores de IA Create 2025 de Baidu, el fundador de Baidu, Li Yanhong, presentó el primer sistema operativo del mundo en el ámbito del contenido, llamado Cangzhou OS, lanzado en colaboración con Baidu Wenku y Baidu Wangpan.
Al integrar completamente la tecnología subyacente, las capacidades y los datos acumulados por Baidu Library y Netdisk en el pasado, se puede integrar en diferentes escenarios como el agua, en la forma más razonable y la interfaz interactiva más conveniente para los usuarios, para lograr un umbral bajo y una entrega de alta calidad de extremo a extremo.
Apoyándose en el sistema operativo Cangzhou, la visión y las expectativas de Baidu Wenku y Baidu Wangpan sobre la IA son lograr una entrega verdaderamente integral y de extremo a extremo en cualquier momento, en cualquier lugar y en cualquier dispositivo terminal, permitiendo que la IA sea "todo lo que se puede y en todas partes".
01
El barco de los mares OS, permite que la IA avance hacia una evolución a nivel de sistema operativo.
En la industria tecnológica existe un consenso de que cualquier tecnología, desde el laboratorio hasta llegar realmente a los hogares de miles de personas, necesita pasar por un largo proceso de la curva de Gartner.
En esta curva, el crecimiento de la primera fase depende principalmente de las expectativas de entusiasmo del mercado generadas por los avances tecnológicos, pero a medida que los efectos de la implementación de la tecnología no son ideales, el crecimiento de esta fase entrará rápidamente en declive, hasta que las condiciones necesarias para la implementación de la tecnología maduren gradualmente y se materialicen en una infraestructura casi sin barreras, omnipotente y omnipresente, y así llegará la explosión ecológica de la segunda fase.
Uno de los signos del inicio de la segunda etapa de la industria del software es, por lo general, la aparición de un sistema operativo maduro, como Windows para la industria de las computadoras, iOS para la industria de los teléfonos móviles.
¿Cómo se define un sistema operativo maduro? Hace unos 15 años, en la industria tecnológica global, hubo un debate sobre esto: siendo todos capaces de operar con pantalla táctil, teléfonos móviles de gran pantalla, hacer llamadas, tomar fotos, escuchar música y enviar mensajes de texto, ¿por qué Apple o, mejor dicho, los smartphones son dos especies diferentes en comparación con los teléfonos funcionales del pasado?
Una de las razones principales es que iOS heredó la estabilidad a nivel de núcleo y la capacidad de multitarea de MAC OS, y lo convirtió en un ecosistema abierto, donde los desarrolladores pueden integrar libremente estas capacidades subyacentes de Apple para crear sus propias aplicaciones innovadoras. Esto también transformó la definición de un teléfono móvil, de ser un asunto de un par de gigantes como Motorola y Nokia, a convertirse en una vasta industria con la participación de todo el ecosistema, llena de posibilidades infinitas, abriendo así la puerta a más de diez años de Internet móvil.
La tecnología avanzará sin parar, pero las tramas comerciales siempre se repetirán con un ritmo similar. La lógica subyacente validada en los sistemas operativos móviles sigue siendo aplicable en la construcción de sistemas operativos en la era de los grandes modelos.
En resumen, hay tres: capacidad de base completa, programación central flexible y un ecosistema de servicios de aplicación próspero. Esto corresponde exactamente a la arquitectura de tres capas de Cangzhou OS: infraestructura de base, sistema central y servicios de aplicación. La única diferencia es que el puente entre la aplicación y el central, y la base, ha cambiado de API a MCP, que es más estandarizado y de menor umbral.
Entre ellos, el componente principal de MCP Server es Chatfile plus, que se utiliza principalmente para desensamblar y analizar contenido en diferentes modalidades, formas y formatos a través de un marco basado en el conocimiento, así como una serie de componentes del marco de herramientas, como la comprensión multimodo, la recuperación multimodo y la transcodificación y análisis de archivos.
Al mismo tiempo, Baidu Wenku y Wangpan han construido tres grandes bibliotecas: la biblioteca de conocimiento público, la biblioteca de conocimiento privado y la memoria. Esto se refiere específicamente a los datos de conocimiento público acumulados por Baidu Wenku durante muchos años (biblioteca de conocimiento público), los datos de conocimiento autorizados por los usuarios en Wangpan (biblioteca de conocimiento privado) y las instrucciones, hábitos de uso y registros generados históricamente por los usuarios en Wenku o Wangpan (memoria).
Estos datos a menudo se presentan en diferentes modalidades, diferentes formas y diferentes formatos. Entre ellos, la base de conocimientos pública ofrece conocimientos generales, mientras que la base de conocimientos privada y la memoria guardan los datos personalizados del usuario.
En el marco de conocimiento, el sistema operativo Cangzhou OS procesará el contenido multimodal en las "tres grandes bibliotecas" mediante la vectorización y etiquetado, es decir, convertirá datos no estructurados como imágenes, texto, video, audio y documentos en datos vectoriales multidimensionales que la computadora puede entender, que son un conjunto de tokens.
Y en el sistema central, Baidu Wenku y Wangpan han desarrollado "tres bombas", que son herramientas como el editor integrado (correspondiente a la edición de documentos, PPT, etc.), el lector (lectura de documentos y contenido de PPT, etc.) y el reproductor (reproducción de audio y video).
Al mismo tiempo, el sistema operativo Cangzhou también puede a través del "centro de programación", mediante componentes interactivos, modelos de intención y la infraestructura de transporte, combinar la memoria del usuario y los datos de imagen, para comprender la intención del usuario mediante modelos y asignar de manera eficiente los Agentes de programación.
En la capa más alta, hay una serie de Agentes AI. "Cangzhou OS" integra cientos de Agentes AI como bibliotecas, discos en la nube, PPT, libros ilustrados AI, mapas mentales AI, carteles AI, notas AI, escaneo AI, dictado AI, etc. Los modos generativos abarcan varios tipos como imágenes, textos, videos, audios, cubriendo completamente escenarios de aprendizaje, trabajo, vida y entretenimiento, y basándose en las capacidades de edición, modificación y ajuste fino del editor integrado, lo que permite que la calidad de la búsqueda y generación de contenido sea más alta y se ajuste mejor a las necesidades personalizadas de las tareas reales.
02
En el sistema operativo Cangzhou OS,
Crear más Agentes que sean "inteligentes y capaces"
En torno a los servicios de aplicación de más alto nivel, Baidu Wenku y Baidu Wangpan han lanzado cientos de agentes de IA probados por cientos de millones de usuarios, al mismo tiempo que han integrado una gran cantidad de agentes profesionales de terceros para ampliar el ecosistema de aplicaciones.
Como una "plataforma integral de adquisición y creación de contenido AI", los usuarios de pago de Baidu Wenku han superado los 40 millones, y los usuarios activos mensuales de AI alcanzan los 97 millones. Baidu Wangpan también se ha actualizado a "plataforma integral de servicios de contenido", sirviendo a más de 1 mil millones de usuarios, con un espacio total utilizado que supera los 1000 millones de GB, y los usuarios activos mensuales de AI superan los 80 millones. Baidu Wenku y Baidu Wangpan se han convertido en la verdadera "superproducción" de la era de los grandes modelos.
En la conferencia, Baidu Wenku y Baidu Wangpan también presentaron nuevas capacidades desarrolladas sobre "Cangzhou OS": "GenFlow Super Buddy" y "AI Notas".
GenFlow Super Partner es la capacidad de colaboración de múltiples agentes lanzada por la APP de Baidu Wenku. Con el apoyo de "Cangzhou OS", la generación de contenido puede realizar múltiples tareas en paralelo y también puede completar las entregas de tareas basándose en la información en línea más completa y profesional, así como en los hábitos y preferencias del usuario.
Por ejemplo, el usuario quiere hacer una planificación de boda, pero la entrada inicial solo es una simple: Quiero hacer una boda al aire libre en Hainan el cinco de mayo, ayúdame a hacer el plan y la invitación.
La demanda parece simple, solo hay que completar el formulario en blanco siguiendo la plantilla histórica. Pero para lograr la satisfacción del usuario, es necesario conocer sus preferencias estéticas, expectativas de presupuesto y preferencias de proceso. También es necesario saber sobre el clima en Hainan durante el 1 de mayo, la afluencia de personas y la distribución del lugar. Después de esto, se deben combinar estas imágenes y conocimientos utilizando herramientas de PPT para generar un plan completo, y finalmente, basado en el plan y las preferencias estéticas del usuario, generar un cartel completo para la invitación de bodas.
Para completar el contenido anterior, es necesario programar por separado el historial de chat del usuario, el historial de navegación, así como el reconocimiento de intenciones, la búsqueda en toda la red y la herramienta PPT, analizar la intención del usuario, comprender las preferencias del usuario, combinar libremente las herramientas y, finalmente, proporcionar al usuario un plan completo muy específico que incluya el proceso, la fecha, el lugar, el presupuesto, el tema, los detalles de ejecución, el estilo y la organización del personal.
Al mismo tiempo, los planes y los carteles que necesitan los usuarios son complementarios, lo que requiere que toda la información de ambos se mantenga consistente y se produzca en paralelo utilizando el mismo sistema operativo.
Por supuesto, la IA definitivamente no puede generar resultados que satisfagan a todos de una sola vez, lo que requiere que tanto los planes de boda como los carteles tengan capacidad de edición, y lo que respalda esta capacidad es la capacidad del editor integrado de "Cangzhou OS".
No es difícil darse cuenta de que, desde el pensamiento profundo hasta la entrega profunda, GenFlow 超能搭子 es casi el único producto genuino de "colaboración de múltiples agentes" disponible en el mercado. No solo resuelve los problemas comunes de los productos de colaboración de múltiples agentes, como los altos costos, el largo tiempo de generación, la baja eficiencia, la incapacidad para entregar de manera estable y la falta de ajuste en diálogos de múltiples rondas, sino que también está directamente integrado en la combinación de productos maduros y datos privados autorizados por los usuarios, permitiendo que la IA realmente tenga la oportunidad de lograr el objetivo de "todo poderoso y omnipresente".
Las notas de IA de Baidu Wangpan son un gran aliado para innumerables trabajadores de oficina y aquellos que se preparan para exámenes de posgrado y de servicios públicos.
AI Notas es la primera nota multimodal de la industria, que puede incrustar varios videos de estudio para el examen de ingreso y páginas de notas almacenadas por el usuario en Baidu Wangpan en una misma interfaz, logrando una interacción fluida. Además, el contenido del video y las notas están fuertemente interconectados, desde ver videos, generar notas AI, resumir mapas mentales AI hasta la verificación de resultados de aprendizaje mediante preguntas AI, cubriendo completamente todo el ciclo de aprendizaje del usuario.
Por ejemplo, el examen de inglés para el posgrado ha sido un tema candente en el último tiempo, y los usuarios desean realizar una revisión concentrada sobre el inglés del examen de posgrado. Las notas de IA primero buscarán los materiales relevantes almacenados en el disco en la nube del usuario, al mismo tiempo que consultan los puntos de examen proporcionados por la información pública en línea y los organizan. Pero todo el proceso no se detiene ahí; las notas de IA también combinarán las preguntas reales de años anteriores para realizar una verificación final de los puntos de examen generados. Solo los puntos de examen verificados podrán, sobre esta base, continuar generando mapas mentales y predicciones de preguntas, ayudando a los usuarios a acelerar su progreso de aprendizaje.
Y en este proceso, las herramientas utilizadas no son menos que las que se requieren para planificar una boda. Por ejemplo, encontrar puntos de examen y buscar preguntas de examen requiere la capacidad de búsqueda en toda la red, y las preguntas de examen a menudo se presentan en formato PDF o incluso en imágenes, mientras que las interpretaciones de expertos se presentan en forma de video, lo que requiere la capacidad de análisis de contenido multimodal. La generación del mapa mental final y la predicción de preguntas de examen requieren la capacidad de razonamiento de un gran modelo, la capacidad de generación de contenido multimodal, así como la capacidad de mapeo y correlación entre diferentes contenidos, y también se necesita garantizar la absoluta precisión en la generación de contenido.
Detrás de esto está el empoderamiento de "Cangzhou OS".
Por supuesto, Baidu apoya a los desarrolladores para que abracen completamente MCP, por lo que el sistema operativo Cangzhou OS no solo sirve al ecosistema interno de Baidu. Una de las partes más importantes del desarrollo y crecimiento del sistema operativo es la apertura hacia el exterior, estimulando la capacidad de innovación de los desarrolladores.
Por lo tanto, para maximizar el valor del ecosistema y las aplicaciones, Baidu Wenku y Baidu Wangpan, basados en "Cangzhou OS", han utilizado plenamente MCP en la conexión de productos y ecosistemas, construyendo un sistema de tres capas Server-Client-Host de MCP, abriendo las capacidades de Wenku y Wangpan en forma de MCP Server, y facilitando la conexión de más usuarios empresariales, desarrolladores y aplicaciones de agentes inteligentes a través del MCP Client SDK.
Entre ellos, el caso más representativo es el de los teléfonos Samsung. Los teléfonos Samsung están conectando múltiples servidores MCP para la carga, descarga, búsqueda, compartición y comprensión de contenido del servicio de almacenamiento en la nube de Baidu.
Por un lado, los usuarios pueden realizar funciones como la carga de archivos en la nube, la compartición en la nube, el resumen de documentos y las preguntas sobre el contenido directamente a través de la interfaz del asistente de voz en el teléfono, simplemente hablando.
Por otro lado, estos servidores también pueden enriquecer la capacidad de almacenamiento en la nube del sistema de teléfonos Samsung, resolviendo el problema de la dificultad de la propia teléfono para realizar copias de seguridad y compartir archivos grandes o múltiples en lotes.
Por ejemplo, si el usuario en la galería de fotos del móvil invoca al asistente de voz y dice: «Haz una copia de seguridad de las fotos tomadas ayer en Aoshen en Baidu Wangpan y envía la foto de Xiaoming a él». Las fotos relacionadas se subirán a la cuenta de Wangpan autorizada por el usuario y se generará un enlace para compartir. Luego, el asistente del móvil llamará a la libreta de direcciones y enviará este enlace por SMS al teléfono del destinatario; solo tienen que hacer clic en el enlace para que el usuario pueda acceder directamente a Baidu Wangpan para ver o transferir.
Sin duda, verificar si la capacidad subyacente del sistema operativo es confiable no depende de la acumulación de herramientas o de la cantidad de tecnología avanzada. La utilidad, madurez y riqueza del ecosistema de servicios de aplicaciones de nivel superior es el mejor estándar para evaluar la capacidad del sistema operativo.
03
La historia de OS no tiene fin.
En el mercado de capitales, el tipo de empresa más reconocido por los inversores se llama «amigo del tiempo».
El llamado amigo del tiempo es que cuando una empresa hace bien algo, solo necesita seguir haciéndolo, entonces el rendimiento se mantendrá en un crecimiento perpetuo, y los desarrolladores ecológicos también pueden beneficiarse continuamente.
Y el sistema operativo es un típico mercado de máquina perpetua. Mientras exista el mercado de computadoras y teléfonos móviles, la historia de los sistemas operativos de Microsoft, Apple y Google no tendrá fin.
Los grandes modelos son lo mismo. Cuando la "reflexión profunda + entrega profunda + datos públicos y privados + ecosistema MCP" se combinan, en el futuro se convertirá en una IA omnipotente y omnipresente de la nueva era, y entonces, una explosión de nuevas especies similares a Cambrian se generará continuamente.
En este proceso, al mirar hacia abajo, están Baidu Wenku, Baidu Wangpan y otros que abren sus capacidades. Al abrazar activamente el ecosistema, se convierten en creadores de nuevas especies de modelos grandes y en formuladores de nuevas reglas.
Al mirar hacia arriba, hay innumerables nuevos agentes creados y vistos basados en "Cangzhou OS", formando un poderoso y emergente ecosistema de nuevos servicios de aplicación.
Y ahora, todas las historias, apenas han comenzado.