Intel Core Ultra «Meteor Lake»: microarquitectura

[ad_1]

Intel no solo ha cambiado la marca de sus procesadores para el escritorio, pasando ahora a ser Core Ultra, sino que también ha hecho cambios profundos en la microarquitectura Meteor Lake y en los procesos de fabricación. Por tanto, la nueva generación de chips de la firma estadounidense será un gran salto adelante. ¿Suficiente para combatir contra AMD? Lo veremos… pero lo cierto es que ha dado un paso para que sus procesadores sean más parecidos a la última generación de Ryzen, con chiplets, acelerador de IA, etc.

Intel Core Ultra «Meteor Lake»: nuevo diseño tile-based

Antes de comenzar a describir la microarquitectura y otros detalles profundos, primero hay que ver de qué se compone este procesador, el Intel Core Ultra «Meteor Lake», ya que es muy diferente a los chips monolíticos a los que Intel nos tenía acostumbrados anteriormente.

Debes saber al respecto, que no se compone de un solo troquel o die, sino que tiene varios. Intel llama a cada uno de ellos «tile», y todos ellos están interconectados mediante un 3D packaging denominado Intel Foveros 3D. Cada uno de estos tiles está fabricado con un nodo o proceso diferente, aunque principalmente destaca el Intel 4 de 4nm:

Chiplet Nodo de fabricación
CPU Tile Intel 4
3D Foveros Base Die (interposer) Intel 22FFL (Intel 16)
GPU Tile (tGPU) TSMC N5 (5nm)
SoC Tile TSMC N6 (6nm)
IOE Tile TSMC N6 (6nm)

Como vemos, se han fabricado en dos foundries diferentes, por un lado tenemos la CPU y el interposer (sustrato que sirve para interconectar todos los tiles que se posan sobre él mediante Foveros 3D) que se han fabricado en las fabs de Intel, con distintos nodos, y por otro lado tenemos otros tiles fabricados en TSMC. Y más adelante explicaré qué es cada uno de estos tiles…

Como bien sabrás, el empaquetado 3D Foveros 3D y EMIB de Intel, no se realiza en una sola fab, sino que se divide en varias. Por ejemplo, los chips Intel 4 se fabrican en fabs de Intel en Estados Unidos, siendo éstas las denominadas como «blue», luego hay otros centros como los «green» donde se realizan los empaquetados avanzados, y el ensamblaje final y los test que se realizan en las «orange», siendo éstas últimas las fabs de Malasia.

Intel 4: novedades

Intel 4 es el nodo o proceso que sustituye al Intel 7 que se ha estado empleando para generaciones anteriores, y que venía arrastrando problemas importantes. Como he dicho, se trata de reducir el tamaño de los componentes integrados para poder mejorar el rendimiento de los chips creados en el wafer.

Es el primer nodo producido por la compañía con EUV (Extreme Ultra Violet), una litografía que permite una duplicación de la escala de transistores de alto rendimiento con respecto al nodo anterior y un aumento del 20% en las velocidades de reloj con el mismo umbral de potencia. Es decir, permitirá a los chips fabricados con este nodo una mejora en la curva V/f.

Intel 4 también utiliza un 20% menos de máscaras y requiere un 5% menos de pasos de procesamiento debido a la adición de la litografía EUV, gracias a algunas colaboraciones con otras compañías que han evitado algunas dobles exposiciones durante el proceso de fabricación. Y al tener que usar menos máscaras también implicará un menor coste de producción. Ten en cuenta que cada una de las 20-30 máscaras empleadas para fabricar un chip microprocesador pueden costar más de 80.000€ cada una, además de tener que realizar más pasos en la foundry…

3D Packaging: el chiplet tridimensional de Intel

Los nuevos avances de empaquetado 3D que están desarrollando foundries como Intel, Samsung, y TMSC, están permitiendo realizar empaquetados avanzados y mejores interconexiones entre los chiplets a diferencia de los anteriores MCM. Por eso, los chips más avanzados, como las CPUs y las GPUs, se están beneficiando de estos nuevos formatos.

Tal es así que se han convertido en tan importantes como la tecnología de fabricación empleada para los chips, permitiendo incluso mezclar varios chips fabricados con diferentes nodos y para diferentes aplicaciones, aumentando el rendimiento, la eficiencia energética y reduciendo el coste al no necesitar empaquetados diferentes. Y todo montado sobre un PCB convencional, y con procesos que no implican cambios sustanciales a nivel de fabricación, aunque sí que necesitan algunos pasos adicionales y nuevas herramientas EDA para el diseño.

Intel fabrica el interposer Foveros con su proceso 22FFL de bajo coste y bajo consumo de energía. Un nodo que puede parecer anticuado, pero que para las interconexiones mediante este tipo de empaquetado es más que suficiente para proporcionar un sustrado de conexión entre los distintos tiles.

Es decir, Intel coloca los cuatro tiles de Meteor Lake en la parte superior de un interposer, que básicamente es un tile pasivo Foveros 3D, y luego fusiona los tiles e interposer con conexiones de microbump que permiten comunicaciones de alta velocidad y una entrega eficiente de energía entre los tiles activos. El interposer pasivo no tiene lógica, por lo que no realiza ningún tipo de procesamiento y sirve principalmente como un path para datos y señales de alta velocidad para la comunicación entre tiles, llevando tanto la señales de reloj, como la alimentación y también el transporte de bits.

Sin embargo, el interposer de Intel tiene condensadores MIM incrustados (500nf/mm2) que ayudan a garantizar una entrega constante de energía a los tiles durante períodos de carga pesada. No obstante, estos elementos son discretos, fabricados con la misma tecnología 22FFL en el sustrato de silicio.

Por otro lado, se sabe que Foveros empleará bumps o bolas de contacto de 36 micrones (una medida crítica cuando se trata de la densidad de interconexión). Esto representa una gran mejora respecto a las bumps de 55 micrones empleadas en Lakefield, los primeros en usar Foveros. No obstante, por ahora, Foveros permite hasta 770 microbumps por milímetro cuadrado, pero mejorará drásticamente en el futuro, cuando lleguen nuevas generaciones con tamaños de 25 y 18 micrones, aunque esto se espera para nodos más allá del Intel 4 actual. Teóricamente podría incluso usar Hybrid Bonding Interconnection (HBI) para llegar a pasos de bump de 1 micrón.

En cuanto al consumo que ofrece Foveros de Intel, aquí tenemos una tabla comparativa, donde se puede apreciar que el consumo es minúsculo:

Comparativa de interconexión Consumo en Picojulios por Bit transferido (pJ/b)
NVIDIA NVLink-C2C 1.3 pJ/b
UCIe (AMD, Arm, ASE Group, Google Cloud, Intel, Meta, Microsoft, Qualcomm, Samsung, TSMC, NVIDIA y Alibaba) 0.5 – 0.25 pJ/b
AMD Infinity Fabric ~1.5 pJ/b
TSMC CoWoS 0.56 pJ/b
Intel Foveros 3D >0.3 pJ/b
Intel EMIB 0.3 pJ/b
Bunch of Wires (BoW) [grupo OCP ODSA] 0.7 to 0.5 pJ/b
On-die (chip monolítico) 0.1 pJ/b

Por tanto, sin tener en cuenta las interconexiones dentro de un chip monolítico, que estarían en 1.1 pJ/b, Foveros proporciona las siguientes mejores, con menos de 0.3 picojulios por bit (pJ/b).

Por otro lado, las conexiones de alta densidad del interposer también permiten que Intel divida sus tiles sin preocuparse por los problemas de costes de tener un IO externo, como es el caso de AMD. Intel diseñó el dado de Foveros para que sea lo más económico posible y aún cumpla con los objetivos eléctricos y de rendimiento requeridos para el Intel Core Ultra.

Según Intel, este interposer para el Meteor Lake permitiría hasta 160GB/s por mm, por lo que el ancho de banda, y puede trabajar con velocidades de varios Ghz, lo que supondrá un rendimiento bastante destacado. Esto es importante para que no produzca cuellos de botella significativos de ancho de banda y latencia, lo cual implicaría una pérdida de rendimiento notable, y teniendo en cuenta la microarquitectura del MTL, esto podría suponer un serio problema para poder competir contra AMD.

Por otro lado, hay qu edestacar que también tiene otros beneficios adicionales, como permitir el uso de chiplets más pequeños que pueden aumentar el número de chips por oblea (mejor yield del wafer), pudiendo crear chips en hasta un 10% más de unidades por oblea, lo que reduce los costes generales. En última instancia, la tecnología de empaquetado avanzado se utiliza para imitar las características clave de rendimiento y consumo de energía de un chip monolítico, pero con una arquitectura basada en chiplets. Por tanto, tiene lo mejor de ambos mundos, siendo la opción de futuro.

CPU Tile: Microarquitectura Meteor Lake en profundidad

La arquitectura Meteor Lake (MTL) es la 14ª Generación, y está compuesta, como sus antecesor, de multinúcleos híbridos, como los P-Core (Performance) de alto rendimiento, y los E-Core (Efficient) de bajo consumo. De esta manera sigue la tendencia del mundo ARM. Pero veamos qué esconden estos dos núcleos.

  • P-Core: se basan en la microarquitectura Redwood Cove, consiguiendo un mayor rendimiento, aunque también consuman algo más. Estos núcleos se activarán cuando se necesite el máximo rendimiento, es decir, para cargas más pesadas, y más sensibles a la latencia
  • E-Core: basados en la microarquitectura Crestmont, y pensados para ofrecer un rendimiento inferior, pero con mayor eficiencia energética, para las cargas de trabajo más livianas, como puedan ser algunas en segundo plano, etc.

Todos estos núcleos de CPU van en el mismo tile, es decir, en el mismo chip. Éste se fabrica con un proceso Intel 4, que permite ofrecer mayor frecuencia de reloj y un menor consumo respecto a Intel 7. A demás, los dos núcleos emplean la ISA Intel EM64T (x86-64), así como otras extensiones conocidas.

P-Core

El mosaico de cómputo, como he mencionado anteriormente, alberga núcleos P Redwood Cove y núcleos E Crestmont, los primeros SIN mejoras en el IPC respecto a la generación anterior. Y es que, según Intel, este diseño se trata de algo similar a un paso «tick», esperando las mejoras en la microarquitectura para el paso «tock» que llegará más adelante. Por tanto, Redwood Cove es básicamente igual a la microarquitectura Golden Cove y Raptor Cove usados en los núcleos P del Alder Lake (12ª Gen) y Raptor Lake (12ªGen). Y, aunque Intel no ha dado detalles, es de esperar que tengamos núcleos con un diagrama como el siguiente:

Intel Core Ultra
Diagrama del P-Core

Es decir, Intel aprovecha este salto «tick» para aprovechar las ganancias que aporta el nodo Intel 4, que trae un buen impulso en la curva V/f (Voltaje/Frecuencia) con respecto al Intel 7, permitiendo que el procesador trabaje a mayores frecuencias con menor voltaje, y por tanto menor consumo energético. De hecho, se estima que la mejora de eficiencia es del 20%, lo cual es impresionante. A pesar de eso, no esperes tecnología nueva en los núcleos, como he dicho…

Intel realizó algunas mejoras en la infraestructura para acomodar el nuevo diseño con tiles en el mosaico, como mejorar el ancho de banda de memoria y caché tanto a nivel de núcleo como de paquete, lo que podría resultar en una pequeña mejora en las cargas de trabajo con múltiples subprocesos. También agregó datos de telemetría mejorados para su unidad de gestión de energía, lo que ayuda a mejorar la eficiencia energética y generar datos en tiempo real que se envían al Thread Director, asegurando así que las cargas de trabajo correctas se coloquen en los núcleos adecuados en el momento adecuado. Algo en lo que hubo problemas en los primeros chips con núcleos heterogéneos, como sabrás.

E-Core

La microarquitectura Crestmont E-Core de Intel sí que es un paso adelante con modificaciones frente a Gracemont de generación anterior. De hecho, tiene una mejora del 3% en IPC. Sin embargo, gran parte de este salto de rendimiento proviene de la implementación del soporte para las instrucciones Vector Neural Network Instructions (VNNI) que mejoran el rendimiento en cargas de trabajo de IA. Intel también realizó mejoras no especificadas en el motor de predicción de ramas del Front-End de esta microarquitectura, pero se espera algo similar a esto:

E-core
Diagrama del E-Core

Crestmont permite organizar los núcleos E en clusters de dos o cuatro núcleos que comparten una memoria caché L2 de 4MB y una memoria caché L3 de 3MB. Gracemont de la generación anterior no tenía esa capacidad, por lo que Intel solo podía usar núcleos E en grupos de cuatro núcleos, lo cual implicaba tener menor flexibilidad.

Como en generaciones anteriores, cada E-Core Crestmont es de un solo hilo, es decir, un núcleo físico y un núcleo lógico, sin HyperThreading. Pero tenemos algunas ventajas guardadas bajo la manga, como la memoria caché L1, que se ha duplicado, con un total de 64KB por núcleo. También hay otros cambios en el Front-End, como el nuevo motor de decodificación de 6-way (al duplicar las vías, se mejora la latencia y el consumo de energía), asignación de 5-way y retirada de 8-way.

Por otro lado, como era de esperar, los Crestmont no admiten AMX ni AVX-512, pero sí admiten AVX, AVX-IFMA, AVX-DOT-PROD-INT8, FP16 y BF16. Como tal, el chip tiene soporte simétrico de ISA, lo que significa que ambos tipos de núcleos, P y E, comparten la misma ISA, algo que no ha sido así en modelos anteriores, donde había diferencias en las instrucciones que podían ejecutar uno y otro tipo de núcleo. Eso hacía algo más complicado la gestión de las tareas, ya que unas cargas solo podían ser ejecutadas en los núcleos P-Core.

Thread Director: el planificador

El Thread Director de Intel proporciona datos de telemetría al scheduler (planificador) del sistema operativo para ayudarlo a dirigir mejor los hilos o threads hacia el núcleo correcto. Aunque hemos visto que en principio los núcleos P y E tienen la misma ISA, pero no todas las cargas de trabajo son adecuadas para uno u otro.

No es una tecnología nueva, ya la vimos imlementada en el Alder Lake, ya que Windows tuvo serios problemas con la gestión de los núcleos híbridos, y la compañía tuvo que actuar. No obstante, este Thread Director es nuevo, optimizado para la arquitectura de empaquetado 3D que presenta este procesador Intel Core Ultra.

De esta forma, el sistema operativo tendrá más conocimiento sobre los diferentes núcleos, ayudando así al planificador a tomar decisiones para asignar las cargas de trabajo al núcleo correcto.

GPU Tile: los gráficos Intel Xe-LP

Otro de los tiles que componen este mosaico es el de la GPU. En este caso, como he comentado al principio, no está fabricado por Intel, sino que se lo ha dejado en manos de TSMC, con un nodo de 5nm y basado en la arquitectura Xe-LPG, que ahora incorpora muchas características de las Xe-HPG que se encuentran en las tarjetas gráficas dedicadas, solo que optimizada para bajo consumo.

Según Intel, gracias a esta nueva arquitectura y nodo, la GPU duplica el rendimiento y mejora la rendimiento/vatio con respecto a la generación anterior. También hubo ajustes para optimizar la curva V/f, pudiendo trabajar a voltajes más bajos y mayores frecuencias de reloj.Además, esta iGPU contará también con características muy esperadas por los gamers, como el Ray Tracing, mesh shading, variable rate shading, y sampler feedback, así como la capacidad de acelerar tareas de IA mediante DP4A.

Intel también separó los bloques Xe Media Engine y Display del motor principal en la matriz de GPU y lo ha trasladado al tile SoC, lo que ayuda en el consumo de energía en muchos escenarios. También se trasladó allí un núcleo E, como más adelante explicaré…

El diagrama de bloques de Xe-LPG muestra la configuración máxima, que vendrá con ocho núcleos Xe, 128 motores vectoriales (anteriormente llamados Execution Units), dos pipelines de geometría, ocho muestreadores, cuatro motores de píxeles y ocho unidades de trazado de rayos. Estos se dividirán entre las dos unidades de renderizado, el bloque de construcción principal de las GPUs Intel Arc.

La GPU compartira la memoria del sistema con la CPU, por lo que usarán la misma memoria DDR5 del sistema. Y, aunque Intel no ha dado detalles del tamaño de la memoria caché L2 de esta GPU (la L1 parece ser la misma) y de la frecuencia, podría funcionar a unos 2 Ghz, aunque la frecuencia podría ser inferior o superior, ya que no es una cifra oficial, solo una estimación.

La GPU Xe-LPG es similar a una Intel Arc A380 integrada, pero no incluye las unidades XMX (Extensiones de Matriz Xe), desplazadas para reducir el tamaño y el consumo de energía, como he comentado anteriormente. Pero sí que se duplicó el rendimiento de las operaciones INT8 en comparación con Iris Xe, y cada Vector Engine tiene una tasa de 64 operaciones INT8 por ciclo. Dependiendo de las velocidades de reloj, esto proporciona un rendimiento de cálculo significativo.

Además, esta GPU ha redistribuido componentes gráficos, con el Display, Media Engine que ahora están en el SoC tile, como dije, y las salidas físicas de la pantalla están ahora en el IO Tile, para mejorar la eficiencia.

Y, por supuesto, también hay mejoras en las nuevas versiones de los drivers gráficos que llegarán, con optimizaciones y mejoras para el gaming.

SoC Tile: un nuevo componente en los Intel Core Ultra

SoC tile (System-on-Chip) del Intel Core Ultra «Meteor Lake» es un nuevo elemento que debes conocer. Este chip se fabrica con nodo TSMC N6, y sirve como un punto central de comunicación para otros tiles, y donde se integra dos núcleos E-core que conforman el grupo de cómputo de bajo consumo, una NPU (Neural Processing Unit) para acelerar cargas de trabajo de IA, como la AMD Ryzen AI, y otras partes importantes.

Intel trasladó todos los bloques desplazados que cité anteriormente de la GPU a este tile SoC, lo que ayuda a maximizar la eficiencia energética al permitir que esas funciones operen en el SoC mientras la GPU está en un estado de consumo de energía más bajo. Además, también alberga las interfaces de pantalla, como HDMI 2.1, DisplayPort 2.1 y DSC 1.2a, además de un motor de codificación/decodificación AV1 y HDR 8K.

El SoC se monta junto a la GPU, y ambos se comunican a través de una interfaz tile-tile. Cada lado de la interfaz de interconexión tiene una interfaz principal de banda ancha que proporciona el ancho de banda necesario para transmitir datos entre los chips. Todo ello posible gracias a Foveros 3D, lo que proporciona un path mucho más eficiente en comparación con un PCB convencional.

Por otro lado, la GPU se conecta mediante un NOC (Network on Chip) aislada de alto rendimiento que conecta con la NPU, los núcleos E y los motores de medios y visualización, obteniendo así el ancho de banda y eficiencia necesaria para acceder a la memoria principal. Por supuesto, este tile también irá conectado al CPU tile a través de una interfaz tile-tile para tener comunicación.

Por otro lado, Intel también ha dotado el SoC tile de una segunda red que conecta con el IO tile también mediante interfaz tile-tile, además de conectar otros dispositivos de menor prioridad, como pueden ser el adaptador o controlador de WiFi 6E y Bluetooth, los Security Engine para el cifrado, Ethernet, PCIe, SATA, controlador de memroria DDR5, etc.

Para estas redes de conexión de las que hablamos, Intel permite almacenar el tráfico entre las dos redes mediante una caché dedicada, aumentando la latencia entre comunicaciones de dos redes, pero obteniendo otros beneficios, como el ancho de banda aportado y la resolución de problemas de contención.

E-Core Island

Como ya he dicho, el SoC de Intel viene con dos E-cores de bajo consumo que utilizan la misma microarquitectura Crestmont que describimos en la sección de la CPU. Gracias a ellos se pueden ejecutar cargas de trabajo livianas, permitiendo que todo el CPU tile se ponga en estado de bajo consumo, ahorrando energía cuando no se necesitan los cuatro núcleos E-core del CPU tile, permitiendo a éstos últimos «dormir».

Aunque Intel no ha dado detalles de estos núcleos, parece que trabajan a una frecuencia inferior a los de la CPU, probablemente porque usan el nodo TSMC N6. Además, el Thread Director priorizará el uso de estos dos núcleos E de bajo consumo para cargas de trabajo de un hilo. Si un proceso se comienza a ejecutar en estos núcleos y el planificador del sistema operativo detecta que necesita más rendimiento, portará el proceso a núcleos de mayor rendimiento. En mi opinión, esto implica un incremento en la latencia al realizar el cambio de contexto, lo que llevará varios ciclos de reloj de penalización, pero sí que puede reducir mucho el consumo en muchos casos.

En definitiva, parece que Intel, con el nuevo Intel Core Ultra «Meteor Lake», ha querido hacer algo similar a los núcleos intermedios que vemos en algunos SoCs ARM. Por tanto, tendríamos los P-Core (mayor consumo y rendimiento), los intermedios E-Core del CPU tile (bajo consumo y rendimiento medio) y los núcleos E-Core del SoC tile (de muy bajo consumo e inferior rendimiento). ¿Funcionará? Veremos…

NPU: aceleración para IA

Intel ha querido competir contra la sorpresa de Ryzen AI de los Zen 4 y ha lanzado un nuevo procesador en el que se incluye una NPU (Neural Processing Unit), es decir, un motor de inteligencia artificial dedicado para acelerar las cargas de trabajo de IA, y diseñado especialmente para que el Intel Core Ultra pueda competir contra la competencia en este sentido, ya que Intel se había quedado atrás respecto al mundo ARM, siendo Zen 4 el primero en incluir este motor en el mundo x86.

No obstante, hay que decir que NPU ayudará en el trabajo de la IA, pero Meteor Lake también incluye una CPU, GPU y un motor GNA que pueden ejecutar otras diversas cargas de trabajo de IA, es decir, será un complemento, no un sustituto. De hecho, la NPU es principalmente para tareas en segundo plano, mientras que la GPU se encarga de trabajos paralelos más intensivos como los requeridos en algunos procesos gráficos, y mientras tanto, la CPU aborda la inferencia ligera de baja latencia. Evidentemente, para tareas como los modelos de entrenamiento para lenguajes como ChatGPT y similares requieren mucha mayor potencia, usando GPUs dedicadas de alto rendimiento, pero sí que será positivo para otras cargas más livianas usadas en apps de procesamiento de audio, vídeo, imagen, etc.

Algunas cargas de trabajo de IA también pueden ejecutarse tanto en la NPU como en la GPU simultáneamente. La compañía ha implementado mecanismos que permitan esto y que puedan ser aprovechados por los desarrolladores de hardware, jugando así con dos unidades de cómputo para conseguir los mejores resultados y con la mejor eficiencia energética.

La arquitectura de la NPU contiene una mezcla de aceleradores de funciones fijas para las pipelines de inferencia y DSP SHAVE programables:

  • Interfaz de host y gestión de dispositivos: el área de gestión de dispositivos admite el nuevo modelo de controlador de Microsoft llamado Microsoft compute driver model (MCDM). Esto permite que la NPU de Meteor Lake admita MCDM de manera óptima con un enfoque en la seguridad, mientras que la Unidad de Gestión de Memoria (MMU) proporciona un aislamiento de múltiples contextos y admite la programación de energía y carga de trabajo para transiciones de estado rápidas de bajo consumo de energía.
  • Arquitectura multi-motor: la NPU consta de una arquitectura multi-motor con dos motores de cómputo neuronal que trabajan juntos en una sola carga de trabajo o trabajan de forma independiente en sus propias cargas de trabajo.

Ahora bien, el motor de cómputo neuronal es más sofisticado en sí mismo, con otros componentes principales que hay qu edestacar:

  • Pipeline de inferencia: esta es la unidad central de cálculo eficiente que ahorra energía en una ejecución de red neuronal al minimizar el movimiento de datos y tener operaciones de funciones fijas para tareas comunes y de alto cómputo. La mayoría de la computación ocurre en la tubería de inferencia, que es una tubería de hardware de funciones fijas que admite operaciones estándar de redes neuronales. La tubería consta de una matriz de multiplicación acumulativa (MAC), un bloque de función de activación y un bloque de conversión de datos.
  • DSP SHAVE: se trata de un DSP VLIW (Digital Signal Processor con arquitectura Very Long Instruction Word) altamente optimizado diseñado específicamente para la IA. El Motor Vector de Arquitectura Híbrida en Streaming (SHAVE) puede ser pipelined con la tubería de inferencia y el motor de acceso directo a la memoria (DMA) para lograr un cómputo heterogéneo real que se realiza en paralelo en la NPU para maximizar el rendimiento.

A su vez, aquí vemos también que tenemos el motor DMA para ejecutar de manera óptima el movimiento de datos para lograr la máxima eficiencia y rendimiento en cada caso.

Hay que decir que los chips de Intel actualmente utilizan un bloque acelerador neural gaussiano (GNA) para inferencia de IA de bajo consumo para funciones de procesamiento de audio y video, y la unidad GNA permanecerá en Meteor Lake, como en generaciones anteriores. Por tanto, estamos hablando de un paso intermedio, ejecutando las cargas de IA entre la CPU y la NPU, aunque lo más lógico es que en un futuro aumenten el rendimiento de la NPU y muevan todas las cargas de IA a ésta unidad, dejando libre la CPU para otras tareas.

La NPU de Intel admite DirectML, ONNX y OpenVINO. Sin embargo, ONNX y OpenVINO requerirán un trabajo de desarrollo más enfocado por parte de los desarrolladores de software para extraer el máximo rendimiento. Por ahora, la mejor opción para exprimer el rendimiento de la NPU es la API DirectML.

Para finalizar, el ecosistema de software de IA para PC es cada vez más importante, aunque aún es algo escaso. Pero se espera que vaya creciendo en los futuros años, y por eso los chips se tienen que ir adaptando ya a estas exigencias, incluyendo sus propios motores de aceleración de IA dedicados. Ya lo estamos viendo en apps de webcam que usan IA para mejorar la imagen, en otras herramientas de creación de imagen, sonido o vídeo, etc.

IO Tile: el elemento de Input/Output (Entrada/Salida)

Intel denomina a su nueva tecnología de mosaico con tiles como «uncore», aunque no sea exáctamente un chip monolítico, sino varios chips conectados mediante un interposer. Otra pieza clave de este «uncore» es el tile IO, o de entrada y salida, que como su propio nombre indica, se emplea para conexiones adicionales como los carriles PCIe 5.0, la interfaz Thunderbolt 4, etc. No obstante, esto cambiará según las necesidades de cada producto, ya que no todos necesitarán la misma cantidad de carriles…

Conclusión: la competencia no descansa

Intel Core Ultra «Meteor Lake» tendrá que competir, no con los procesadores actuales, sino con los nuevos lanzamientos de la competencia, como los AMD Ryzen 8000 Series, que estarán basados en la nueva microarquitectura Zen 5. Y se espera que sea grandiosa, un gran paso adelante. Así que, cuidado, puesto que Intel solo ha hecho un «tick» con el nodo de procesamiento, sin cambiar su microarquitectura para ganar IPC en los P-Cores, aunque llegarán con mayor frecuencia de reloj. No obstante, casi todo lo mostrado por Intel, en su mayoría, está pensado para el bajo consumo… ¿Podrá esto competir con el rendimiento de los nuevos Ryzen? Habrá que esperar a las primeras benchmarks de ambos para comparar, pero la batalla está servida.

Para refrescar un poco el conocimiento sobre la competencia, hay que recordar que Zen 5, la próxima arquitectura de AMD para sus futuros procesadores, se espera que se lance en 2024 y promete un significativo aumento de rendimiento en comparación con la generación actual. Si hiciesen su debut en el CES 2024, que se espera para enero, eso sería solo un mes más tarde que el lanzamiento de los Intel Core Ultra Meteor Lake, lo que los dejaría en muy buena posición para competir. No obstante, si AMD se retrasa, podría tener ventajas Intel al vender a los usuarios ansiosos de actualizar su arquitectura y que no quieren esperar a AMD Ryzen 8000.

Los datos recientes filtrados que sugerían que Zen 5 podría lograr un incremento del 20% en el IPC en comparación con Zen 4 parece que se han quedado cortos en algunos casos, lo cual será un salto brutal de rendimiento en los Ryzen de próxima generación, dejando a Intel atrás, al no haber cambiado la microarquitectura de los P-Core. De hecho, los datos del benchmark Cinebench R23 multicore muestran los siguientes resultados:

  • Ryzen 9 8950X (16 núcleos, 32 hilos): 49.000 puntos.
  • Ryzen 9 8900X (12 núcleos, 24 hilos): 36.000 puntos.
  • Ryzen 7 8700X (8 núcleos, 16 hilos): 23.000 puntos.
  • Ryzen 5 8600X (6 núcleos, 12 hilos): 17.000 puntos.

El Ryzen 9 8950X muestra una mejora del 30,58% sobre el Ryzen 9 7950X, mientras que el Ryzen 9 8900X tiene un aumento del 32,40% en comparación con el Ryzen 9 7900X. Además, el Ryzen 7 8700X supera al Ryzen 7 7700X en un 17,14%, y el Ryzen 5 8600X supera al Ryzen 5 7600X en un 14,78%. Por tanto, tenemos un rendimiento endiablado, y probablemente estas pruebas sean de una versión temprana, y tal vez pueda haber algunas optimizaciones que llegarán junto al debut de Zen 5. Es decir, que si me quisiera comprar un procesador, personalmente esperaría a ver la comparación Zen 5 vs Meteror Lake…

Estas diferencias de rendimiento son más notables en los modelos más potentes debido a que cada núcleo Zen 5 es más potente que su equivalente Zen 4, y esto se acumula con más núcleos e hilos. Sin embargo, es importante tener en cuenta que estas puntuaciones se han redondeado y se basan en engineering samples, como he mencionado, por lo que los resultados finales pueden variar en las unidades comerciales.

Y no olvides que es muy probable que también lleguen los AMD Ryzen 8000X3D, es decir, la versión con más memoria caché L3 gracias al empaquetado 3D que permite incluir la 3D V-Cache para mejorar el rendimiento en cargas de trabajo como los videojuegos.

Además, se espera que el rendimiento single-core en Cinebench R23 de los procesadores basados en Zen 5 supere los 2.500 puntos, lo que los coloca muy por encima de los procesadores Intel Core i9-13900K y posiblemente incluso los futuros Core i9-14900K. Y todo con un TDP entre 65W y 170W en las configuraciones más poderosas, según parece.

Los próximos procesadores Ryzen 8000 se fabricarán en el nodo de 3 nm de TSMC, lo que promete una notable mejora en eficiencia, pudiendo escalar la frecuencia de reloj más allá de los 5 Ghz, según se espera. AMD mantendrá su diseño basado en chiplets para estas nuevas CPUs, con un chiplet I/O que posiblemente se fabrique en el nodo de 5 nm de TSMC, otro pasito adelante.

Y si esto fuera poco, también llegarán con una segunda generación de los Ryzen AI, el motor de aceleración para IA, mientras que Intel aún está en su primera versión. Por tanto, las cargas de trabajo de inteligencia artificial deberían ver un notable salto adelante.

Y hay aún más, ya que las GPUs integradas de AMD para los Zen 5 también tendrán un gran rendimiento en gaming, similares a algunas GPUs dedicadas actuales, lo que supone un enorme beneficio. De la nueva GPU se sabe que estará basada en Navi 3.5, es decir, en la arquitectura RDNA 3+, una mejora frente a la RDNA 3 actual que sería un paso intermedio entre las Radeon 7000 Series actuales y las Radeon 8000 Series que veremos el próximo año…

¿Con cuál te quedas?

[ad_2]

Source link

Deja un comentario