Apple M3, M3 Pro, M3 Max y M3 Ultra a fondo

Actualizado a: 16 de abril de 2024

Con la llegada de los nuevos Apple Silicon, la serie Apple M3 y sus derivados, se han visto algunos cambios interesantes a nivel de la microarquitectura tan particular y del proceso de fabricación que dan ese salto de rendimiento a estos nuevos SoC frente a los M2 Series. Aquí vamos a desentrañar todos los secretos de estos cambios, además de analizar los pros y contras de algunos de ellos, como ya hicimos con la serie M2.

Contenido

Perspectiva: M1 vs M2 vs M3

Desde que Apple comenzó a crear sus propios SoCs para sus equipos, lo que se conoce como Apple Silicon, ya ha dejado ver tres generaciones de los Mx-Series. Y la verdad es que ninguna de ellas ha dejado indiferente a nadie.

Para poner en perspectiva que son estos SoCs y cómo han evolucionado, qué mejor que esta tabla con las especificaciones:

Especificaciones	M3 (-)	M2 (Staten)	M1 (Tonga)
Proceso o nodo de fabricación	TSMC N3B	TSMC N5P	TSMC N5
CPU codenames / ISA	Núcleos eficientes: ¿? Núcleos de alto rendimiento: ¿? / ARM8.6A	Núcleos eficientes: Blizzard Núcleos de alto rendimiento: Avalanche / ARM8.5A	Núcleos eficientes: Icestorm Núcleos de alto rendimiento: Firestorm / ARM8.5A
GPU codename	¿?	¿?	Lifuka
Trazado de rayos por aceleración de hardware	Sí	No	No
Transistores	desde 25.000 millones	desde 20.000 millones	desde 16.000 millones
Neural Engine	16 núcleos (2º Gen+)	16 núcleos (2º Gen)	16 núcleos (1º Gen)
Tipo de memoria RAM	LPDDR5-6400	LPDDR5-6400	LPDDR4
Ancho de banda de memoria	Desde 100 GB/s	Desde 100 GB/s	Desde 50 GB/s

Proceso de fabricación N3B

El nuevo chip Apple M3 está fabricado en un nodo de 3nm en la foundry de TSMC. Esto supone un salto importante respecto a sus predecesores, que estaban fabricados en 5nm. Sin embargo, no se trata del nodo N3, sino de una variante denominada N3B. ¿Qué significa esto? Pues bien, aquí lo vamos a analizar…

TSMC desarrolló su nodo N3x de 3nm, pero también existen las variantes N3E, N3B, N3S, N3P y N3X, que deberías conocer para saber lo que hay tras la tecnología de fabricación del nuevo chip diseñado en Cupertino. Las letras que acompañan al nodo provienen de Enhanced, Base, SRAM (variante descontinuada orientada a reducir las celdas de memoria SRAM), Performance y eXtreme.

Lo primero que hay que decir es que el nodo N3B deriva directamente del nodo N5 de 5nm que TSMC usó anteriormente. Igual ocurre con el N3E, que también deriva directamente del N5. En cambio, las otras variantes se emparentan de diferente forma, siendo N3P y N3S derivados directos del N3E, mientras que el N3X es un derivado del N3P. Así es como se emparentan estas familias de procesos o nodos de fabricación de la foundry taiwanesa. Eso sí, a diferencia de otras foundries que han tomado caminos diferentes con conceptos de transistores GAA, en el caso de TSMC sigue usando como base los transistores FinFET en todos estos N3x.

Dicho esto, vamos a centrarnos en el N3B, que es el que nos interesa, ya que es en el que está fabricado el chip Apple M3 y sus variantes. Es cierto que la compañía ha sido tradicionalmente reservada con los detalles, pero sí que se ha dado a conocer algunos detalles interesantes.

Se reveló que el nodo tiene un paso de puerta de contacto de 45 nanómetros, el más ajustado hasta la fecha. Se introdujo un nuevo esquema de contacto autoalineado (SAC o Self-Aligned Contact) para abordar desafíos como la variabilidad y los desalineamientos, comunes en la reducción de transistores. TSMC afirmó que el SAC redujo la resistencia en un 45%, las variaciones en un 50%, y suprimió la fuga de contacto a puerta.

Además, se implementó un espaciador de baja constante dieléctrica (Low-K) para mejorar la resistencia y superar especificaciones técnicas. La misma matriz de prueba también integró 256 Mib de macros SRAM HC y HD.

En comparación con el proceso N5, TSMC dice ofrecer un aumento del 10 al 15% en rendimiento o una disminución del 25 al 35% en consumo de energía, con un aumento del 1.7 veces en densidad lógica (un factor de escala de 0.58), un aumento del 20% (factor de escala de 0.8) en la densidad de celdas SRAM y un aumento del 10% en la densidad de circuitos analógicos.

Según estima TSMC, este nodo N3B puede llegar a una densidad de transistores teórica de 197 MTr/mm² , aunque en la práctica se están viendo densidades reales de entorno a 183. Por otro lado, también se han aportado datos sobre el tamaño de una célula de memoria SRAM, es decir, el tamaño necesario para almacenar un bit de información, y en este nodo es de 0.0199 μm².

ISA ARM64v8.6-A

Otro de los cambios que vemos en el Apple M3 y de los que pocos medios hablan es de su nueva versión en la ISA, ya que a diferencia de sus antecesores, no se basa en la versión ARM64v8.5-A, sino en la ARM64v8.6-A.

No significa un salto muy grande, pero sí que se han incorporado algunas novedades interesantes, como GEMM (General Matrix Multiply). Para el que no la conozca, la operación GEMM se refiere a una operación matricial fundamental en álgebra lineal, donde se multiplican dos matrices generales para obtener una tercera matriz. Matemáticamente, si tienes dos matrices A y B, el resultado de la operación GEMM se representa como C = A * B. Esto es esencial en muchas áreas de la computación científica y la inteligencia artificial, ya que forma la base de muchos cálculos intensivos en términos de álgebra lineal.

Por otro lado, también se ha incluido el soporte para el formato bfloat16 o BF16 (Brain Floating Point 16-bit), un formato de coma flotante de 16-bit diseñado para representar números en coma flotante de precisión más pequeña, como los necesarios para aplicaciones de aprendizaje profundo y redes neuronales.

También se han incluido instrucciones de manipulación de matrices SIMD, BFDOT, BFMMLA, BFMLAL y BFCVT, para mejorar también el rendimiento con ciertas cargas de trabajo, así como nuevas implementaciones para mejorar la virtualización en estos chips y la gestión del sistema y su seguridad. Por otro lado, esta nueva ISA también acepta nuevas extensiones, como la virtualización ECV, las trampas de granularidad fina FGT, y la virtualización de monitores de actividad AMU. No obstante, no todas estas adiciones son usadas en los Apple M3…

Extensiones

Además de la ISA base, el Apple M3 también puede hacer uso de otras extensiones para acelerar más ciertas cargas de trabajo, especialmente los cálculos vectoriales, las tareas multimedia y la IA. Por este motivo, Apple usa:

NEON: son unas SIMD de 128-bit de ancho desarrolladas por la propia Arm, y que pueden usar todos sus clientes. En el caso de los Apple Mx, se pueden ejecutar hasta 4 por ciclo de reloj en los núcleos de alto rendimiento, aunque no sea así en los núcleos eficientes.
Apple AMX: unas instrucciones ocultas para un coprocesador presente en los chips Apple Silicon. Estas instrucciones, no están documentadas y son misteriosas para la mayoría de los usuarios. Aunque comparten similitudes con las instrucciones Intel AMX, están destinadas a la multiplicación matricial desde la FPU. El AMX opera con tres tipos de datos: coma flotante normalizada bajo IEEE-754 FP16, FP32 y FP64; multiplicandos de coma flotante IEEE-754 FP16 y acumulando FP32; y multiplicandos enteros de 8 bits o 16 bits, que se acumulan en 16 bits o 32 bits (con signo). El funcionamiento del AMX implica una cuadrícula o matriz de datos donde cada unidad puede realizar la multiplicación y acumulación. Utiliza registros X y Y para realizar operaciones SIMD, donde una instrucción vectorial puede multiplicar y acumular elementos de ambos registros para obtener el resultado deseado. Está diseñado para acelerar aplicaciones como procesamiento de imágenes, reconocimiento de voz y facial, compresión, y multimedia.

Ancho de banda y Unified Memory Architecture

Apple acuñó el término Unified Memory Architecture para sus SoCs M-Series. Lo hace para referirse a que todos los núcleos de procesamiento del SoC comparten la misma memoria, es decir, tanto la GPU como la CPU compartirán el ancho de banda de estos canales de hasta 800 GB/s. Es decir, difiere de los sistemas que tienen por un lado la memoria RAM para la CPU, y por otro lado la VRAM para la GPU. Sin embargo, esto es similar cuando hablamos de un chip Intel con iGPU o una APU de AMD, ya que en este caso también comparten la misma memoria RAM para GPU y CPU, aunque en el caso de Intel y AMD el ancho del canal y el ancho de banda es inferior al de Apple.

La elección de Apple tiene sus ventajas, como:

Mayor eficiencia en el uso de memoria: al compartir el mismo espacio de memoria, los distintos componentes del SoC pueden acceder a los datos de manera más eficiente, ocupando todo el ancho de banda y aprovechándolo al máximo al saturarlo.
Facilita la comunicación entre componentes: facilita la comunicación y transferencia de datos entre la CPU, GPU y otros componentes del SoC. Además, la proximidad de los datos en la memoria compartida reduce la latencia y mejora el rendimiento en tareas que requieren intercambio de datos frecuente entre diferentes unidades de procesamiento.
Simplicidad para desarrolladores: simplifica la gestión de la memoria, ya que no es necesario preocuparse por la asignación y transferencia de datos entre diferentes tipos de memoria. Esto puede hacer que el desarrollo de software sea más sencillo y eficiente.
Mejora en Multitarea: puede beneficiar las operaciones multitarea, ya que los diferentes núcleos pueden acceder a los datos compartidos de manera más rápida y eficiente. No obstante, también puede presentar desafíos para los desarrolladores.

Sin embargo, no todo son ventajas, como puedes imaginar, también tiene sus desventajas:

Limitaciones de capacidad y ancho de banda: puede presentar limitaciones en términos de capacidad total de memoria que se puede elegir, es decir, menor flexibilidad en la configuración de memoria. No se puede ampliar si lo deseas, como en los diseños de Intel y AMD. Además, al compartir el ancho de banda para todos sus procesadores, es posible que cuando todos están muy ocupados se pueda generar un cuello de botella en el bus de memoria. Y, por supuesto, se tiene que mantener una coherencia de memoria y evitar conflictos cuando varias unidades están haciendo uso de las direcciones de la memoria.

Es importante remarcar algo, al igual que el M2 compartía el mismo subsistema de memoria que el A15, el M3 comparte el mismo subsistema que el A17, por lo que parece. De este subsistema no se han dado demasiados detalles para el nuevo M3, sin embargo, muchos lo identifican como uno de los puntos fuertes que hacen que estos chips sean tan rápidos, puesto que a nivel arquitectónico no tienen nada especialmente llamativo.

Por especular algo, hay que decir que hace un tiempo Apple patentó un nuevo enfoque sobre cómo utiliza la memoria en el subsistema System-on-Chip (SoC). Los nuevos diseños deben integrar cada componente, como la CPU Arm y una GPU personalizada. Ambos procesadores necesitan un buen acceso a la memoria, y Apple ideó una solución al problema de permitir que tanto la CPU como la GPU accedan al mismo grupo de memoria, esa memoria unificada de la que henmos hablado. Sin embargo, para evitar cuellos de botella en este sentido, se ha patentado un diseño para combinar la memoria DRAM de alto rendimiento como un buffer o caché, en lugar de la SRAM, optimizada para ofrecer un alto ancho de banda, y la DRAM principal de alta capacidad. Esta patente surgió tras el M1, por lo que es probable que el M2 lo utilice y el M3 trambién.

Shac Ron, un ingeniero que trabajó en Apple, arrojó algo de luz sobre los secretos de los Apple M-Series y su rendimiento y eficiencia. Lo hizo a través de su cuenta oficial de Twitter (ahora X). Todo a consecuencia de los rumores de que su rendimiento tenía más que ver con la caché que con su microarquitectura. Ron insinuó que uno de los motivos de este rendimiento se debía a una microarquitectura OoOE (Out of Order Execution) altamente eficiente con frecuencias de reloj más bajos, permitiendo agregar más núcleos en el mismo chip, sin tener demasiados problemas con el calentamiento. Además, surgirió algo muy interesante, y es que la ISA Arm fue adaptada a las exigencias de Apple desde hace años, por lo que se ha conseguido un mejor provecho que en otros diseños Arm licenciados o personalizados. Recuerda que Apple es uno de los mayores contribuyentes de Arm, y tiene poder para influenciar sobre los diseños. Esto explicaría lo avanzados que tenían los diseños antes de realizar el cambio de Intel a Apple Silicon, consiguiendo así anticiparse una década y obtener un rendimiento excepcional. Sin embargo, otros muchos expertos siguen opinando que la clave es el subsistema de memoria…

Por otro lado, aquí viene la polémica. En una entrevista, Bob Borchers, vicepresidente de marketing mundial de productos de Apple, se afirmó que la memoria RAM de un Mac es el doble de potente que la de cualquier otra PC, y que 8 GB en un Mac equivalen a 16 GB en otro ordenador. La justificación se basa en la eficiencia de la memoria RAM unificada de Mac, que utiliza compresión de memoria. Sin embargo, se señala que esta afirmación puede ser cierta en tareas específicas del sistema operativo MacOS, pero no equivale necesariamente al doble de RAM en términos generales. Se destaca que la optimización de Mac para ciertas tareas específicas no implica un rendimiento superior en todas las aplicaciones, especialmente en programas intensivos como videojuegos o renderizado. Aunque la optimización del sistema operativo puede hacer que los Mac funcionen bien con menos RAM en ciertas situaciones, se aconseja considerar las necesidades específicas antes de elegir la cantidad de RAM al comprar un ordenador Apple, más aún teniendo en cuenta que no se puede ampliar.

La CPU del Apple M3

Al igual que el Apple M2 tenía una variante para dispositivos móviles, el A15, el Apple M3 también se sospecha que es familia del nuevo A17. Sin embargo, no son iguales, y existen notables diferencias entre el chip para móviles y el chip para ordenadores de Apple. No obstante, sí que es verdad que existen también muchas similitudes entre ambos, y eso nos puede ayudar a comprender un poco mejor a este Apple M3 mirando el A17.

¿Sabías que ya existe un Apple M7, Apple M8, así como los M9, M10 y M11? Pues sí, así es, son chips coprocesadores basados en ARMv7-M para potenciar a los chips de dispositivos móviles (los Apple A-Series), estos Apple Motion tenían el objetivo de descargar a la CPU de cierto trabajo, encargándose ellos de procesar los datos de los sensores del dispositivo. Pero, independientemente de esto, ¿qué hará Apple cuando pasen varias generaciones con sus nombres? ¿cesará de usar la M tras el futuro Apple M6 por estar ya registrados? Es solo una curiosidad, pero veremos…

Apple M3 «Ibiza»

SoC	M3	M2	M1
Nodo	N3B	N5P	4-core (Firestorm) 12MB Shared L2
CPU	-Performance cores: 4 -Efficience cores: 4	-Performance cores: 4 (Avalanche) con 16 MB de L2 compartida -Efficience cores: 4 (Blizzard) con 4MB de L2 compartida	-Performance cores: 4 (Firestorm) con 12 MB de L2 compartida -Efficience cores: 4 (Icestorm) con 4MB de L2 compartida
GPU	10 núcleos (con nueva arquitectura con Mesh Shaders & Ray Tracing)	10 núcleos @ 3.6 TFLOPS	8 núcleos @ 2.6 TFLOPS
Controlador de pantalla	2 (1 Interno + 1 Externo)	2 (1 Interno + 1 Externo)	2 (1 Interno + 1 Externo)
Neural Engine	16 núcleos @ 18 TOPS (2ª generación, no cambia la arquitectura, pero se ha mejorado el rendimiento)	16 núcleos @ 15.8 TOPS (2ª generación)	16 núcleos @ 11 TOPS (1ª generación)
Controlador de memoria unificada	LPDDR5-6400 Canales 8x 16-bit Ancho de banda total de 100GB/s	LPDDR5-6400 Canales de 8x 16-bit Ancho de banda total de 100GB/s	LPDDR4X-4266 Canales 8x 16-bit Ancho de banda dotal de 68GB/s
Capacidad máxima de memoria	24GB	24GB	16GB
Encode/ Decode	Soporte resolución 8K H.264, H.265, ProRes, ProRes RAW, AV1 (Decode)	Soporta resolución 8K H.264, H.265, ProRes, ProRes RAW	Soporta resolución 4K H.264, H.265
Puertos	2x USB4/Thunderbolt 4	2x USB4/Thunderbolt 3	2x USB4/Thunderbolt 3
Recuento de transistores	25.000 millones	20.000 millones	16.000 millones
TDP	22W	20W	18W

En cuanto a la arquitectura, Apple mantiene cierto hermetismo sobre las CPU y GPU utilizadas en la familia M3 de SoCs. No se conocen los nombres en clave de los núcleos de CPU utilizados en el SoC A17 y tampoco en los M3. Veremos si más adelante se terminan filtrando, como en los modelos anteriores. Por ahora, solo conocemos que los nombres clave para el proyecto elegidos han sido Ibiza, Lobos y Palma.

En cuanto a los datos, en comparación con la familia M2, Apple promociona una mejora de aproximadamente el 15% en el rendimiento de sus núcleos de CPU de alto rendimiento. También se menciona un aumento del 30% en comparación con la M1. Pero Apple ha sido muy ambigua en este sentido, sin especificar si se trata del incremento del rendimiento IPC o de la frecuencia de reloj.
Los núcleos de eficiencia también han experimentado mejoras, siendo un 30% más rápidos que los de la M2 y un 50% más rápidos que los de la M1, según Apple. Aunque se han publicado benchmarks específicos de aplicaciones en el sitio web de Apple, estos son a nivel de sistema y no proporcionan detalles específicos sobre los núcleos de CPU.

Estas mejoras se pueden «arrastrar» para las siguientes versiones del M3, solo que teniendo la idea de que los siguientes tienen más núcleos.

En cuanto a la eficiencia energética, Apple afirma que el M3 puede ofrecer el mismo rendimiento de CPU que el M1 consumiendo la mitad de la energía, aunque el consumo máximo de energía del M3 es mayor que el del M1, según el gráfico proporcionado por Apple. Esto refleja la tendencia general de las curvas de rendimiento/energía aplanándose con el tiempo.

Apple M3 Pro «Lobos»

SoC	M3 Pro	M2 Pro	M1 Pro
Nodo	N3B	N5P	8-core (Firestorm) 24MB Shared L2
CPU	-Performance cores: 6 -Efficience cores: 6	-Performance cores: 8 (Avalanche) con 32 MB de caché L2 -Efficience cores: 4-core (Blizzard) con 4MB de caché L2	-Performance cores: 8 (Firestorm) con 24 MB de cache L2 -Efficience cores: 2 (Icestorm) con 4MB de cache L2
GPU	18 núcleos (con nueva arquitectura con Mesh Shaders & Ray Tracing)	19 núcleos @ 6.8 TFLOPS	16 núcleos @ 5.2 TFLOPS
Controlador de pantalla	3 (1 Interno + 2 Externos)	3 (1 Interno + 2 Externos)	3 (1 Interno + 2 Externos)
Neural Engine	16 núcleos @ 18 TOPS (2ª generación, no cambia la arquitectura, pero se ha mejorado el rendimiento)	16 núcleos @ 15.8 TOPS (2ª generación)	16 núcleos @ 11 TOPS (1ª generación)
Controlador de memoria unificada	LPDDR5-6400 Canales de 12x 16-bit (192-bit) Ancho de banda total de 150GB/s	LPDDR5-6400 Canales de 16x 16-bit (256-bit) Ancho de banda total de 200GB/s	LPDDR4X-4266 Canales de 16x 16-bit (256-bit) Ancho de banda total de 200GB/s
Capacidad máxima de memoria	36GB	32GB	32GB
Encode/ Decode	8K H.264, H.265, ProRes, ProRes RAW, AV1 (Decode)	8K H.264, H.265, ProRes, ProRes RAW	8K H.264, H.265, ProRes, ProRes RAW
Puertos	4x USB4/Thunderbolt 4	4x USB4/Thunderbolt 4	2x USB4/Thunderbolt 4
Recuento de transistores	37.000 millones	40.000 millones	33.700 millones
TDP	45W	30W	35W

La versión M3 Pro, que es una versión más poderosa del M3 básico, tiene unas características mejoradas, como se esperaba, pero cuidado porque ha defraudado a muchos usuarios que prefieren directamente pasar al M3 Max, dado que el ancho de banda, a pesar de contar con más núcleos de CPU y GPU, no se ha duplicado como era de esperar, es decir, no tiene 200 GB/s como en el caso del M2 Pro, sino que se ha dejado en unos 150 GB/s.

Esta «estrechez» en el ancho de banda, podría salir cara a Apple, ya que muchos usuarios no están dispuestos a pasar por esta limitación cuando están pagando un mayor precio. Por este motivo, si quieres un chip de alto rendimiento para cargas de trabajo pesadas, es mejor que pienses en el Max, para no tener problemas…

Por el momento, no sabemos el motivo de usar un ancho de banda de 150 GB/s en el Pro, cuando debería de ser de 200 GB/s como el M2 Pro y M1 Pro. Es decir, es un paso atrás. Es cierto que el M1 Pro soporta DDR4, lo que limita el rendimiento respecto a los nuevos diseños con soporte para DDR5. Pero si tenemos en cuenta que el M2 Pro y M3 Pro usan DDR5, el bajar de 200 GB/s a 150 GB/s es un claro problema. ¿Habrá habido algún problema por el que Apple se ha visto obligado a bajar el bus?

Es posible que se deba a algún problema. De hecho, la cantidad de núcleos de GPU presentes en este diseño es inferior al M2 Pro, con 18 frente a 19. Algo extraño que quizás se deba a temas de binning. Es cierto que al tener un núcleo de GPU menos, el ancho de banda demandado será inferior, pero no creo que tanto como para restar 50 GB/s. Si es eso solo, es una bajada bastante injustificada.

Apple M3 Max «Palma»

SoC	M3 Max	M2 Max	M1 Max
Nodo	N3B	N5P	N5
CPU	-Performance cores: 12 -Efficience cores: 4	-Performance cores: 8 (Avalanche) con 32 MB de cache L2 -Efficience cores: 4 (Blizzard) con 4MB de caché L2	-Performance cores: 8 (Firestorm) con 24 MB de caché L2 -Efficience cores: 2 (Icestorm) con 4MB de caché L2
GPU	40 núcleos (con nueva arquitectura con Mesh Shaders & Ray Tracing)	38 núcleos @ 13.6 TFLOPS	32 núcleos @ 10.4 TFLOPS
Controlador de pantalla	5 (1 Interno + 4 Externos)	5 (1 Interna + 4 Externos)	5 (1 Interna + 4 Externos)
Neural Engine	16 núcleos @ 18 TOPS (2ª generación, no cambia la arquitectura, pero se ha mejorado el rendimiento)	16 núcleos @ 15.8 TOPS (2ª generación)	16 núcleos @ 11 TOPS (1ª generación)
Controlador de memoria unificada	LPDDR5-6400 Canales de 32x 16-bit (256-bit) Ancho de banda total de 400GB/s	LPDDR5-6400 Canales de 32x 16-bit (256-bit) Ancho de banda total de 400GB/s	LPDDR4X-4266 Canales de 32x 16-bit (256-bit) Ancho de banda total de 400GB/s
Capacidad máxima de memoria	128GB	96GB	64GB
Encode/ Decode	8K H.264, H.265, ProRes, ProRes RAW, AV1 (Decode)	8K H.264, H.265, ProRes, ProRes RAW	8K H.264, H.265, ProRes, ProRes RAW
Puertos	6x USB4/Thunderbolt 4	6x USB4/Thunderbolt 4	4x USB4/Thunderbolt 4
Recuento de transistores	92.000 millones	67.000 millones	57.000 millones
TDP	65W	45W	45W

El siguiente modelo o versión del M3 es el M3 Max, en este caso, sí que se ofrece lo que se esperaba. Un ancho de banda cuadriplicado con respecto al M3, por lo que no debería presentar problemas de cuello de botella.

Apple M3 Ultra «¿?»

SoC	M3 Ultra	M2 Ultra	M1 Ultra
Nodo	N3B	N5P	N5
CPU	-Performance cores: 24 -Efficience cores: 8	-Performance cores: 16 (Avalanche) con 64 MB de cache L2 -Efficience cores: 8 (Blizzard) con 8MB de caché L2	-Performance cores: 16 (Firestorm) con 48 MB de caché L2 -Efficience cores: 4 (Icestorm) con 8MB de caché L2
GPU	80 núcleos (con nueva arquitectura con Mesh Shaders & Ray Tracing)	76 núcleos @ 27.2 TFLOPS	64 núcleos @ 21 TFLOPS
Controlador de pantalla	8 (1 Internos + 7 Externos)	8 (1 Internos + 7 Externos)	8 (1 Interna + 7 Externos)
Neural Engine	32 núcleos (2ª generación, no cambia la arquitectura, pero se ha mejorado el rendimiento)	32 núcleos @ 31.6 TOPS (2ª generación)	32 núcleos @ 22 TOPS (1ª generación)
Controlador de memoria unificada	LPDDR5-6400 Canales de 32x 16-bit (256-bit) Ancho de banda total de 800GB/s	LPDDR5-6400 Canales de 32x 16-bit (256-bit) Ancho de banda total de 800GB/s	LPDDR4X-4266 Canales de 32x 16-bit (256-bit) Ancho de banda total de 400GB/s
Capacidad máxima de memoria	256GB	192GB	128GB
Encode/ Decode	8K H.264, H.265, ProRes, ProRes RAW, AV1 (Decode)	8K H.264, H.265, ProRes, ProRes RAW	4K H.264, H.265, ProRes, ProRes RAW
Puertos	8x USB4/Thunderbolt 4	8x USB4/Thunderbolt 4	6x USB4/Thunderbolt 4
Recuento de transistores	184.000 millones	134.000 millones	114.000 millones
TDP	120W	90W	60W

Aunque aún no ha salido, se habla de un M3 Ultra, del que solo existen rumores, pero en la anterior tabla he mostrado lo que podría traer este chip según estos rumores. Por supuesto, son datos aún por confirmar. Pero podría ser una bestia con hasta 32 núcleos de CPU y hasta 80 núcleos de GPU, lo cual es verdaderamente impresionante. Como sabes, el Ultra no es más que dos chips M3 Max unidos mediante un interposer que los enlaza como si fuesen un chip monolítico, aunque no lo es.

Por otro lado, se lleva años hablando de un supuesto M2 Extreme y ahora ha vuelto el fantasma del M3 Extreme, es decir, otro chip aún más poderoso. No obstante, aunque aparecía en algunos documentos el M2 Extreme, finalmente no se llegó a materializar, y es posible que con el M3 Extreme ocurra lo mismo.

El supuesto Apple M2 Extreme, con nombre clave Jade 4C-Die, parecía ser un proyecto que incluiría 4 chips M1 Max interconectados por el interposer. Sí, en vez de elegir M2 Max para este empaquetado se eligió el M1 Max (nombre clave Jade 2C-Die). El motivo de hacer esto no se conoce de forma oficial. Pero, si el M3 Extreme se confirmase, ¿sería un M2 Max doble o un M3 Max doble?

Interposer vs chiplet

Un interposer es un sustrato semiconductor que se utiliza para conectar y facilitar la comunicación entre varios chips cuando existen varios chips que se van a encapsular juntos. En lugar de colocar los chips directamente en la placa de circuito impreso (PCB), se utilizan interposers para interconectar de forma más rápida y eficiente, proporcionando conexiones eléctricas entre ellos más pequeñas que en un MCM o chiplet. Estos interposers suelen estar hechos de materiales semiconductores como silicio, y pueden incluir una serie de vías de interconexión tanto verticales como horizontales para interconectar chips. Esto es algo que no solo emplea Apple, también se ha usado en otros diseños, como los nuevos Intel Core Ultra «Meteor Lake».

Te preguntarás por qué ventajas puede tener este sistema frente al chiplets de AMD, por ejemplo, o frente a los chiplets también empleados en los IBM POWER. Pues bien, las más destacadas son:

Mayor densidad de empaquetado: al permitir la colocación de múltiples chips en una estructura apilada, los interposers permiten una mayor densidad de empaquetado. Esto es especialmente beneficioso en aplicaciones donde el espacio es crítico, como en dispositivos móviles o servidores de centros de datos.
Mejora de la velocidad de comunicación: los interposers pueden reducir la longitud de las vías de interconexión entre chips, lo que ayuda a minimizar la latencia y mejorar la velocidad de comunicación entre los componentes.
Mejor rendimiento térmico: al permitir una disposición más compacta de los componentes, los interposers pueden facilitar una mejor gestión térmica al concentrar el calor en una área más pequeña y permitir soluciones de enfriamiento más efectivas.

Por otro lado, los chiplets son una aproximación diferente en la que los componentes individuales, o «chiplets», se fabrican por separado y luego se ensamblan en un sustrato o sustratos compartidos. Es cierto que el diseño chiplet permite mayor flexibilidad, pero también tiene algunos problemas que resolver, como la eficiencia y la velocidad de transmisión. Eso sí, en un chiplet los chips están más separados, por lo que los focos de calor también lo están, lo que puede mejorar la disipación de calor.

La GPU del Apple M3

Mientras tanto, en el ámbito de la GPU, la familia de chips M3 presenta una actualización de arquitectura de GPU más sustancial. Aunque Apple no revela detalles sobre la organización subyacente de la arquitectura de la GPU, desde el punto de vista de las características, la nueva arquitectura aporta algunas funciones importantes a la plataforma de Apple, y de las que ya gozaban en el mundo del PC, con las gráficas de Intel, AMD, y NVIDIA, como son el shading de malla y trazado de rayos o Ray Tracing.

Estas mismas características también se introdujeron con el SoC A17 de Apple para la familia iPhone 15 Pro que, como dije anteriormente, es un proyecto derivado del M3, por lo que era de cajón que también se incluyesen aquí. En teoría, esta nueva arquitectura de GPU debería estar más próxima al rendimiento de las GPUs discretas de Intel, AMD y NVIDIA, pero esto es algo que está por ver. Además, es probable que estén a la par por la mayor cantidad de núcleos, pero no por el rendimiento single-core de la GPU.

Apple menciona una mejora de aproximadamente el 15% en los núcleos de CPU de alto rendimiento en comparación con la familia M2. Pero vamos a lo realmente importante, a las dos características nuevas introducidas en esta arquitectura que deriva de las PowerVR de Imagination Technologies, aunque es una tecnología licenciada por Apple.

Dynamic Caching: con esta tecnología se busca un mejor control y asignación de la memoria utilizada por su GPU integrada, evitando la asignación excesiva en la memoria unificada para garantizar un uso más eficiente. Esta característica opera a nivel de hardware y es transparente para los desarrolladores.
Mesh shading: es una técnica avanzada utilizada en unidades de procesamiento gráfico (GPU) para mejorar la eficiencia en la renderización de gráficos en tres dimensiones. En lugar de procesar cada vértice individualmente, el sombreado de malla permite a la GPU agrupar varios vértices en conjuntos llamados «mallas» y procesarlos de manera más eficiente. Una malla se refiere a un conjunto de vértices que forman una superficie o un objeto tridimensional en el espacio. El sombreado de malla se centra en optimizar la etapa de procesamiento de geometría en la tubería gráfica, donde se transforman los vértices y se determina la posición de cada píxel en la pantalla. Las ventajas de esta técnica es su eficiencia al reducir la cantidad de trabajo en ciertos cálculos geométricos que comparten similitudes, mejora el detalle geométrico de los modelos 3D renderizados, y ayuda a reducir el consumo del ancho de banda, por lo que no necesitará anto ancho del bus de la memoria unificada.
Ray Tracing: es una técnica avanzada de renderización utilizada en unidades de procesamiento gráfico para simular el comportamiento de la luz y crear imágenes más realistas y detalladas en entornos tridimensionales. A diferencia de las técnicas de renderización tradicionales, que suelen utilizar el rasterizado, el Ray Tracing simula el comportamiento de la luz al rastrear los rayos de luz a medida que interactúan con los objetos de la escena. En definitiva, una mejora en las reflecciones de luz, en las sombras, una refracción más precisa, mejores efectos atmosféricos, y detalles en las superficies.

Por otro lado, no hay que olvidar, que al igual que han hecho NVIDIA, AMD e Intel, Apple también ha incluido un sistema de decodificación por hardware para el codec AV1, por lo que este tipo de cargas para los streamers y editores de vídeo serán más rápidas.

La NPU del Apple M3

Por último, e igualmente importante, echemos un vistazo rápido al NPU (Neural Engine) del M3. A un nivel alto, nuevamente se trata de un diseño de 16 núcleos o 32 para el modelo Ultra, se supone. Apple afirma que ofrece un rendimiento de 18 TOPS, aproximadamente un 14% más que el NPU del M2, lo cual es un paso importante. En cambio, el diseño o arquitectura de esta Neural Engine no ha cambiado con respecto a los M2, aunque se ha optimizado para mejorar el rendimiento.

Aquí hay algo extraño, y es que la Neural Engine del Apple A17, destinado a dispositivos móviles, aporta 35 TOPS, lo que indicaría que los chips para ordenadores serían inferiores en cargas de trabajo de IA respecto a los móviles. Algo realmente extraño. Pero hay una explicación, y es que las cifras del rendimiento del A17 se mostraron para datos en formato INT8, es decir, enteros de 8-bit, mientras que las cifras del M3 se han mostrado en INT16/FP16, es decir, formato de coma flotante o enteros de 16-bit, el doble. Por tanto, realmente la NPU de móviles tendría un rendimiento de unos 17.5 TOPS en INT16 o visto de otro modo, los M3 tendrían un rendimiento de 36 TOPS en INT8. Esto ha confundido a muchos usuarios, pero como ves tiene una explicación sencilla.

No obstante, esto que he dicho es solo un supuesto. Lo que no ha desvelado Apple es si la Neural Engine del M3 acepta formato INT8. En caso de no hacerlo, sería un problema o se está usando una generación más antigua de la Neural Engine que carece de dicho soporte. En los anteriores casos, siempre ha mantenido la NPU con paridad entre las A-Series y M-Series. ¿Aquí habrá divergencia o simplemente se trata de esa confusión en cuanto a la precisión del formato usado para medir el rendimiento?

Los otros grandes olvidados

Siempre se analiza mucho sobre la CPU, la GPU y también la NPU, o Neural Engine, como Apple lo denomina. SIn embargo, existen otras unidades dentro del SoC que se nombran poco, pero que tienen un impacto interesante en el rendimiento. Me estoy refiriendo a:

IPU (Image Processing Unit): es un procesador especialmente dedicado al procesamiento de imágenes, evitando la sobrecarga por esto a otras unidades. Es decir, es un tipo específico de procesador diseñado para trabajar con señales de imagen provenientes de sensores, como cámaras digitales o cámaras en dispositivos móviles. La función principal de un ISP es procesar las señales de imagen crudas capturadas por un sensor de imagen, como la cámara integrada, realizando tareas como la corrección del color, el balance de blancos, la reducción de ruido y otras operaciones para mejorar la calidad de la imagen.
DSP (Digital Signal Processor): es otra de las unidades de procesamiento en este SoC heterogéneo. En este caso es un elemento que evita una sobrecarga de cálculos matemáticos a la CPU, y dedicada especialmente al procesamiento de señal, como el sonido o la música. Por ello está optimizado para ejecutar rápidamente operaciones matemáticas y algoritmos que son fundamentales en el procesamiento de señales, como filtrado, convolución, multiplicación de matrices, y transformaciones de Fourier.
Media Engine (Encoder/Decoder): entre otros codecs acelerados está ProRes, que es un formato de códec de video desarrollado por Apple que está diseñado para lograr una alta calidad de imagen y eficiencia de almacenamiento. Este códec se utiliza comúnmente en la postproducción de video y la producción cinematográfica, donde la calidad de la imagen es crucial. Con este procesador o acelerador por hardware, la CPU tampoco tiene que dedicarse a eso, y cuando se trata de convertir archivos de vídos o de codificar algún formato, esta unidad lo hará. Además, como he mencionado, también se ha agregado aceleración AV1, como Intel, AMD, y NVIDIA en sus últimas GPUs.
Secure Enclave: es un componente de seguridad crítico en los dispositivos de Apple, diseñada para proporcionar un entorno seguro y aislado para almacenar y procesar información sensible, como claves criptográficas y datos biométricos, de manera que esté protegida contra accesos no autorizados. Es similar al Secure Processor de AMD, y permite también mejorar la seguridad y encargarse de cosas como las claves de cifrado, la información biométrica de Face ID o del sensor de huellas dactilares, etc. Y todo de una forma aislada, sin que se pueda acceder a estos datos por vulnerabilidades de la CPU.

Conclusión

Para finalizar, ya estamos viendo los primeros resultados de los Apple M3 en los Macbook Pro de 14 y 16 pulgadas que se han lanzado al mercado. También llegan al iMac, y veremos en un futuro si también renuevan sus Macbook Air y el Mac Pro, aunque para éste último se espera la llegada del M3 Ultra.

Apple ha cumplido en cuanto a espectativas en sus nuevos M3, pero nos ha dejado un mal sabor de boca el M3 Pro, por ese ancho de banda y ese núcleo de GPU inferior incluso al M2 Pro.