Endianness: detección, conversión y portabilidad en C

El endianness define el orden en que los bytes de un tipo de dato que ocupa más de un byte (como un uint32_t) se almacenan en la memoria física. No es una propiedad del lenguaje C, sino una decisión de arquitectura de hardware. Existen dos esquemas principales: little-endian, donde el byte menos significativo (LSB) reside en la dirección de memoria más baja (común en arquitecturas x86 y ARM), y big-endian, donde el byte más significativo (MSB) se coloca primero (utilizado en protocolos de red y arquitecturas como SPARC).

Esta distinción es crítica cuando realizamos operaciones de bajo nivel, serialización de datos o comunicación entre sistemas. Si un programa asume que un entero de 32 bits se lee de forma lineal sin considerar el orden de los bytes, los valores resultantes serán erróneos al procesar datos provenientes de una arquitectura distinta. Debemos manejar el endianness siempre que la persistencia de datos (archivos binarios) o la comunicación (redes) no definan un estándar de byte orden específico. Si ignoramos esto, el software fallará silenciosamente, procesando valores “espejo” o corruptos que son extremadamente difíciles de rastrear en sistemas distribuidos.

Para gestionar esto con robustez, recurrimos a dos estrategias: la detección en tiempo de ejecución mediante el uso de una union para observar la posición de un byte, o la detección en tiempo de compilación aprovechando macros de preprocesador proporcionadas por el compilador (como __BYTE_ORDER__ en GCC/Clang). Para la conversión, lo más seguro es usar funciones de conversión de orden de bytes (como htonl [POSIX]) o implementar rotaciones de bits manuales para garantizar la portabilidad.

#include <stdio.h>
#include <stdint.h>
#include <string.h>
#include <arpa/inet.h> // [POSIX] para htonl y ntohl

/* 
 * Detecta el endianness en tiempo de ejecución mediante el examen de una union.
 * Se usa una union para que el mismo espacio de memoria sea visto como 
 * un entero y como un array de bytes.
 */
int is_little_endian(void) {
    union {
        uint32_t i;
        uint8_t b[4];
    } u = {0x01020304};
    // En Little-endian, el byte menos significativo (0x04) está en la 
    // dirección más baja (u.b[0]).
    return u.b[0] == 0x04;
}

/* 
 * Implementación portable de byte swap para un entero de 32 bits [C11].
 * Realiza la inversión completa de los bytes mediante operaciones de bitwise.
 */
uint32_t portable_swap32(uint32_t x) {
    return ((x & 0x000000FF) << 24) |
           ((x & 0x0000FF00) << 8)  |
           ((x & 0x00FF0000) >> 8)  |
           ((x & 0xFF000000) >> 24);
}

int main(void) {
    // Detección en tiempo de compilación (extensión GCC/Clang)
#if defined(__BYTE_ORDER__) && defined(__ORDER_LITTLE_ENDIAN__)
    if (__BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__) {
        printf("Compilador detecta: Little-endian\n");
    } else {
        printf("Compilador detecta: Big-endian\n");
    }
#endif

    printf("Runtime: %s\n", is_little_endian() ? "Little-endian" : "Big-endian");

    uint32_t host_val = 0x12345678;

    // 1. Conversión a Network Byte Order (Big-endian) [POSIX]
    // htonl (host-to-network-long) garantiza que el dato sea Big-endian.
    uint32_t net_val = htonl(host_val);
    printf("Host: 0x%08X -> Network (Big-endian): 0x%08X\n", host_val, net_val);

    // 2. Simulación de la recepción de un buffer desde la red
    // El buffer contiene el valor 0x00000001 en Big-endian.
    uint8_t network_buffer[4] = {0x00, 0x00, 0x00, 0x01};

    // 3. Lectura segura desde el buffer
    uint32_t received_val;
    
    // IMPORTANTE: Usamos memcpy para evitar errores de alineación (alignment faults)
    // que ocurren al intentar castear un puntero uint8_t* a uint32_t*.
    memcpy(&received_val, network_buffer, sizeof(uint32_t));

    // Si somos Little-endian, el valor leído es 0x01000000. Debemos rotarlo.
    if (is_little_endian()) {
        // Usamos la función portable para demostrar la lógica
        received_val = portable_swap32(received_val);
    }

    printf("Buffer recibido: 0x00000001 -> Valor recuperado en host: 0x%08X\n", received_val);

    return 0;
}

Desglose del código

La función is_little_endian aprovecha la forma en que el compilador organiza la union. Al asignar 0x01020304 al miembro i, si la arquitectura es little-endian, el byte 0x04 (el menos significativo) se coloca en la dirección de memoria más baja. Al acceder a u.b[0], podemos verificar esto directamente.

En portable_swap32, aplicamos máscaras de bits (0xFF000000, etc.) para aislar cada byte y luego desplazamos los bits en la dirección opuesta. Esta técnica es independiente de la arquitectura del host, lo que la hace esencial para código que debe ejecutarse en diferentes procesadores sin cambios en la lógica.

En el main, la llamada a htonl es la forma estándar [POSIX] de preparar datos para ser enviados por una red, asegurando que siempre viajen en Network Byte Order (Big-endian).

Un punto crítico es la lectura del network_buffer. Nunca se debe hacer algo como uint32_t val = *(uint32_t*)network_buffer;. En muchas arquitecturas (como ARM), acceder a un entero en una dirección que no sea múltiplo de 4 provoca un error de alineación (SIGBUS). El uso de memcpy es la forma correcta y segura de copiar los bytes al stack, permitiendo que el compilador gestione la alineación de received_val adecuadamente. Finalmente, si el host es Little-endian, el valor recuperado es el inverso del esperado, por lo que portable_swap32 corrige la orientación.

El error frecuente

El error más común es realizar un “cast” directo de punteros para leer datos de un buffer de red o un archivo:

uint8_t buffer[] = {0x00, 0x00, 0x00, 0x01}; // Valor 1 en Big-endian
uint32_t val = *(uint32_t*)buffer; // ¡PELIGRO!

Esto causa dos problemas graves:
1. Fallo de alineación: Si buffer no está alineado en una dirección múltiplo de 4, el programa puede colapsar con un error de segmentación o SIGBUS en arquitecturas estrictas.
2. Corrupción de datos por endianness: En un sistema x86 (Little-endian), val no será 1, sino 0x01000000.

Herramientas como AddressSanitizer o Valgrind pueden detectar accesos no alineados, pero la corrupción lógica por endianness suele pasar desapercibida hasta que el sistema se despliega en otro hardware.

N° 111

Desglose del código

Entradas relacionadas

Dejar un comentario Cancelar respuesta