io.ReadAll vs Streaming: Gestión de memoria en Go

io.ReadAll es la forma más directa de leer la totalidad de un io.Reader y volcar su contenido en un único slice de bytes ([]byte). Es una función extremadamente conveniente cuando necesitas el contenido completo de golpe para, por ejemplo, parsear un JSON pequeño o procesar una cadena de configuración. Sin embargo, su simplicidad es una trampa si no conoces su mecanismo interno: io.ReadAll lee los datos en fragmentos y va expandiendo un buffer dinámico mediante append hasta que encuentra un EOF. Esto significa que toda la información reside en la memoria RAM durante el proceso.

Si utilizas io.ReadAll con una fuente de datos de tamaño desconocido —como el cuerpo de una petición HTTP o un archivo de sistema de varios gigabytes—, tu aplicación intentará reservar un bloque de memoria contiguo para todo ese contenido. Esto no solo puede agotar la memoria disponible, provocando un error de Out of Memory (OOM) y matando el proceso, sino que también genera una presión innecesaria sobre el Garbage Collector (GC) debido a las múltiples reasignaciones y copias de memoria que ocurren mientras el buffer crece.

Debes usar io.ReadAll únicamente cuando la fuente de datos es interna, controlada y su tamaño es razonablemente pequeño (pocos megabytes). Cuando trabajes con flujos de datos de tamaño incierto o potencialmente masivos, la regla de oro es el streaming: procesar los datos en fragmentos mediante io.Copy o utilizando decodificadores que operen directamente sobre un io.Reader. Si necesitas usar io.ReadAll por comodidad pero quieres evitar desastres, el compromiso ideal es io.LimitReader, que te permite poner un tope de seguridad al número de bytes que se pueden leer.

package main

import (
	"bytes"
	"fmt"
	"io"
	"strings"
)

// processSmallData simula procesar una configuración pequeña.
// Aquí io.ReadAll es seguro porque el tamaño es controlado y conocido.
func processSmallData(r io.Reader) ([]byte, error) {
	return io.ReadAll(r)
}

// processLargeDataSafe usa un límite para evitar que un payload malicioso
// agote la memoria de nuestro servidor.
func processLargeDataSafe(r io.Reader) ([]byte, error) {
	// Limitamos la lectura a 100 bytes para proteger la memoria.
	limitR := io.LimitReader(r, 100)
	return io.ReadAll(limitR)
}

// processStreaming es la opción óptima para archivos o flujos grandes.
// No carga el contenido en memoria; lo mueve de un punto a otro por fragmentos.
func processStreaming(r io.Reader, w io.Writer) error {
	_, err := io.Copy(w, r)
	return err
}

func main() {
	// 1. Escenario seguro: Datos conocidos y pequeños.
	fmt.Println("--- Escenario 1: Datos controlados ---")
	smallSource := strings.NewReader("config_version: 1.0.2")
	data, _ := processSmallData(smallSource)
	fmt.Printf("Contenido: %s\n\n", string(data))

	// 2. Escenario con riesgo: Datos potencialmente grandes con límite de seguridad.
	fmt.Println("--- Escenario 2: Protección con LimitReader ---")
	hugeSource := strings.NewReader("Este es un texto muy largo que intentaremos leer con un límite de seguridad.")
	// Aunque el string sea largo, solo leeremos los primeros 20 bytes.
	limitedData, _ := processLargeDataSafe(hugeSource)
	fmt.Printf("Leído (limitado): %s\n\n", string(limitedData))

	// 3. Escenario profesional: Streaming puro.
	fmt.Println("--- Escenario 3: Streaming directo (io.Copy) ---")
	largeSource := strings.NewReader("Streaming de datos masivos sin saturar la RAM...")
	var destination bytes.Buffer // En la realidad, esto sería un archivo o una respuesta HTTP.
	
	if err := processStreaming(largeSource, &destination); err != nil {
		fmt.Printf("Error en streaming: %v\n", err)
	}
	fmt.Printf("Destino final: %s\n", destination.String())
}

Desglose del código

En el primer escenario, processSmallData usa io.ReadAll de forma directa. Como el strings.NewReader contiene una cadena muy pequeña, la asignación en el heap es despreciable y el impacto en el GC es nulo.

El segundo escenario aborda el problema de la seguridad. En lugar de confiar en el tamaño del input, envolvemos el Reader original en un io.LimitReader. Esto es crucial en servicios de red: si un cliente envía un flujo infinito de bytes, io.ReadAll intentará seguir creciendo el slice hasta que el sistema operativo le niegue la memoria. LimitReader garantiza que, pase lo que pase, el programa solo consumirá la cantidad de bytes que tú hayas definido.

Por último, processStreaming utiliza io.Copy. A diferencia de io.ReadAll, io.Copy no intenta crear un slice que contenga todo el contenido. Internamente, utiliza un buffer temporal (por defecto de 32 KB) y va copiando trozos del origen al destino. Esto permite procesar archivos de 100 GB usando apenas unos pocos kilobytes de memoria RAM, manteniendo una huella de memoria constante sin importar el tamaño del archivo.

El error frecuente

Es muy común cometer este error al escribir handlers de HTTP:

func handler(w http.ResponseWriter, r *http.Request) {
    // PELIGRO: Si el cliente envía un cuerpo de 10GB, el proceso morirá por OOM.
    body, err := io.ReadAll(r.Body)
    if err != nil {
        http.Error(w, "Error al leer", 500)
        return
    }
    // ... procesar body
}

Si no controlas el tamaño del r.Body mediante un io.LimitReader o si no validas primero el r.ContentLength, tu aplicación es vulnerable a ataques de denegación de servicio (DoS) por agotamiento de memoria.

N° 112

Desglose del código

Entradas relacionadas

Dejar un comentario Cancelar respuesta