Cómo decide realmente el algoritmo de TikTok lo que ves
Por TikTok Story Viewer Editorial · · 8 min de lectura
Pocos sistemas en la informática moderna han sido más mitificados que el algoritmo For You de TikTok. La mayoría de explicaciones populares están equivocadas — sobresimplificadas hasta inutilidad, o inventadas desde cero por gurús autoproclamados. Este artículo recorre lo que se sabe de verdad, basándose en la filtración parcial de código fuente de 2022, charlas públicas de ingenieros de ByteDance, escritos judiciales del proceso de discovery del Digital Services Act de la UE y comportamiento que podemos observar directamente alimentando cuentas de prueba.
La arquitectura de dos etapas
El ranker del For You no es un único modelo. Es una cascada de dos etapas.
La primera etapa es **generación de candidatos.** De un pool de aproximadamente decenas de millones de vídeos recientes y resurgidos, el sistema selecciona unos miles de candidatos por usuario. Esta etapa es rápida, de baja precisión y corre íntegramente sobre embeddings ligeros. El objetivo no es acertar; es no perderse nada que pueda ser correcto.
La segunda etapa es **ranking.** Los miles de candidatos se puntúan con un modelo más pesado que combina cientos de features: tiempo de visualización predicho, engagement predicho, coincidencia de categoría de contenido, penalización por frescura, boost de diversidad. Las puntuaciones top se cosen en el siguiente batch de vídeos mostrados al usuario.
Esta división importa porque la mayoría de la discusión pública confunde las dos etapas. Cuando un creador dice “me han suprimido”, lo que normalmente pasó es que pasó la generación de candidatos pero falló en el ranking. Es un problema muy distinto a quedar filtrado en la etapa de candidatos, y los arreglos son distintos.
Qué features alimentan realmente al ranker
El doc interno filtrado en 2022 listaba 234 features usados en el ranker de producción de entonces. La versión de 2026 presumiblemente es mayor, pero la estructura pública no ha cambiado dramáticamente. Los features caen en cinco cubos.
**Embeddings de contenido.** Una red neuronal lee los frames visuales del vídeo, la onda de audio y el texto en pantalla, y produce un vector denso que captura “de qué va este vídeo”. Los embeddings permiten al sistema encontrar vídeos similares para usuarios nuevos sin etiquetado explícito de categoría.
**Embeddings de usuario.** Una red paralela construye un vector para cada usuario a partir de su historial completo de visualizaciones, likes, comentarios, compartidos y skips. Dos usuarios con embeddings similares tenderán a ver feeds del FYP solapados.
**Predicciones de engagement.** Por vídeo, el modelo predice la probabilidad de que este usuario lo vea completo, le dé like, comente, comparta, siga, guarde y salte. Cada predicción es un submodelo separado entrenado con cientos de millones de eventos etiquetados.
**Features de comportamiento.** Señales explícitas: hora del día, tipo de dispositivo, velocidad de red, región geográfica. Modifican cómo se interpretan las predicciones de engagement (un vídeo de 30 segundos en una conexión lenta tiene mayor probabilidad de skip por razones no de contenido).
**Diversidad y frescura.** Una capa de regularización evita que el FYP colapse en un único tema. Penaliza vídeos demasiado parecidos a lo que el usuario acaba de ver y boostea vídeos muy recientes.
El mito del “test de 500 espectadores”
La pieza de folclore algorítmico más repetida es que cada vídeo recibe un test pool fijo de 500 espectadores. Es una simplificación útil pero no es cómo funciona el sistema.
Lo que pasa de verdad es que un vídeo nuevo arranca en el pool candidato de usuarios cuyos embeddings coinciden con el embedding del vídeo. La distribución se expande o contrae según engagement temprano, pero el tamaño del “pool” depende del cluster de embedding: un vídeo dirigido a un nicho estrecho puede tener solo unos cientos de candidatos, mientras que uno que coincide con un cluster de interés amplio puede arrancar con decenas de miles.
La cifra de 500 viene del tamaño mediano del test pool para los clusters de embedding más comunes alrededor de 2020. Se volvió evangelio porque el orden de magnitud sigue siendo aproximadamente correcto, pero tratarlo como umbral duro lleva a creadores a tomar decisiones erróneas sobre por qué un vídeo concreto rindió mal.
Por qué la retención es la señal dominante
De todas las predicciones de engagement, la que más peso tiene en 2026 es **watch-through rate (WTR) predicho.** Es una decisión deliberada de producto, no un accidente del modelo. ByteDance optimiza el FYP para longitud total de sesión: cuánto tiempo se queda un usuario en la app por visita. WTR es el feature más correlacionado con longitud de sesión.
Los likes, en cambio, tienen peso muy bajo. El modelo trata el like como confirmación de una señal de visualización ya positiva. Un like sin watch fuerte es esencialmente ignorado.
Por eso los vídeos con pocos likes pueden hacerse virales en TikTok — si el watch-through es alto, el algoritmo los empuja igual. También por eso las apelaciones tipo “like para el algoritmo” son inútiles. Un like es métrica downstream, no input que el algoritmo espera.
El loop de seguir
Seguir una cuenta no es señal tan binaria como parece. El follow en sí es una señal positiva fuerte en el momento. Pero abre luego un canal de engagement por creador que el algoritmo trackea por separado.
Si sigues a un creador y nunca ves sus siguientes 10 vídeos completos, el algoritmo gradualmente demote su contenido en tu feed aunque sigas oficialmente siguiendo. A esto se le llama a veces “unfollow silencioso” y es la razón por la que los creadores se quejan a menudo de que su alcance cae aunque su contador de seguidores crezca. El contador es real; la fracción de seguidores activos es mucho menor.
Qué señales puede influir realmente un creador
Dada la arquitectura de arriba, las palancas de un creador son estrechas:
**Diseño del hook.** Influye en los primeros 1-3 segundos, que dominan la predicción de WTR.
**Consistencia temática.** Aprieta la coincidencia de embedding usuario-contenido, aumentando el tamaño del pool candidato para las personas correctas.
**Cadencia de publicación.** Afecta a cómo se acumula el boost de frescura entre múltiples vídeos. Publicar menos de una vez cada 5 días reduce la prioridad de engagement reciente.
**Comportamiento en respuestas.** Responder comentarios en la primera hora tras publicar dispara una señal de calidad que se propaga al ranking.
**Coherencia entre vídeos.** El algoritmo construye un embedding por creador a partir de sus últimos vídeos. Embeddings coherentes rankean mejor que dispersos.
Casi todo lo demás — hashtags, sonidos en tendencia, hora de publicación — es un efecto pequeño en el mejor caso.
Qué NO puede hacer el algoritmo
Dos afirmaciones persistentes son técnicamente falsas.
No puede detectar las opiniones políticas de los espectadores y segregarlos. La filtración dejó claro que existe clustering por temas políticos, pero el sistema tiene prohibido usar atributos protegidos (etnia percibida, religión, afiliación política) como inputs de ranking, y los escritos del DSA de la UE confirman que esta restricción se aplica en la capa de feature engineering.
No puede “escuchar por tu micrófono”. Esta afirmación ha sido desmentida repetidamente por monitores de red independientes. La razón por la que los anuncios a veces se sienten extrañamente relevantes es que el sistema de embeddings te modela con la suficiente precisión como para predecir intereses que no has expresado explícitamente. Es más impresionante que vigilancia ambiental, pero menos alarmante.
Reflexión final
El algoritmo de TikTok no es magia y no es una caja negra. Es un sistema de ranking bien ingenierizado que optimiza una única métrica de negocio — longitud de sesión — a través de un pequeño número de features dominantes. Gran parte del misticismo a su alrededor es efecto secundario de comunicación opaca de ByteDance, no novedad técnica real. Una vez entiendes la cascada de dos etapas y el ranker dominado por WTR, el resto del comportamiento de TikTok se vuelve predecible.