Ir al contenido principal

Clonación de voz con RVC: Guía completa de entrenamiento e inferencia

Guía completa de clonación de voz con RVC — entrenamiento de modelos, inferencia, configuración, calidad de audio, consideraciones legales y éticas y alternativas.

Clonación de voz con RVC: Guía completa de entrenamiento e inferencia

Respuesta rápida

RVC (Retrieval-Based Voice Conversion) es una herramienta de código abierto que convierte una voz de entrada en otra voz entrenada. Requiere un conjunto de datos de audio de la voz objetivo (generalmente 10–30 minutos), una GPU para entrenamiento y el software RVC. El resultado es un modelo que puede transformar cualquier voz hablada o cantada para sonar como la voz objetivo.

¿Qué es RVC y por qué lo utilizan los productores?

RVC (Conversión de voz basada en recuperación) es un marco de inteligencia artificial de código abierto lanzado en 2023[1] que convierte el habla de una voz a otra con alta fidelidad. A diferencia de las herramientas de conversión de texto a voz que generan voz desde cero, RVC toma una interpretación vocal existente y la vuelve a representar con el timbre de una voz objetivo entrenada, preservando el fraseo, la emoción y el tiempo originales.

Para los productores, esa distinción es de enorme importancia. Si usted mismo graba una melodía de referencia y la ejecuta a través de un modelo RVC de una voz entrenada, el audio resultante hereda la dinámica de su interpretación mientras suena como el hablante objetivo. Eso hace que RVC sea útil para: coros y armonías de IA en su propio modelo de voz, crear portadas de demostración para presentarlas a los artistas, generar voces principales de marcador de posición para los ritmos de los clientes y diseño de sonido experimental en el que se combinan o transforman timbres.

La tecnología que sustenta RVC se basa en tres etapas: un HuBERT codificador de contenido que elimina la identidad del hablante del audio y extrae características fonéticas, un índice vectorial FAISS que recupera las unidades de voz más cercanas del conjunto de datos de voz de destino, y un codificador de voz HiFi-GAN que sintetiza el resultado final. forma de onda.[1] El tono se rastrea por separado utilizando el algoritmo RMVPE, que la WebUI oficial recomienda sobre extractores más antiguos basados en Crepe para una mayor precisión y un menor uso de recursos.[2]

La clonación de voces se encuentra en una frontera legal activa. La ley federal de derechos de autor en Estados Unidos protege las grabaciones de sonido fijas, pero no protege las cualidades abstractas de una voz: un tribunal no puede impedir que alguien imite un estilo de voz únicamente bajo el derecho de autor. Sin embargo, las leyes de derecho de publicidad operan de forma independiente y protegen a las personas de la explotación comercial no autorizada de su voz y semejanza.[3]

La Ley ELVIS de Tennessee (Garantizar la seguridad de la imagen y la voz de la imagen), promulgada el 21 de marzo de 2024 y vigente desde el 1 de julio de 2024, es la primera ley estatal que protege explícitamente a las personas contra la replicación de voz no autorizada por IA. [4] Se aplica más allá del uso comercial, lo que significa que la creación de un clon de voz no autorizado, incluso para fines no comerciales, puede desencadenar acciones civiles y penales. responsabilidad según la ley de Tennessee.[5] Muchos otros estados (California, Nueva York, Texas, Illinois) han fortalecido o están fortaleciendo estatutos similares sobre deepfake y derecho de publicidad.[6]

En litigio activo, el caso Lehrman & Sage v. Lovo, Inc. demostró que entrenar un modelo de IA en las grabaciones de un actor de voz sin autorización puede sustentar demandas bajo la ley de derecho de publicidad, incumplimiento de contrato y derechos de autor, y el tribunal sostuvo que cada clip sintético generado a partir de un modelo no autorizado puede constituir una violación continua.[7]

  • Clona tu propia voz Totalmente seguro: usted es dueño de su voz y puede concederse cualquier uso. Este es el camino más práctico para los productores que crean un modelo vocal personalizado.
  • Clonar un colaborador que consienta Legal cuando tiene un consentimiento claro, documentado y por escrito que especifica cómo se utilizará el modelo, en qué contextos y durante cuánto tiempo.[6]
  • Clonar una figura pública o un artista discográfico Alto riesgo legal. Incluso si sus grabaciones están disponibles comercialmente, utilizarlas para entrenar un modelo y distribuir resultados genera derechos de publicidad y posibles reclamaciones de derechos de autor. Obtenga una licencia o no realice envíos.
  • Portadas de IA para publicación pública Lanzar comercialmente una portada de IA que imita la voz de un artista real sin autorización es el caso de uso de mayor riesgo y es objeto de litigios en curso y eliminaciones basadas en la DMCA.
  • Demostraciones internas y experimentación privada. Menor riesgo cuando se mantiene en privado, pero la ley de derecho de publicidad en algunos estados no requiere el uso comercial para asumir responsabilidad. En caso de duda, utilice su propia voz.

Herramientas RVC: cuál usar

El ecosistema RVC tiene varias UI y bifurcaciones basadas en el mismo algoritmo central. La siguiente tabla cubre las opciones mantenidas activamente a partir de 2026: no utilice proyectos archivados como So-VITS-SVC para nuevos trabajos, ya que no recibió actualizaciones de seguridad después de que el equipo original lo archivó.

ToolMejor para¿En tiempo real?PlataformaEstado
RVC WebUI (oficial)Entrenamiento de modelos personalizados, inferencia por lotesNoventanas/linuxActivo[8]
AplicaciónFlujo de trabajo local o Colab apto para principiantesSí (pestaña Tiempo real)Ganar/Linux/MacEstable, solo parches de seguridad[9]
RVC definitivoAvanzado: tono FCPE, autoajuste, TTSNoGanar/UbuntuActivo[10]
Cambiador de voz W-OkadaTransmisión en vivo, rendimiento en tiempo realYesWin / Mac / LinuxCódigo abierto, comunidad activa
So-VITS-SVCConversión de canto heredadoNoganar/linuxArchivado: no utilizar para nuevos proyectos

Applio es el punto de partida recomendado para la mayoría de los productores. Incluye RVC en una interfaz de usuario limpia del navegador Gradio, incluye Voice Blender para fusionar dos modelos, una pestaña de conversión en tiempo real, compatibilidad con TTS e integra una biblioteca de más de 20 000 modelos de voz comunitarios previamente entrenados a través de su API.[11] Su rama estable actual es v3.6.2.[9]

La WebUI oficial de RVC de RVC-Project tiene más de 35 000 estrellas de GitHub y es la implementación de referencia canónica.[8] Es compatible con NVIDIA CUDA, GPU AMD a través de DirectML (Windows) o ROCm (Linux) e Intel ARC a través de IPEX.[2]

Qué hardware necesita realmente

El ecosistema RVC es más accesible que la mayoría de las herramientas de aprendizaje automático, pero existen niveles de hardware reales que afectan su flujo de trabajo.

  • Solo inferencia (usando modelos existentes) Una CPU moderna y cualquier GPU de gama media funcionarán. La WebUI oficial señala que la arquitectura se ejecuta incluso en tarjetas gráficas modestas para realizar inferencias.[2] Applio confirma: "la mayoría de las computadoras modernas funcionarán bien" para inferencias.[11]
  • Entrenando un modelo personalizado localmente Applio recomienda una GPU NVIDIA RTX serie 20 o posterior para la capacitación local.[11] El tamaño de lote de 6 a 8 es apropiado para una tarjeta VRAM de 8 GB.
  • Entrenamiento sin GPU - Google Colab Applio y Ultimate RVC ofrecen portátiles Colab listos para usar que se ejecutan en las GPU en la nube gratuitas de Google. Esta es la ruta recomendada si no posee una tarjeta NVIDIA calificada. El nivel gratuito de Colab es suficiente para conjuntos de datos de menos de 30 minutos.[12]
  • Conversión en tiempo real La WebUI oficial alcanza una latencia de aproximadamente 170 ms en condiciones estándar y alrededor de 90 ms con hardware de audio ASIO.[2] El uso en tiempo real exige una GPU capaz.

Entrenamiento de un modelo de voz: flujo de trabajo paso a paso

Ya sea que utilice Applio o la WebUI oficial, el proceso de capacitación sigue las mismas etapas. Todos los pasos siguientes se basan en la documentación de formación de Applio.[13]

  1. Reúna y limpie su conjunto de datos de audio
    Graba o genera 10–30 minutos de audio mono limpio en tu voz objetivo. Apunte a cero ruido de fondo, cero reverberación y sin música debajo. Solo formatos sin pérdida (WAV o FLAC).[13] Cuanta más variedad acústica haya en la entrega (diferentes tonos, intensidades, vocales), más robusto será el modelo. La calidad aquí determina directamente la calidad de la producción; este paso no se puede compensar más adelante.
  2. Dividir y preprocesar
    Utilice el Dataset Creator integrado de Applio o una herramienta independiente como UVR5 (incluida en la WebUI[2] oficial) para eliminar cualquier base musical y aislar la voz. Divida el audio en segmentos, luego ejecute el paso Preprocesamiento en la interfaz de usuario: establezca su frecuencia de muestreo objetivo (32k, 40k o 48k).[13]
  3. Extraer características
    Seleccione su algoritmo de extracción de tono. RMVPE es la opción recomendada: la WebUI oficial señala que proporciona mejores resultados y un procesamiento más rápido con un menor uso de recursos que los métodos más antiguos basados ​​en Crepe.[2] El extractor de funciones también crea el índice FAISS a partir de su conjunto de datos en esta etapa.
  4. Entrenar el modelo
    Establezca épocas en 200–400 como punto de partida.[13] Habilite Guardar cada época (cada 10 a 50 épocas) para que pueda comparar puntos de control y retroceder si el modelo se sobreentrena. Supervise las curvas de pérdida en TensorBoard: deténgase cuando la pérdida de validación se estabilice, no cuando se agoten las épocas. El sobreentrenamiento es un error común: el modelo memoriza artefactos en lugar de generalizar la voz.
  5. Exportar y generar el índice FAISS
    Cuando se complete el entrenamiento, exporte los pesos del modelo (archivo .pth) y genere el archivo de índice de recuperación FAISS adjunto. Ambos archivos son necesarios para una inferencia de alta calidad: el índice es lo que hace que RVC parezca una conversión basada en recuperación en lugar de un mapa estadístico sin formato.
  6. Ejecutar inferencia y evaluar
    Cargue el modelo en la pestaña Inferencia. Grabe una voz de prueba (su propia voz, en un tono y tempo neutros). Ajuste el control deslizante de cambio de tono para tener en cuenta la diferencia de registro entre la voz de origen y de destino. Pruebe varios algoritmos de extracción de tono en la salida y compare. Un modelo bien entrenado con datos limpios debería producir conversión inteligible y de sonido natural; espere imperfecciones en la sibilancia y notas extremadamente altas en la primera pasada.

Casos de uso de productores: para qué sirve realmente RVC

Las fortalezas y debilidades de RVC determinan las tareas de producción a las que se adapta. Conocer ambos de antemano ahorra frustración.

Tu propio modelo de voz

Entrenar un modelo con su propia voz es la aplicación más limpia desde el punto de vista legal y más útil en la práctica. Una vez entrenado, podrás: grabar una idea melódica aproximada en una sola toma y convertirla en una versión más limpia de tu voz; generar armonías convirtiendo la misma toma con un cambio de tono; producir coros consistentes sin volver a grabar múltiples pases; y mantenga las sesiones vocales privadas y completamente fuera de línea.

Coros y armonías

Introduzca una voz principal compuesta en RVC utilizando su propio modelo de voz entrenado, cambie el tono de la entrada antes de la conversión para armonías y luego exporte cada línea de armonía. Este flujo de trabajo evita las inconsistencias tonales de grabar cinco tomas separadas en registros diferentes. Funciona mejor cuando la voz fuente está seca y con un micrófono cercano: las señales húmedas o con mucha reverberación confunden al extractor de tono.

Portadas de IA y bocetos de demostración (uso privado)

Los productores a veces usan portadas de IA como bocetos de referencia cuando le presentan un arreglo a un artista: usted demuestra cómo una melodía se ubica en el ritmo convirtiéndola a través de una aproximación del estilo vocal del artista objetivo. Manténgalos estrictamente internos, nunca los suba a streaming o YouTube, y trátelos como archivos de trabajo internos de la misma manera que manejaría una muestra no autorizada.

Expectativas de calidad y realismo

En un conjunto de datos de más de 20 minutos de audio limpio de alta calidad, RVC puede producir resultados de conversión que son convincentes a una distancia de escucha, es decir, en una mezcla con otros elementos, las uniones no son obvias. De cerca o en solitario, los oyentes entrenados notarán artefactos tonales, particularmente en pasajes rápidos y registros extremos. RVC no reemplaza una interpretación vocal en vivo en un contexto de lanzamiento comercial; Es una herramienta creativa y de creación rápida de prototipos.

Obtener la mejor calidad de salida

Las decisiones técnicas en cada etapa tienen un efecto compuesto en el resultado final. Las siguientes prácticas tienen el mayor impacto:

  • La calidad del audio de origen es el techo RVC no puede crear información que no estuviera en los datos de entrenamiento. El audio de entrenamiento ruidoso, reverberante o comprimido produce una salida ruidosa y reverberante. Grabe en un espacio tranquilo y tratado y utilice una cadena de preamplificador limpia: el modelo hereda todos los artefactos del conjunto de datos.
  • El algoritmo de extracción de tono es importante Utilice RMVPE para cantar y contenido melódico. Maneja vibrato y notas sostenidas de manera más limpia que los algoritmos más antiguos. [2] Vale la pena probar FCPE (disponible en Ultimate RVC) en conversiones de voz intensa.
  • Ajuste de la relación de índice La relación de índice FAISS (a menudo denominada Relación de recuperación de características en la interfaz de usuario) controla la fuerza con la que el modelo extrae sus datos de entrenamiento en comparación con el modelo base. Los valores más altos aumentan la fidelidad de la voz objetivo, pero pueden introducir artefactos en el conjunto de datos. Comience entre 0,5 y 0,75 y afine de oído.
  • Postprocesamiento en tu DAW La salida RVC casi siempre se beneficia de la de-essing, el filtrado de paso alto por debajo de 80 Hz y una saturación suave para agregar presencia. Trátelo como cualquier otra raíz vocal: necesita una cadena. Consulte cómo mezclar voces para obtener un tutorial completo de la cadena vocal.
  • Voice Blender de Applio para personajes Voice Blender en Applio te permite interpolar entre dos modelos entrenados, creando una voz híbrida. Esto es útil para crear un personaje de coro personalizado que se sienta diferente al líder, incluso cuando ambos se basan en sus propias grabaciones de voz.

Mapa de decisiones de inicio rápido

Por dónde empezar depende de su hardware y su objetivo:

tu situacionRuta recomendada
No hay GPU calificada; quiero probar RVC ahoraEjecute Applio en Google Colab: nivel gratuito, sin configuración local[12]
NVIDIA RTX serie 20 o posterior, quiere control totalInstale Applio localmente, entrene con sus propios datos de voz[13]
Quiere probar la inferencia solo con modelos existentesUtilice cualquier computadora moderna: la inferencia de Applio no depende de la GPU[11]
Necesita conversión en tiempo real en una transmisión en vivo o DAWPestaña Applio Realtime o W-Okada Voice Changer con una GPU dedicada
Usuario avanzado que desea extracción de tono de vanguardiaRVC definitivo con extractor de tono FCPE en Linux o Windows[10]

Explora herramientas de producción musical con IA y recursos en la biblioteca de Plugg Supply.

Ver descargas gratuitas

Ruta de aprendizaje

Hubs de respuestas relacionados

Related catalog

More software from the catalog

More software from the Plugg Supply feed, ranked by catalog popularity.

Browse Software

Preguntas frecuentes

Is voice cloning with RVC legal?
It depends entirely on whose voice you clone. Cloning your own voice is legal. Cloning another person's voice without their explicit written consent carries legal risk under right-of-publicity law in most U.S. states — and under Tennessee's ELVIS Act, even non-commercial unauthorized voice replication can trigger civil and criminal liability.<sup><a href="https://en.wikipedia.org/wiki/ELVIS_Act" target="_blank" rel="noopener">[4]</a></sup> Get written consent that specifies use case, territory, and duration before training on anyone else's voice.
Can I clone my own voice with RVC?
Yes — and this is the recommended use case. Record 10–30 minutes of clean, dry audio in a quiet space<sup><a href="https://docs.applio.org/getting-started/training/" target="_blank" rel="noopener">[13]</a></sup>, train a model on Applio or the official RVC WebUI, and you have a reusable voice model you legally own. Producers use own-voice models for backing vocals, harmonies, and demo sketches.
Do I need a GPU to use RVC?
For inference (using an existing trained model), a modern CPU is sufficient — most computers can run it. For training your own model, an NVIDIA RTX 20-series GPU or newer is recommended for local training.<sup><a href="https://docs.applio.org/" target="_blank" rel="noopener">[11]</a></sup> Without one, use Google Colab — both Applio and Ultimate RVC provide free cloud notebooks that run on Google's GPU infrastructure.
How much audio do I need to train an RVC voice model?
The official RVC WebUI states that training is feasible with as little as 10 minutes of clean audio.<sup><a href="https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/en/README.en.md" target="_blank" rel="noopener">[2]</a></sup> Applio's training guide recommends 10–30 minutes for a quality result.<sup><a href="https://docs.applio.org/getting-started/training/" target="_blank" rel="noopener">[13]</a></sup> Audio must be low-noise, dry (no reverb), and free of background music.
What is the difference between RVC WebUI and Applio?
The official RVC WebUI from RVC-Project is the canonical implementation — it exposes the full technical parameter set and supports the widest range of GPU types.<sup><a href="https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI" target="_blank" rel="noopener">[8]</a></sup> Applio is a fork built on RVC technology that adds a cleaner UI, real-time conversion, Voice Blender, TTS support, and access to a large community model library.<sup><a href="https://docs.applio.org/" target="_blank" rel="noopener">[11]</a></sup> For most producers starting out, Applio is the better first choice.
Can I release music commercially using an RVC-generated voice?
If the voice model is trained on your own voice, yes — you own the output and can release it commercially. If the model is trained on another person's voice, you need that person's documented consent covering commercial release, and you may still need to clear underlying rights. Releasing an AI cover that imitates a real recording artist's voice without authorization is the highest-risk scenario and is the subject of active litigation and platform takedowns.<sup><a href="https://btlj.org/2025/06/from-training-data-to-ai-covers-the-legal-challenges-of-voice-cloning/" target="_blank" rel="noopener">[3]</a></sup>
How does RVC compare to ElevenLabs or other cloud voice cloning services?
RVC is a local, open-source, speech-to-speech converter — it needs an existing audio performance to convert, not text. ElevenLabs and similar services are primarily text-to-speech and handle the synthesis end-to-end in the cloud. RVC gives more control over the source performance and runs entirely offline with no subscription cost, but requires more technical setup and a GPU for training.