Gemini TTS: voces, idiomas y guía de prompting

Publicado: 2026-06-09 · Última actualización: 2026-06-11

Gemini TTS es el motor neuronal de las voces PREMIUM de Audiobook Maker. Esta guía presenta las voces disponibles, los idiomas compatibles y cómo dirigir la lectura mediante prompts.

Opciones de voz

30 voces distintas, cada una con su propio carácter. El nombre de la voz es fijo; el descriptor resume su tono natural.

Voz	Carácter
Zephyr	Brillante
Puck	Animado
Charon	Informativo
Kore	Firme
Fenrir	Entusiasta
Leda	Juvenil
Orus	Firme
Aoede	Desenfadado
Callirrhoe	Relajado
Autonoe	Brillante
Enceladus	Susurrante
Iapetus	Claro
Umbriel	Relajado
Algieba	Suave
Despina	Suave
Erinome	Claro
Algenib	Áspero
Rasalgethi	Informativo
Laomedeia	Animado
Achernar	Tenue
Alnilam	Firme
Schedar	Equilibrado
Gacrux	Maduro
Pulcherrima	Directo
Achird	Amistoso
Zubenelgenubi	Informal
Vindemiatrix	Gentil
Sadachbia	Vivaz
Sadaltager	Experto
Sulafat	Cálido

Idiomas compatibles

Gemini TTS admite los siguientes idiomas (código BCP-47 entre paréntesis):

Arabic (ar), Filipino (fil), Bangla (bn), Finnish (fi), Dutch (nl), Galician (gl), English (en), Georgian (ka), French (fr), Greek (el), German (de), Gujarati (gu), Hindi (hi), Haitian Creole (ht), Indonesian (id), Hebrew (he), Italian (it), Hungarian (hu), Japanese (ja), Icelandic (is), Korean (ko), Javanese (jv), Marathi (mr), Kannada (kn), Polish (pl), Konkani (kok), Portuguese (pt), Romanian (ro), Russian (ru), Spanish (es), Tamil (ta), Telugu (te), Thai (th), Turkish (tr), Ukrainian (uk), Vietnamese (vi), Afrikaans (af), Albanian (sq), Amharic (am), Armenian (hy), Azerbaijani (az), Basque (eu), Belarusian (be), Bulgarian (bg), Burmese (my), Catalan (ca), Cebuano (ceb), Chinese Mandarin (cmn), Croatian (hr), Czech (cs), Danish (da), Estonian (et), Latvian (lv), Lithuanian (lt), Luxembourgish (lb), Macedonian (mk), Maithili (mai), Malagasy (mg), Malay (ms), Malayalam (ml), Mongolian (mn), Nepali (ne), Norwegian Bokmål (nb), Norwegian Nynorsk (nn), Odia (or), Pashto (ps), Persian (fa), Punjabi (pa), Serbian (sr), Sindhi (sd), Sinhala (si), Slovak (sk), Slovenian (sl), Swahili (sw), Swedish (sv), Urdu (ur).

Guía de prompting

El modelo deduce la lectura del texto automáticamente. Puedes dirigirla aún más con etiquetas en línea e indicaciones estructuradas.

Etiquetas de audio en línea

Modificadores en línea como [whispers], [laughs], [excitedly], [bored] y [shouting] cambian el tono, el ritmo y la cualidad emocional. Sé creativo y experimenta con distintas interpretaciones.

Elementos de prompting avanzado

Audio Profile — nombre y rol del personaje.
Scene — contexto ambiental que define el ambiente y el escenario.
Director’s Notes — indicaciones de interpretación: estilo, ritmo, acento.
Sample Context — anclaje contextual para una entrada natural en la interpretación.
Transcript — las palabras exactas que se pronuncian, junto con las etiquetas de audio.

Pautas clave

No es necesario describirlo todo: dar espacio al modelo suele favorecer la naturalidad. Equilibra especificidad y libertad creativa, y prefiere la terminología del sector y características matizadas a las simples etiquetas emocionales.

Cómo usar los prompts en Audiobook Maker

Audiobook Maker narra directamente el texto de los capítulos, así que las indicaciones de prompt se insertan en el propio texto, de dos formas:

Edita el archivo TXT de entrada antes de subirlo, insertando etiquetas/indicaciones directamente en el texto.
O descarga el archivo .ABM generado, edita los textos de los capítulos y vuelve a subir el .ABM modificado a Audiobook Maker.

Fuente: Google AI — Speech generation

Try Audiobook Maker Free →