Gemini TTS: voces, idiomas y guía de prompting
·
Gemini TTS es el motor neuronal de las voces PREMIUM de Audiobook Maker. Esta guía presenta las voces disponibles, los idiomas compatibles y cómo dirigir la lectura mediante prompts.
Opciones de voz
30 voces distintas, cada una con su propio carácter. El nombre de la voz es fijo; el descriptor resume su tono natural.
| Voz | Carácter |
|---|---|
| Zephyr | Brillante |
| Puck | Animado |
| Charon | Informativo |
| Kore | Firme |
| Fenrir | Entusiasta |
| Leda | Juvenil |
| Orus | Firme |
| Aoede | Desenfadado |
| Callirrhoe | Relajado |
| Autonoe | Brillante |
| Enceladus | Susurrante |
| Iapetus | Claro |
| Umbriel | Relajado |
| Algieba | Suave |
| Despina | Suave |
| Erinome | Claro |
| Algenib | Áspero |
| Rasalgethi | Informativo |
| Laomedeia | Animado |
| Achernar | Tenue |
| Alnilam | Firme |
| Schedar | Equilibrado |
| Gacrux | Maduro |
| Pulcherrima | Directo |
| Achird | Amistoso |
| Zubenelgenubi | Informal |
| Vindemiatrix | Gentil |
| Sadachbia | Vivaz |
| Sadaltager | Experto |
| Sulafat | Cálido |
Idiomas compatibles
Gemini TTS admite los siguientes idiomas (código BCP-47 entre paréntesis):
Arabic (ar), Filipino (fil), Bangla (bn), Finnish (fi), Dutch (nl), Galician (gl), English (en), Georgian (ka), French (fr), Greek (el), German (de), Gujarati (gu), Hindi (hi), Haitian Creole (ht), Indonesian (id), Hebrew (he), Italian (it), Hungarian (hu), Japanese (ja), Icelandic (is), Korean (ko), Javanese (jv), Marathi (mr), Kannada (kn), Polish (pl), Konkani (kok), Portuguese (pt), Romanian (ro), Russian (ru), Spanish (es), Tamil (ta), Telugu (te), Thai (th), Turkish (tr), Ukrainian (uk), Vietnamese (vi), Afrikaans (af), Albanian (sq), Amharic (am), Armenian (hy), Azerbaijani (az), Basque (eu), Belarusian (be), Bulgarian (bg), Burmese (my), Catalan (ca), Cebuano (ceb), Chinese Mandarin (cmn), Croatian (hr), Czech (cs), Danish (da), Estonian (et), Latvian (lv), Lithuanian (lt), Luxembourgish (lb), Macedonian (mk), Maithili (mai), Malagasy (mg), Malay (ms), Malayalam (ml), Mongolian (mn), Nepali (ne), Norwegian Bokmål (nb), Norwegian Nynorsk (nn), Odia (or), Pashto (ps), Persian (fa), Punjabi (pa), Serbian (sr), Sindhi (sd), Sinhala (si), Slovak (sk), Slovenian (sl), Swahili (sw), Swedish (sv), Urdu (ur).
Guía de prompting
El modelo deduce la lectura del texto automáticamente. Puedes dirigirla aún más con etiquetas en línea e indicaciones estructuradas.
Etiquetas de audio en línea
Modificadores en línea como [whispers], [laughs], [excitedly], [bored] y [shouting] cambian el tono, el ritmo y la cualidad emocional. Sé creativo y experimenta con distintas interpretaciones.
Elementos de prompting avanzado
- Audio Profile — nombre y rol del personaje.
- Scene — contexto ambiental que define el ambiente y el escenario.
- Director’s Notes — indicaciones de interpretación: estilo, ritmo, acento.
- Sample Context — anclaje contextual para una entrada natural en la interpretación.
- Transcript — las palabras exactas que se pronuncian, junto con las etiquetas de audio.
Pautas clave
No es necesario describirlo todo: dar espacio al modelo suele favorecer la naturalidad. Equilibra especificidad y libertad creativa, y prefiere la terminología del sector y características matizadas a las simples etiquetas emocionales.
Cómo usar los prompts en Audiobook Maker
Audiobook Maker narra directamente el texto de los capítulos, así que las indicaciones de prompt se insertan en el propio texto, de dos formas:
- Edita el archivo TXT de entrada antes de subirlo, insertando etiquetas/indicaciones directamente en el texto.
- O descarga el archivo .ABM generado, edita los textos de los capítulos y vuelve a subir el .ABM modificado a Audiobook Maker.
Fuente: Google AI — Speech generation
Try Audiobook Maker Free →