TTS AI Research Engineer
Mindlogic
Software Engineering, Data Science
Posted on Jul 24, 2025
π¨οΈ
TTS AI Research Engineer
νμ¬ μκ°
ν¨κ» λ μ΄μΌκΈ° νκ³ μΆμ AIλ₯Ό λ§λλ μ¬λλ€, λ§μΈλλ‘μ§μ
λλ€.
[λ§μΈλλ‘μ§μ΄ λ§λ€μ΄λΈ μ±κ³Ό]
κ΅λ΄μΈ μ μμ ν¬μμλ€λ‘λΆν° λμ ν¬μ 150μ΅, ννν μ¬λ¬΄κ΅¬μ‘°
6λ
μ΄μ λ₯λ¬λ κΈ°λ° μ±λ΄ μμ© μλΉμ€ μ 곡 μ€
λ
μ°½μ μΈ νλ₯΄μλ κ·ΈλΌμ΄λ© λ° μ₯κΈ°κΈ°μ΅ κΈ°μ μ κΈ°λ°ν μΈκ³ μ΅κ³ μμ€μ νλ₯΄μλ μ±λ΄ μμ§ λ³΄μ
μμΈλνκ΅, μκ°λνκ΅, μλͺ
μ¬μλνκ΅ λ± λ€μμ λνμ AIμλΉμ€ μ 곡 μ€
ν¬λΈμ€ μ μ νκ΅μΈμ΄ μ¬λν λͺ¨λ°μΌμ± 17μ, μμ
λΆλ¬Έ 6μ λ¬μ±
κ΅¬κΈ μ΄μμ€ν΄νΈ νΈλν½ κΈλ‘λ² Top 5 λ¬μ±
ν¬μ§μ μ 보
μ§λ¬΄: TTS AI Research Engineer
κ³ μ© νν: μ κ·μ§
ν©λ₯ μ¬μ
μλ₯μ ν
μμ νμμ μ΄λ ₯μ / ν¬νΈν΄λ¦¬μ€, PDFνμ μ μΆ
TTS κ΄λ ¨ νλ‘μ νΈ λ° μ°κ΅¬ κ²½ν μμΈ κΈ°μ νμ
recruit@mindlogic.ai μ μ΄λ©μΌλ‘ μ μΆ
μΈν°λ·°μ ν
1οΈβ£ μ¨λΌμΈ κΈ°μ μΈν°λ·° (ν¬νΈν΄λ¦¬μ€ λ°ν ν¬ν¨)
2οΈβ£ λλ©΄ Tech & Culture Fit μΈν°λ·°
μ£Όμμ 무
π― νμ¬ ν΄κ²°ν΄μΌ ν ν΅μ¬ κ³Όμ
μμ°μ€λ¬μ΄ μΈν λ€μ΄μ
κ°μ : νλ₯΄μλλ³ λ§ν¬μ μ΅μμ μ νν μ¬ννλ TTS λͺ¨λΈ κ°λ°
κ°μ νν κ³ λν: μμμ리, νμ¨, κ°νμ¬ λ± μμ°μ€λ¬μ΄ κ°μ ννμ΄ κ°λ₯ν TTS ꡬν
첫 ν ν° μ§μ° μ΅μν: μ€μκ° λνλ₯Ό μν ultra-low latency TTS μμ€ν
ꡬμΆ
π ν΅μ¬ μ°κ΅¬κ°λ° μμ
Realtime Conversational Voice Cloning: λν μν©μ μ΅μ νλ μ€μκ° μμ± λ³΅μ κΈ°μ κ°λ°
νλ₯΄μλ κΈ°λ° Expressive TTS: μΊλ¦ν°λ³ κ³ μ ν μμ± μ€νμΌκ³Ό κ°μ μ λ°μν κ°μΈν μμ±ν©μ± μμ§
Neural Audio Codec μ΅μ ν
TTS λ°μ΄ν° νμ΄νλΌμΈ: μμ± λ°μ΄ν° μ μ²λ¦¬, μ μ , μ¦κ°μ ν΅ν λͺ¨λΈ μ±λ₯ ν₯μ
μ격μ건
μ»΄ν¨ν° 곡ν, μ κΈ°μ μ곡ν, λλ κ΄λ ¨ λΆμΌ μμ¬ μ΄μ λλ μ΄μ μ€νλ μ€λ¬΄ κ²½ν 보μ
TTS/μμ±ν©μ± μ°κ΅¬κ°λ° κ²½ν 3λ
μ΄μ
PyTorch, TensorFlow λ± λ₯λ¬λ νλ μμν¬μ λν κΉμ μ΄ν΄μ νμ© κ²½ν
μ΅μ λ₯λ¬λ κΈ°λ° TTS μκ³ λ¦¬μ¦ (FastSpeech, VITS, XTTS λ±) ꡬν λ° μ»€μ€ν°λ§μ΄μ§ κ²½ν
μμ±μ νΈμ²λ¦¬ κΈ°μ΄ μ§μ: FFT, STFT, Mel-spectrogram, MFCC λ±μ μ΄ν΄μ νμ©
TTS λͺ¨λΈ νμ΅ νμ΄νλΌμΈ κ΅¬μΆ κ²½ν: λ°μ΄ν° μ μ²λ¦¬, νμ΅, μΆλ‘ λ° νλ μ λ°
Python λ° κ΄λ ¨ μ€λμ€ μ²λ¦¬ λΌμ΄λΈλ¬λ¦¬ (librosa, torchaudio λ±) μλ ¨λ
μμ΄ κΈ°μ λ¬Έμ μ΄ν΄ λ° μμ± κ°λ₯ν μμ€μ μΈμ΄ λ₯λ ₯
μ°λμ¬ν
μ€μκ° λνν TTS ꡬν κ²½ν (νΉν 첫 ν ν° μ§μ° μ΅μν)
Emotional & Expressive TTS: μμ, νμ¨, κ°νμ¬ λ± μμ°μ€λ¬μ΄ κ°μ νν ꡬν κ²½ν
Voice Cloning λ° Conversational TTS κ°λ° κ²½ν
μμ±ν©μ± κ΄λ ¨ κ΅μ νν λ
Όλ¬Έ λ°ν: Interspeech, ICASSP, NeurIPS, ICLR λ±
μ΅μ TTS λͺ¨λΈ μ€ν κ²½ν: VITS, XTTS, NeuralSpeech, SpeechT5, Bark, CSM λ±
Neural Vocoder μ΅μ ν: WaveNet, WaveGlow, HiFi-GAN, BigVGAN λ± μ€μκ° μΈνΌλ°μ€ ꡬν κ²½ν
Neural Audio Codec λͺ¨λΈ μ€ν λ° μ΅μ ν κ²½ν: SNAC, Soundstream, encodec λ±
μμ±ν(Phonetics) λλ μΈμ΄ν λ°°κ²½μ§μ (μΈν λ€μ΄μ
ν¨ν΄ μ΄ν΄)
TTS μμ© μλΉμ€ μ μ© λ° μ΄μ κ²½ν (API μλ² κ΅¬μΆ, λ°°ν¬ λ±)
MLOps λ° λͺ¨λΈ μλΉ κ²½ν (Docker, Kubernetes, ν΄λΌμ°λ μλΉμ€)
κΈ°μ μ€ν
νλ‘κ·Έλλ° μΈμ΄: Python, TypeScript/JavaScript
λ₯λ¬λ νλ μμν¬: PyTorch, TensorFlow, Hugging Face Transformers
λ°μ΄ν°λ² μ΄μ€: PostgreSQL, Redis
ν΄λΌμ°λ μλΉμ€: AWS
컨ν
μ΄λ μ€μΌμ€νΈλ μ΄μ
: Docker
CI/CD: GitHub Actions
λ²μ κ΄λ¦¬: Git
νμ
λꡬ: Slack, Jira, Notion
AI λꡬ: ChatGPT, Claude, Cursor
근무νκ²½ λ° λ³΅μ§
μ£Ό 5μΌ κ·Όλ¬΄
μμ¨ μμ°¨ μΆν΄κ·Ό (μ°μ
κΈ°λ₯μμ/μ λ¬Έμ°κ΅¬μμμ λ³λ¬΄μ²μμ νκ°νλ μ μ°κ·Όλ¬΄μ )
κ°λ¨κ΅¬ μ μ λ¦μ λ보 1λΆ λ―Έλ§ κ±°λ¦¬μ λ¨λ
μ€νΌμ€
μ΅μ μ
λ¬΄μ© κ°μΈ λ§₯λΆ μ 곡 (λ§₯λΆM4)
κ³ μ±λ₯ GPU μλ² μ§μ (μμ± λͺ¨λΈ νμ΅μ©)
ChatGPT Pro or Claude / Cursor ꡬλ
μ§μ
λλ£λ€μ μμΌ μΆν & μ λ¬Ό
κ·Έλ£Ή μ‘ν°λΉν° μν¬νΈ
μμ¨λ³΅μ₯
μ§μμ μ°Έκ³ μ¬ν
μ§μμ λ΄μ©, λλ μ ν μ§ν μ€ νμ μ¬μ€μ΄ μλ κ²½μ° μ ν μ§νμ΄ μ·¨μλ μ μμ΅λλ€
μ·¨μ
보νΈλμμλ κ΄λ ¨ λ²κ·μ μκ±°νμ¬ μ°λν©λλ€
μ°λ½μ²: recruit@mindlogic.ai
μ§μ λ§κ°: μμ μ±μ© (μ°μ μΈμ¬ μ±μ© μ μ‘°κΈ° λ§κ° κ°λ₯)