TTS AI Research Engineer
Mindlogic
Software Engineering, Data Science
Posted on Jul 24, 2025
๐จ๏ธ
TTS AI Research Engineer
ํ์ฌ ์๊ฐ
ํจ๊ป ๋ ์ด์ผ๊ธฐ ํ๊ณ ์ถ์ AI๋ฅผ ๋ง๋๋ ์ฌ๋๋ค, ๋ง์ธ๋๋ก์ง์
๋๋ค.
[๋ง์ธ๋๋ก์ง์ด ๋ง๋ค์ด๋ธ ์ฑ๊ณผ]
๊ตญ๋ด์ธ ์ ์์ ํฌ์์๋ค๋ก๋ถํฐ ๋์ ํฌ์ 150์ต, ํํํ ์ฌ๋ฌด๊ตฌ์กฐ
6๋
์ด์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ฑ๋ด ์์ฉ ์๋น์ค ์ ๊ณต ์ค
๋
์ฐฝ์ ์ธ ํ๋ฅด์๋ ๊ทธ๋ผ์ด๋ฉ ๋ฐ ์ฅ๊ธฐ๊ธฐ์ต ๊ธฐ์ ์ ๊ธฐ๋ฐํ ์ธ๊ณ ์ต๊ณ ์์ค์ ํ๋ฅด์๋ ์ฑ๋ด ์์ง ๋ณด์
์์ธ๋ํ๊ต, ์๊ฐ๋ํ๊ต, ์๋ช
์ฌ์๋ํ๊ต ๋ฑ ๋ค์์ ๋ํ์ AI์๋น์ค ์ ๊ณต ์ค
ํฌ๋ธ์ค ์ ์ ํ๊ตญ์ธ์ด ์ฌ๋ํ ๋ชจ๋ฐ์ผ์ฑ 17์, ์์
๋ถ๋ฌธ 6์ ๋ฌ์ฑ
๊ตฌ๊ธ ์ด์์คํดํธ ํธ๋ํฝ ๊ธ๋ก๋ฒ Top 5 ๋ฌ์ฑ
ํฌ์ง์ ์ ๋ณด
์ง๋ฌด: TTS AI Research Engineer
๊ณ ์ฉ ํํ: ์ ๊ท์ง
ํฉ๋ฅ ์ฌ์
์๋ฅ์ ํ
์์ ํ์์ ์ด๋ ฅ์ / ํฌํธํด๋ฆฌ์ค, PDFํ์ ์ ์ถ
TTS ๊ด๋ จ ํ๋ก์ ํธ ๋ฐ ์ฐ๊ตฌ ๊ฒฝํ ์์ธ ๊ธฐ์ ํ์
recruit@mindlogic.ai ์ ์ด๋ฉ์ผ๋ก ์ ์ถ
์ธํฐ๋ทฐ์ ํ
1๏ธโฃ ์จ๋ผ์ธ ๊ธฐ์ ์ธํฐ๋ทฐ (ํฌํธํด๋ฆฌ์ค ๋ฐํ ํฌํจ)
2๏ธโฃ ๋๋ฉด Tech & Culture Fit ์ธํฐ๋ทฐ
์ฃผ์์ ๋ฌด
๐ฏ ํ์ฌ ํด๊ฒฐํด์ผ ํ ํต์ฌ ๊ณผ์
์์ฐ์ค๋ฌ์ด ์ธํ ๋ค์ด์
๊ฐ์ : ํ๋ฅด์๋๋ณ ๋งํฌ์ ์ต์์ ์ ํํ ์ฌํํ๋ TTS ๋ชจ๋ธ ๊ฐ๋ฐ
๊ฐ์ ํํ ๊ณ ๋ํ: ์์์๋ฆฌ, ํ์จ, ๊ฐํ์ฌ ๋ฑ ์์ฐ์ค๋ฌ์ด ๊ฐ์ ํํ์ด ๊ฐ๋ฅํ TTS ๊ตฌํ
์ฒซ ํ ํฐ ์ง์ฐ ์ต์ํ: ์ค์๊ฐ ๋ํ๋ฅผ ์ํ ultra-low latency TTS ์์คํ
๊ตฌ์ถ
๐ ํต์ฌ ์ฐ๊ตฌ๊ฐ๋ฐ ์์ญ
Realtime Conversational Voice Cloning: ๋ํ ์ํฉ์ ์ต์ ํ๋ ์ค์๊ฐ ์์ฑ ๋ณต์ ๊ธฐ์ ๊ฐ๋ฐ
ํ๋ฅด์๋ ๊ธฐ๋ฐ Expressive TTS: ์บ๋ฆญํฐ๋ณ ๊ณ ์ ํ ์์ฑ ์คํ์ผ๊ณผ ๊ฐ์ ์ ๋ฐ์ํ ๊ฐ์ธํ ์์ฑํฉ์ฑ ์์ง
Neural Audio Codec ์ต์ ํ
TTS ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ: ์์ฑ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ์ ์ , ์ฆ๊ฐ์ ํตํ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์
์๊ฒฉ์๊ฑด
์ปดํจํฐ ๊ณตํ, ์ ๊ธฐ์ ์๊ณตํ, ๋๋ ๊ด๋ จ ๋ถ์ผ ์์ฌ ์ด์ ๋๋ ์ด์ ์คํ๋ ์ค๋ฌด ๊ฒฝํ ๋ณด์
TTS/์์ฑํฉ์ฑ ์ฐ๊ตฌ๊ฐ๋ฐ ๊ฒฝํ 3๋
์ด์
PyTorch, TensorFlow ๋ฑ ๋ฅ๋ฌ๋ ํ๋ ์์ํฌ์ ๋ํ ๊น์ ์ดํด์ ํ์ฉ ๊ฒฝํ
์ต์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ TTS ์๊ณ ๋ฆฌ์ฆ (FastSpeech, VITS, XTTS ๋ฑ) ๊ตฌํ ๋ฐ ์ปค์คํฐ๋ง์ด์ง ๊ฒฝํ
์์ฑ์ ํธ์ฒ๋ฆฌ ๊ธฐ์ด ์ง์: FFT, STFT, Mel-spectrogram, MFCC ๋ฑ์ ์ดํด์ ํ์ฉ
TTS ๋ชจ๋ธ ํ์ต ํ์ดํ๋ผ์ธ ๊ตฌ์ถ ๊ฒฝํ: ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ํ์ต, ์ถ๋ก ๋ฐ ํ๋ ์ ๋ฐ
Python ๋ฐ ๊ด๋ จ ์ค๋์ค ์ฒ๋ฆฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ (librosa, torchaudio ๋ฑ) ์๋ จ๋
์์ด ๊ธฐ์ ๋ฌธ์ ์ดํด ๋ฐ ์์ฑ ๊ฐ๋ฅํ ์์ค์ ์ธ์ด ๋ฅ๋ ฅ
์ฐ๋์ฌํญ
์ค์๊ฐ ๋ํํ TTS ๊ตฌํ ๊ฒฝํ (ํนํ ์ฒซ ํ ํฐ ์ง์ฐ ์ต์ํ)
Emotional & Expressive TTS: ์์, ํ์จ, ๊ฐํ์ฌ ๋ฑ ์์ฐ์ค๋ฌ์ด ๊ฐ์ ํํ ๊ตฌํ ๊ฒฝํ
Voice Cloning ๋ฐ Conversational TTS ๊ฐ๋ฐ ๊ฒฝํ
์์ฑํฉ์ฑ ๊ด๋ จ ๊ตญ์ ํํ ๋
ผ๋ฌธ ๋ฐํ: Interspeech, ICASSP, NeurIPS, ICLR ๋ฑ
์ต์ TTS ๋ชจ๋ธ ์คํ ๊ฒฝํ: VITS, XTTS, NeuralSpeech, SpeechT5, Bark, CSM ๋ฑ
Neural Vocoder ์ต์ ํ: WaveNet, WaveGlow, HiFi-GAN, BigVGAN ๋ฑ ์ค์๊ฐ ์ธํผ๋ฐ์ค ๊ตฌํ ๊ฒฝํ
Neural Audio Codec ๋ชจ๋ธ ์คํ ๋ฐ ์ต์ ํ ๊ฒฝํ: SNAC, Soundstream, encodec ๋ฑ
์์ฑํ(Phonetics) ๋๋ ์ธ์ดํ ๋ฐฐ๊ฒฝ์ง์ (์ธํ ๋ค์ด์
ํจํด ์ดํด)
TTS ์์ฉ ์๋น์ค ์ ์ฉ ๋ฐ ์ด์ ๊ฒฝํ (API ์๋ฒ ๊ตฌ์ถ, ๋ฐฐํฌ ๋ฑ)
MLOps ๋ฐ ๋ชจ๋ธ ์๋น ๊ฒฝํ (Docker, Kubernetes, ํด๋ผ์ฐ๋ ์๋น์ค)
๊ธฐ์ ์คํ
ํ๋ก๊ทธ๋๋ฐ ์ธ์ด: Python, TypeScript/JavaScript
๋ฅ๋ฌ๋ ํ๋ ์์ํฌ: PyTorch, TensorFlow, Hugging Face Transformers
๋ฐ์ดํฐ๋ฒ ์ด์ค: PostgreSQL, Redis
ํด๋ผ์ฐ๋ ์๋น์ค: AWS
์ปจํ
์ด๋ ์ค์ผ์คํธ๋ ์ด์
: Docker
CI/CD: GitHub Actions
๋ฒ์ ๊ด๋ฆฌ: Git
ํ์
๋๊ตฌ: Slack, Jira, Notion
AI ๋๊ตฌ: ChatGPT, Claude, Cursor
๊ทผ๋ฌดํ๊ฒฝ ๋ฐ ๋ณต์ง
์ฃผ 5์ผ ๊ทผ๋ฌด
์์จ ์์ฐจ ์ถํด๊ทผ (์ฐ์
๊ธฐ๋ฅ์์/์ ๋ฌธ์ฐ๊ตฌ์์์ ๋ณ๋ฌด์ฒญ์์ ํ๊ฐํ๋ ์ ์ฐ๊ทผ๋ฌด์ )
๊ฐ๋จ๊ตฌ ์ ์ ๋ฆ์ญ ๋๋ณด 1๋ถ ๋ฏธ๋ง ๊ฑฐ๋ฆฌ์ ๋จ๋
์คํผ์ค
์ต์ ์
๋ฌด์ฉ ๊ฐ์ธ ๋งฅ๋ถ ์ ๊ณต (๋งฅ๋ถM4)
๊ณ ์ฑ๋ฅ GPU ์๋ฒ ์ง์ (์์ฑ ๋ชจ๋ธ ํ์ต์ฉ)
ChatGPT Pro or Claude / Cursor ๊ตฌ๋
์ง์
๋๋ฃ๋ค์ ์์ผ ์ถํ & ์ ๋ฌผ
๊ทธ๋ฃน ์กํฐ๋นํฐ ์ํฌํธ
์์จ๋ณต์ฅ
์ง์์ ์ฐธ๊ณ ์ฌํญ
์ง์์ ๋ด์ฉ, ๋๋ ์ ํ ์งํ ์ค ํ์ ์ฌ์ค์ด ์๋ ๊ฒฝ์ฐ ์ ํ ์งํ์ด ์ทจ์๋ ์ ์์ต๋๋ค
์ทจ์
๋ณดํธ๋์์๋ ๊ด๋ จ ๋ฒ๊ท์ ์๊ฑฐํ์ฌ ์ฐ๋ํฉ๋๋ค
์ฐ๋ฝ์ฒ: recruit@mindlogic.ai
์ง์ ๋ง๊ฐ: ์์ ์ฑ์ฉ (์ฐ์ ์ธ์ฌ ์ฑ์ฉ ์ ์กฐ๊ธฐ ๋ง๊ฐ ๊ฐ๋ฅ)