Site Reliability Engineer

Toss

Toss

Software Engineering

Posted 6+ months ago
토스 Affiliation
정규직

합류하게 될 팀에 대해 알려드려요

  • 입사 후에는 Tech Platform 트라이브의 SRE 팀에서 Server Developer로 근무해요.
  • 효과적인 모니터링 시스템을 구축하고 운영하여 문제를 사전에 감지하고 빠르게 대응하고 있어요.
  • 서비스의 성장을 지원하기 위한 성능 테스트 환경을 구축하고 수행하는 과정에서 발생한 문제를 해결하고, 재발 방지를 위한 설계와 해법을 마련해요.

합류하면 함께할 업무예요

  • 시스템의 Stability, Scalability, Availability 그리고 Latency를 지속적으로 개선시켜나가요.
  • 대규모 트래픽 환경에서 빠르게 원인을 분석할 수 있도록 모니터링 시스템을 지속적으로 개선하는 작업을 해요.
  • 장애 발생시 문제를 해결하고, 재발 방지를 위한 설계와 해법을 마련해요.
  • 서비스의 성장을 지원하기 위한 성능 테스트 환경을 구축하고 수행하며 개선 포인트를 찾아내요.
  • 네트워크, 어플리케이션, 오픈소스, Kubernetes 등의 단일 장애 지점을 찾아내고 개선하는 작업을 해요
  • 다양한 오픈 소스 제품을 실험하고 도입을 검토해요.

이런 분과 함께하고 싶어요

  • Java/Kotlin, Spring Framework 관련 개발 경험과 문제해결 능력이 있는 분이면 좋아요.
  • 성능테스트를 통해 시스템의 가용성을 확인하고, 병목지점을 해결할 수 있는 분이면 좋아요.
  • 리눅스 및 네트워크 시스템에 대한 깊은 이해가 있는 분을 찾아요.
  • MSA,Kubernetes,Istio,Redis,Kafka,ELK 기반의 인프라 운영경험이 있는 분이면 좋아요.
  • Mission-Critical 한 서비스 운영 환경을 즐기며 높은 책임감으로 탄탄한 서비스를 같이 만들어 갈 수 있는 분을 찾아요.
  • 변화를 두려워 하지 않고 새로운 기술에 빠르게 적응하며 지속적인 성장을 원하는 분을 찾아요.

이력서는 이렇게 작성하시는 걸 추천해요

  • 그동안의 경험을 단순 나열하는 것이 아닌, 경험 속에서의 임팩트 및 러닝 포인트를 확인하고 싶어요.
  • 서비스의 안정성을 높이기 위해 스스로 문제를 찾아 해결해보려고 시도하신 경험이 있는지 궁금해요.
  • 운영중인 시스템을 크게 개선한 경험,또는 새로운 것을 도입해 생산성,효율성 등을 향상시킨 경험이 있는지 궁금해요.
  • Dive deep해서 문제를 분석하고 원인을 찾아서 해결한 경험이 있는지 궁금해요
  • 대규모 트래픽이나 순간 트래픽이 급증하는 환경을 고려하여 설계부터 효율성을 강조하여 개발한 경험이 있는지 궁금해요

토스에서 사용하는 기술

  • Kotlin, Java, Gradle
  • Netty, Spring Mvc, Spring Webflux, Spring Boot, Spring Cloud Gateway, Spring Cloud Config
  • JPA/Hibernate, MySQL, MongoDB, Hadoop, Redis, Memcached, Zookeeper
  • Kubernetes + Istio, Haproxy, Nginx
  • GoCD, ArgoCD, Consul, Vault, Git, Docker, Spinnaker, Jenkins, Ceph, Harbor
  • Kafka, ELK, Prometheus + Thanos, influxData, Grafana

토스로의 합류 여정

  • 서류접수 > 1차 직무 인터뷰(30분) > 2차 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사

함께할 동료를 위한 한마디

"토스에서의 SRE는 토스 서비스의 높은 신뢰성과 안정성을 지키기 위해 최전선에서 고민하고 있어요"

  • 장애가 발생하지 않도록 예방하는것과 혹여 장애가 나더라도 빠르게 복구하는 것을 목표로 하고 있어요. 이상 징후를 빠르게 감지할 수 있도록 효과적인 모니터링 시스템을 구축하기도 하고, 장애 발생 시 누구나 복구할 수 있는 시스템을 설계하기도 합니다.
  • 오픈소스 제품을 실험하고 도입도 적극적으로 검토하지만, 요건을 만족하는 적합한 오픈소스가 없거나, 운영하는 오픈 소스들의 Integration이 필요할 때는 서버/웹을 직접 구현하기도 합니다. 서비스 성장을 지원하기 위한 성능 테스트 환경을 구축하고 수행하는 것도 중요한 목표 중 하나이기 때문에, 이런 과정에 즐거움이 있는 분이라면 좋을 것 같아요.