⚒️

Backend Software Engineer (Senior)

About VESSL AI

VESSL AI는 서울 강남과 미국 실리콘밸리에 오피스를 두고 있는 스타트업으로, AI 학습부터 배포까지 어떤 환경에서든 쉽고 빠르게 운영할 수 있는 end-to-end MLOps 플랫폼을 개발하고 있습니다

•

기업들이 AI 모델을 학습하고 운영하는 데 필요한 컴퓨팅 자원을 효율적으로 활용할 수 있도록 지원합니다. 이를 통해 모델의 학습, 배포, 운영이 간편해지고 신속하게 이루어지며, 비용 절감 효과도 기대할 수 있습니다. VESSL은 다양한 클라우드 및 온프레미스 환경에서 동일한 사용 경험을 제공하는 유일한 플랫폼입니다.

•

VESSL을 사용하면 Llama, Mistral, Stable Diffusion 등 최신 오픈소스 AI 모델의 학습 및 최적화 작업을 몇 분 만에 수행할 수 있습니다. 또한, 기업의 고유 데이터를 안전하게 연동하여 특화된 요구에 맞는 AI 서비스를 구축할 수 있으며, 이 모든 과정을 CI/CD 파이프라인을 통해 자동화할 수 있습니다.

General AI System, 그 새로운 도전을 향해 걸어가고 있습니다.

•

General AI System은 수백에서 수천 개에 이르는 다양한 AI 모델들이 서로 질의하고 협력하여 최적의 의사결정을 내리는 시스템입니다. VESSL AI는 지금까지 개발해온 end-to-end MLOps 플랫폼을 기반으로 General AI System을 구축하여, 인류가 더 빠르고 효율적으로 AGI(일반인공지능)에 도달할 수 있도록 기여하고자 합니다.

•

Agentic Workflow는 다양한 AI 모델(에이전트)들이 각각 독립적으로 동작하면서도 상호 협력하여 복잡한 문제를 해결하는 방식을 의미합니다. 이 방식을 효과적으로 구현하려면 수많은 AI의 학습, 배포, 모니터링을 효율적으로 관리할 수 있어야 하며, AI들 간의 지속적인 네트워킹을 원활하게 지원할 수 있는 인프라가 필요합니다. VESSL AI는 Agentic Workflow를 빠르고 안정적으로 운영할 수 있는 인프라를 구축해나가고 있습니다.

VESSL AI - MLOps for high-performance ML teams

Build, train, and deploy models faster at scale with fully managed AI infrastructure, tools, and workflows.

https://vessl.ai

About the Role

VESSL AI의 Software Engineer는 복잡한 문제를 시스템으로 해결하며 대규모 AI 인프라를 안정적으로 만들어갑니다!

Senior Backend Software Engineer는 대규모 AI 모델을 학습하고 안정적으로 서비스하기 위한 핵심 인프라를 설계하고 구현합니다. GPU/TPU/NPU 기반 가속, 멀티 노드 트레이닝/인퍼런스, 스토리지 및 네트워크 오케스트레이션 등 생성형 AI 워크로드를 효율적으로 운영할 수 있는 고성능 분산 시스템의 기반 기술 플랫폼화하는 역할을 수행합니다.

단순히 코드를 작성하는 것에 그치지 않고, 플랫폼의 성능과 확장성에 대한 기술적 방향을 제시하며 복잡한 문제 해결을 주도하는 리더로서 활약합니다. 팀 내부적으로는 아키텍처 설계부터 운영, 고객사의 대규모 모델 요구사항 해결까지 전 과정에 기여합니다. 팀 외부적으로는 고객사와 긴밀히 협력하며 대규모 모델 운영 과제를 위한 솔루션을 제시하는 기술적 파트너 역할을 수행합니다. 이러한 과정을 통해 고객의 비즈니스 성공을 지원하고, 동시에 VESSL 플랫폼의 미래를 함께 만들어갈 분을 찾습니다!

What you will do

•

Golang, Python, Kubernetes 등을 활용한 VESSL Core MLOps 백엔드 컴포넌트 설계 및 개발

•

GPU/NPU/TPU 등 accelerator 기반 워크로드 orchestration 기술 개발

•

대규모 AI 학습/추론 환경을 위한 스토리지/네트워크 최적화 및 분산 처리 기술 적용

•

클라우드 및 온프레미스 환경에서 확장 가능한 MLOps 아키텍처 구축

•

로그/메트릭 수집 및 모니터링 체계 개발로 안정적인 분산 환경 운영

•

고객사와 협력하여 모델 학습/서빙 관련 기술적 문제 진단 및 해결

•

프로젝트 리딩 및 팀원 멘토링을 통해 협업과 기술적 성장을 지원

Qualifications

•

최소 5년 이상의 소프트웨어 개발 경험

•

대규모 분산 시스템 혹은 인프라 아키텍처 경험 

•

Golang, Python 등 백엔드 언어에 대한 깊은 이해와 실무 경험

•

Docker, Kubernetes 등 컨테이너 오케스트레이션 경험

•

Spark, Slurm, Ray 등 Multi-node HPC(High Performance Computing) 워크로드 운영 경험

•

AWS, GCP, Azure 등 클라우드 환경에서의 서비스 개발·운영 경험

•

복잡한 엔지니어링 문제 해결 능력과 원활한 커뮤니케이션 역량

•

프로젝트 리드 및 협업 경험

•

B2B 소프트웨어 개발 시스템에서 고객사 기술지원, 기술문서화 등 주도적으로 운영해본 경험  

Helpful experience (not required)

•

PyTorch, TensorRT, CUDA, NCCL 등 딥러닝 분산 학습/가속 프레임워크 경험

•

VertexAI, SageMaker, Kubeflow 등 MLOps/ModelOps 플랫폼 경험

•

머신러닝 모델의 실제 서비스 적용 및 운영 경험

Joinning Process

서류전형 → Coding Test (Online) → Technical Interview → Resume/Culture Interview → CEO Interveiw 순으로 진행됩니다.

•

위 내용은 베슬에이아이코리아 경력 채용 기본 프로세스이며, 경우에 따라 절차가 가감될 수 있습니다.

◦

지원서 (경력 세부 기술) 및 포트폴리오 (또는 Git 링크)를 필수로 제출해주세요. (양식 자유) 

◦

Technical Interview는 개발 실무자가 참여하며, 라이브 코딩과 함께 구조 설계 및 구현 방식 등 기술 중심의 대화로 문제 해결 역량을 파악하는 시간으로 최대 2시간 정도 소요됩니다. 

◦

Resume/Culture Interview는 유관 경험 중심의 기술 역량 및 문화적 핏을 알아보는 시간으로 소속 매니저와 팀 멤버가 참여하며 각 1시간 정도 소요됩니다.

◦

경력직의 경우, 인터뷰 마지막 단계 이후 Reference Check를 진행하고 있습니다. 

◦

이력서 및 제출서류에 허위 사실이 발견될 경우, 합격 발표 후라도 입사가 취소될 수 있습니다.

•

근무 형태

◦

정규직 (수습 3개월)

◦

3개월의 수습 피드백 기간 후, 업무 성과 평가 결과에 따라 최종 합류 여부가 결정됩니다.

Life & Benefit

•

업무 생산성을 높여 몰입할 수 있는 환경

◦

오전 8시~11시 사이 선택하는 시차출퇴근제 운영

◦

이니셔티브 중심의 조직 목표와 Align되어 몰입하는 협업 방식 

◦

월 1회 Allhands + Team Gathering 통한 업무 공유

◦

성장에 필요한 도서 실물 구매 지원 또는 전자도서관 이용

◦

구성원 간의 1on1 비용 지원

◦

늦은 시간까지 근무 시,  야근식대/택시비 지원

•

몰입한 만큼 휴식과 생활 편의 지원

◦

개인 간식비 지원 (월 한도)

◦

장기근속자 리프레시 휴가 제공

◦

종합건강검진비 및 휴가 지원 (연 1회)

◦

입사 N주년 축하 선물 제공 

◦

명절 선물, 각종 휴가 및 경조금 지원

◦

본인 및 배우자 출산휴가비 지원

Location

서울특별시 강남구 역삼동 테헤란로5길 7, 13층

🔎 위워크 강남역 2호점 - Google Search

다른 메뉴 보러가기