Site Reliability Engineer
| Work mode | REMOTE |
|---|---|
| Location | Budapest, Budapest |
| Compensation | None |
| Contact | Anna Hoffmann |
| Contact Email | anna.hoffmann@today-experts.com |
| Contact Phone | +36705558250 |
| Start date | Jan. 19, 2026 |
| English Proficiency | B2/Advanced |
| Hungarian Proficiency | C1-C2/Native |
Feladatok:
- Kubernetes‑alapú platform üzemeltetése
- Klaszterek és node‑ok napi szintű kezelése (upgrade, patch, node cordon/drain, skálázás)
- Perzisztens tárolás (pl. CSI/Longhorn jellegű megoldás) üzemeltetése, alapszintű kapacitás‑tervezés.
- Megbízhatóság és SLO‑k támogatása
- Részvétel SLI/SLO‑k kialakításában és monitorozásában.
- Error budgetek követése, incidensek és trendek visszacsatolása a csapat felé.
- Observability és incident management
- Monitoring és loggyűjtő rendszerek használata és alap konfigurálása (dashboardok, riasztások).
- Részvétel on‑call rotációban: riasztások elsődleges kezelése, incidensek elhárítása runbookok alapján.
- Automatizáció és runbookok
- Deployment és konfiguráció automatizálásának támogatása (CI/CD, Git‑alapú folyamatok).
- Runbookok, üzemeltetési leírások készítése és karbantartása.
- Több szervezeti egység közötti együttműködés
- Napi munka során együttműködés mind a fejlesztői, mind az üzemeltetési és üzleti szereplőkkel.
- Javaslatok megfogalmazása a folyamatok és a platform megbízhatóságának javítására.
Követelmények:
- Legalább 2–3 év tapasztalat Linux alapú rendszerek üzemeltetésében.
- Gyakorlati tapasztalat konténerizált környezet (Docker) és Kubernetes használatában, lehetőleg éles környezetben.
- Tapasztalat valamelyik monitoring/logging stackkel (pl. Prometheus/Grafana, ELK, Zabbix, stb.).
- Alapszintű tapasztalat CI/CD rendszerekkel és Git alapú munkafolyamatokkal (Gitea, ArgoCD).
- Cloud Native alkalmazás stack (linunx, ubuntu, containerd, docker, k8s, prometheus/grafana stack, ELK stack, zabbix,mq (rabbit), minio, postgre) üzemeltetési szintű ismerete
- Készen áll részt venni on call rotációban, strukturált hibakeresési gondolkodással.
- Jó kommunikációs készség, együttműködés több csapat és szervezeti egység között.
Előnyt jelent:
- Tapasztalat perzisztens tárolási megoldásokkal (pl. Longhorn, Ceph, más CSI).
- .NET alapú alkalmazások üzemeltetésének vagy diagnosztikájának ismerete.
- ITSM folyamatok (incident, change, problem) ismerete.
Munkavégzés helye, onsite arány:
- a pozíció full remote