Associate Principal, Site Reliability Engineering

The OCC

Hybrid Actively hiring

Dallas, TX Posted 85 days ago $122,100–$198,300 / year

View original post Log in to save

At a glance

AI generated

TL;DR

Join our dynamic Site Reliability Engineering team as a Senior SRE where you will support the availability and performance of OCC’s next-generation Ovation platform, enhancing system reliability through automation. Your day-to-day responsibilities include collaborating with development and operations teams to resolve implementation issues, developing incident response automation, creating runbooks for service outages, assessing production readiness, and defining operational metrics. You’ll also architect shared services to improve organizational reliability and mentor junior team members. Required skills encompass experience with large-scale distributed systems, public cloud environments like AWS, AIOps tools such as Splunk or Prometheus, scripting in languages like Python or Go, container orchestration with Kubernetes, CI/CD pipelines, and familiarity with Chaos Engineering practices. This role demands a strong analytical problem-solving approach and the ability to thrive in a fast-paced environment while effectively communicating across technical and non-technical teams.

Skills

AWS Kubernetes Prometheus Grafana Python Java Bash Go Docker CI/CD Jenkins Splunk AppDynamics Datadog StackDriver Sysdig RabbitMQ ActiveMQ Travis Harness Gremlin ChaosMonkey

What you'll do

Develop automation for incident response and prevent problem recurrence.
Create and enhance runbooks for service outages or degradations.
Define and track operational metrics for production performance and reliability.
Architect and maintain shared services to improve organizational reliability.
Mentor junior members and prepare sprint backlog stories.

What we're looking for

Experience with maintaining and troubleshooting large-scale distributed systems.
Proficiency in managing infrastructure in public cloud environments (AWS, Azure, GCP).
Expertise in AIOps and predictive analysis using monitoring tools like Splunk or Prometheus.
Strong programming skills in languages such as Java, Python, Bash, or Go.
Experience with container orchestration systems like Kubernetes and continuous integration/delivery tools.
Familiarity with leveraging large language models to automate SRE workflows.
Minimum 4+ years of experience in Site Reliability Engineering/DevOps.

Market check

Salary context

This $122,100–$198,300 range sits above 38% of similar postings on FindRole.

Peer median band

$132,000–$220,100

Median floor and ceiling across peers.

Typical midpoint (25–75%)

$142,450–$215,000

Middle half of comparable postings.

Based on 239 comparable postings.

* 240 is the maximum number of comparable postings sampled.

Employer

About The OCC

The OCC (Options Clearing Corporation) is the world''s largest equity derivatives clearing organization, acting as issuer and guarantor for options and futures contracts to promote stability and market integrity. Industry: Financial Clearing & Derivatives

The OCC currently has 25 open roles on FindRole.

Listed pay typically runs $136,200–$217,100 across 25 roles with salary data.

Most-posted roles

View all roles at The OCC

Similar roles

Principal Site Reliability Engineer

The Walt Disney Company

Remote (Usa - Fl - Disney'S Hollywood Studios - Feature Animation Building, US) 49 days ago

AWS Azure GCP Terraform CloudFormation Ansible Chef CI/CD Docker Kubernetes Prometheus Grafana Python Linux Windows AI LLM PCI DevOps SRE SLI SLO SLA

Remote

Principal Site Reliability Engineer

The Walt Disney Company

Remote (Usa - Fl - Disney'S Hollywood Studios - Feature Animation Building, US) 42 days ago

Akamai Kona Site Defender WAF Bot Manager DevOps CI/CD Python Go Docker Terraform AWS Azure Google Cloud PostgreSQL MongoDB Redis Prometheus Grafana Kubernetes Ansible Jenkins GitLab GitHub

Remote

Sr Principal Site Reliability Engineer

The Walt Disney Company

Remote (Usa - Ca - Market St, US) 52 days ago $250,500–$335,900

Kubernetes AWS CI/CD Docker Prometheus Grafana Python PostgreSQL Terraform Ansible GitOps CDN integration media streaming technologies content delivery strategies

Remote

Director, Site Reliability Engineering

McDonald’s Corporation

Chicago, Illinois, US 28 days ago $178,121–$222,651

AWS Azure GCP Site Reliability Engineering Agile Methodologies CI/CD Vendor Management Cloud Infrastructure PaaS IaaS Data Analytics Financial Forecasting Chargeback Management Global Vendor Relationships High-Performance Team Building

Senior Manager, Site Reliability Engineering

Oracle

Reston, Virginia, US 20 days ago

Kubernetes Docker CI/CD AWS Terraform Python PostgreSQL Prometheus Grafana Ansible Git Jenkins Linux DevOps Nginx SSL/TLS RESTful APIs JSON YAML Scalability

Staff Site Reliability Engineer

TransUnion

Chicago - 555 West Adams St, US 35 days ago $112,500–$187,500

GCP Kubernetes CI/CD Prometheus Grafana PostgreSQL MySQL Redis Terraform Python Bash Go VPC DNS Load Balancing Firewall Rules VPN Private Service Connect LLM Orchestration Vector Databases Model Serving Infrastructure AI Observability