Cybersecuritybedrijf CrowdStrike gaf woensdag aan dat een probleem in zijn validatiesysteem ervoor zorgde dat miljoenen Windows-apparaten vastliepen als onderdeel van een grootschalige storing eind vorige week.
“Op vrijdag 19 juli 2024 om 04:09 UTC heeft CrowdStrike als onderdeel van de reguliere werkzaamheden een update van de inhoudsconfiguratie voor de Windows-sensor uitgebracht om telemetrie te verzamelen over mogelijke nieuwe bedreigingstechnieken”, aldus het bedrijf in zijn Preliminary Post Incident Review (PIR).
“Deze updates zijn een vast onderdeel van de dynamische beschermingsmechanismen van het Falcon-platform. De problematische Rapid Response Content-configuratie-update resulteerde in een Windows-systeemcrash.”
Het incident had invloed op Windows-hosts met sensorversie 7.11 en hoger die online waren tussen 19 juli 2024, 04:09 UTC en 05:27 UTC en de update ontvingen. Apple macOS- en Linux-systemen werden niet getroffen.
CrowdStrike zegt dat het op twee manieren updates van de configuratie van beveiligingsinhoud levert: via Sensor Content dat bij Falcon Sensor wordt geleverd en via Rapid Response Content waarmee het nieuwe bedreigingen kan markeren met behulp van verschillende technieken voor gedragspatroonherkenning.
De crash zou het gevolg zijn van een Rapid Response Content-update met een eerder niet-gedetecteerde fout. Het is vermeldenswaard dat dergelijke updates worden geleverd in de vorm van Template Instances die overeenkomen met specifieke gedragingen – die worden toegewezen aan specifieke Template Types – om nieuwe telemetrie en detectie mogelijk te maken.
De Template Instances worden op hun beurt gemaakt met behulp van een Content Configuration System, waarna ze via de cloud worden geïmplementeerd op de sensor via een mechanisme genaamd Channel Files, die uiteindelijk naar schijf op de Windows-machine worden geschreven. Het systeem omvat ook een Content Validator-component die validatiecontroles uitvoert op de content voordat deze wordt gepubliceerd.
“Rapid Response Content biedt zichtbaarheid en detectie op de sensor zonder dat er wijzigingen in de sensorcode nodig zijn”, aldus het rapport.
“Deze mogelijkheid wordt gebruikt door threat detection engineers om telemetrie te verzamelen, indicatoren van vijandelijk gedrag te identificeren en detecties en preventies uit te voeren. Rapid Response Content is gedragsheuristiek, apart en onderscheidend van CrowdStrike’s on-sensor AI-preventie- en detectiemogelijkheden.”
Deze updates worden vervolgens verwerkt door de Content Interpreter van de Falcon-sensor, die vervolgens de Sensor Detection Engine in staat stelt schadelijke activiteiten te detecteren of te voorkomen.
Hoewel elk nieuw sjabloontype wordt getest op verschillende parameters, zoals resourcegebruik en prestatie-impact, kan de hoofdoorzaak van het probleem volgens CrowdStrike worden herleid tot de uitrol van het sjabloontype Interprocess Communication (IPC) op 28 februari 2024, dat werd geïntroduceerd om aanvallen met naamgevingspipes te markeren.
De tijdlijn van de gebeurtenissen is als volgt:
- 28 februari 2024 – CrowdStrike brengt sensor 7.11 uit voor klanten met nieuw IPC-sjabloontype
- 5 maart 2024 – Het IPC-sjabloontype slaagt voor de stresstest en is gevalideerd voor gebruik
- 5 maart 2024 – De IPC Template Instance wordt vrijgegeven voor productie via Channel File 291
- 8 – 24 april 2024 – Er zijn nog drie IPC-sjablooninstanties in productie genomen
- 19 juli 2024 – Er worden twee extra IPC-sjablooninstanties geïmplementeerd, waarvan er één de validatie doorstaat ondanks problematische inhoudsgegevens
“Op basis van de tests die zijn uitgevoerd vóór de eerste implementatie van het Template Type (op 5 maart 2024), het vertrouwen in de controles die zijn uitgevoerd in de Content Validator en eerdere succesvolle implementaties van IPC Template Instances, zijn deze instanties in productie genomen”, aldus CrowdStrike.
“Toen problematische content in Channel File 291 door de sensor werd ontvangen en in de Content Interpreter werd geladen, resulteerde dit in een out-of-bounds geheugenlezing die een uitzondering veroorzaakte. Deze onverwachte uitzondering kon niet netjes worden afgehandeld, wat resulteerde in een Windows-besturingssysteemcrash (BSoD).”
Als reactie op de ingrijpende verstoringen die de crash veroorzaakte en om te voorkomen dat ze opnieuw zouden gebeuren, zei het in Texas gevestigde bedrijf dat het zijn testprocessen heeft verbeterd en zijn foutverwerkingsmechanisme in de Content Interpreter heeft verbeterd. Het is ook van plan om een gefaseerde implementatiestrategie voor Rapid Response Content te implementeren.