In de klassieke forensische wetenschap is reproduceerbaarheid een hoeksteen: een andere expert die dezelfde methode toepast op hetzelfde bewijs moet tot dezelfde conclusies komen. In de digitale forensiek wordt dit principe dikwijls onderschat — terwijl het in juridische procedures juist doorslaggevend kan zijn.

Als een deskundige een analyse niet kan reproduceren omdat de tool in de tussentijd is geüpdatet, de inputdata niet is bewaard, of de analyseparameters niet zijn gedocumenteerd, dan is de bewijswaarde van die analyse aanvechtbaar. Dit artikel legt uit welke technische en procedurele maatregelen nodig zijn om een reproduceerbare forensische analyse te borgen.


Wat reproduceerbaarheid precies inhoudt

Reproduceerbaarheid in digitale forensiek betekent dat dezelfde inputdata, met dezelfde methode, door een andere analyst dezelfde output moet opleveren. Elk van die drie elementen moet zijn geborgd: de inputdata moet onveranderlijk zijn vastgelegd en hashgeborgd, de methode moet volledig zijn gedocumenteerd inclusief toolversie en parameters, en de output moet onveranderlijk zijn bewaard zodat vergelijking achteraf mogelijk is.

Dit is een stap verder dan herhaalbaarheid, waarbij dezelfde analyst dezelfde analyse opnieuw uitvoert. En het is iets anders dan objectiviteit, wat gaat over de kwaliteit van het oordeel. Reproduceerbaar zijn is een noodzakelijke maar niet voldoende voorwaarde voor forensisch valide bewijsmateriaal.

In de praktijk loopt het op vier manieren mis: de toolversie is niet gedocumenteerd of is tussentijds bijgewerkt, de inputdata is niet integriteitsgeborgd met een hash, de analyseparameters zijn niet vastgelegd, of de output is na afronding van de analyse overschreven of aangepast.


Hashing: de technische basis

Een cryptografische hashfunctie berekent een vaste reeks bytes als functie van de inputdata. Elke wijziging aan de inputdata — hoe klein ook — resulteert in een volledig andere hash. Daarmee is de hash een wiskundig integriteitsbewijs.

Het forensische hash-protocol is gezet. Hash de te onderzoeken data vóór elke analyseactiviteit, gebruik minimaal SHA-256 (MD5 is cryptografisch gecompromitteerd en niet acceptabel als enige integriteitscheck), verificeer de hash na acquisitie en vóór elke analyse-iteratie. Documenteer de hash inclusief het gebruikte algoritme, de timestamp van hashing in UTC en de identiteit van de analyst.

Een goed hash-protocol ziet er zo uit: het dossier of apparaat is geïdentificeerd, de SHA-256 hash is berekend, de naam van de analyst en de datum en tijd in UTC zijn genoteerd samen met de tool en de toolversie, en een tweede analyst heeft de hash geverifieerd op een ander moment. Als één van deze elementen ontbreekt, is er een gat in de chain of custody dat aangevochten kan worden.

Voor fysiek in beslag genomen media geldt aanvullend een formele chain of custody: wie heeft de media aangeraakt, wanneer, onder welke omstandigheden, en was de hash bij elke overdracht gelijk.


Determinisme: toolversies en configuratiebeheer

Een analyse is alleen reproduceerbaar als de analyseketen deterministisch is — dezelfde invoer plus dezelfde tool plus dezelfde parameters geeft altijd dezelfde uitvoer. In de praktijk zijn er drie bronnen van non-determinisme die systematisch worden onderschat.

Forensische tools worden regelmatig bijgewerkt. Cellebrite UFED, Oxygen Forensic Detective, Autopsy en Volatility brengen periodiek updates uit die de extractie- of analyseresultaten kunnen wijzigen, soms zonder dat dit expliciet in de releasenotes staat. Een analyse uitgevoerd met versie 7.3 is bij een herbeoordeling niet per definitie vergelijkbaar met dezelfde analyse in versie 7.5. De maatregel is simpel maar wordt zelden consequent toegepast: documenteer de exacte toolversie inclusief buildnummer per analyse, en overweeg voor hoogprioritaire zaken een gefixeerde analyseomgeving in de vorm van een virtual machine snapshot.

AI- en machine learning-gebaseerde tools vormen een speciale categorie. Tools met stochastische elementen — foto-herkenning, documenten analyseren met een taalmodel — produceren niet noodzakelijk dezelfde output bij dezelfde input. Als zulke tools worden gebruikt, documenteer dan het model en de versie, de temperatuurinstelling en de random seed. Noteer expliciet in het rapport dat de output probabilistisch is en geen deterministisch extractieresultaat.

Configuratieparameters zijn de derde bron. Dezelfde tool met andere tijdzone-instelling, andere keyword-set of andere filterconfiguratie produceert andere resultaten. Exporteer en archiveer de volledige configuratieset als een onveranderlijk artefact per analyse.


Immutable logging en timestamping

Een audittrail dat retroactief aangepast kan worden heeft geen forensische waarde. Immutable logging vereist dat logs worden weggeschreven naar opslag die na schrijven niet kan worden gewijzigd — WORM-opslag, een append-only log of een externe log-dienst. Logintegriteit wordt periodiek geverifieerd, bij voorkeur via Merkle-tree verankering of een vergelijkbaar mechanisme. De tijdstempel van elke logentry is gekoppeld aan een betrouwbare tijdbron: NTP voor normale operationele logging, een RFC 3161 timestamp authority voor situaties waarbij hogere bewijsvereisten gelden.

Per analyse-activiteit moet het audittrail de identiteit en rol van de analyst vastleggen, de tool en de versie, de inputdata met identificatie en hash, de gebruikte parameters, en de start- en eindtijd in UTC. Voeg daar de cryptografische hash van de output aan toe, dan is de keten van inputdata naar output volledig aantoonbaar.


De reproduceerbarheids-checklist

Gebruik de volgende vragen om te beoordelen of een analyse door een derde kan worden gereproduceerd. Elk “nee” is een argument dat een tegenpartij kan aanvoeren om de bewijswaarde te betwisten.

Is de inputdata onveranderlijk bewaard via write-blocked acquisitie of een functioneel equivalent? Is de SHA-256 hash van de inputdata vóór de analyse berekend en gedocumenteerd? Is de exacte toolversie inclusief buildnummer vastgelegd? Zijn alle analyseparameters — tijdzone, keyword-sets, filters — gedocumenteerd? Is de output onveranderlijk gearchiveerd? Is de SHA-256 hash van de output opgeslagen? Is het volledige audittrail gekoppeld aan een betrouwbare tijdbron? Kan een tweede analyst dezelfde analyse uitvoeren met uitsluitend de gedocumenteerde informatie en daartoe is de analyseomgeving, inclusief OS-versie en bibliotheekversies, vastgelegd waar relevant?


Standpunt

Forensische reproduceerbaarheid is voor mij geen technisch niche-onderwerp. Het is de kern van wat betrouwbaar digitaal bewijs onderscheidt van een interpretatie die niet kan worden getoetst.

In strafzaken staan belangen op het spel die zwaarder wegen dan bijna elk ander domein: vrijheid, reputatie, toekomst. Als een forensische analyse de basis vormt voor een veroordeling, dan heeft de verdediging het fundamentele recht om die analyse te laten toetsen door een onafhankelijke expert. Dat recht is waardeloos als de analyseomgeving niet is gedocumenteerd, de inputdata niet is bewaard of de toolversie niet is geregistreerd.

Ik ben dit onderwerp gaan onderzoeken toen ik merkte hoe vaak forensische rapporten in strafdossiers elementaire reproduceerbarheidsgegevens missen. Geen hash van de acquisitie. Geen versienummer van de tool. Analyseparameters die impliciet zijn maar nergens expliciet zijn gemaakt. En dat terwijl de rapportages zelf er professioneel uitzien, vol met screenshots en grafische tijdlijnen.

CyberSecurity AD is gebouwd rondom het principe dat elke analyse die wij leveren reproduceerbaar moet zijn. Inputdata wordt hashgeborgd vóór analyse. Elke analyseactiviteit wordt gelogd in een audittrail dat niet kan worden gewijzigd. Toolversies zijn gefixeerd per analyserun en worden meegeleverd in de rapportdocumentatie. Dat is niet wat wij doen voor compliance. Het is de reden waarom onze analyses de toets van een tegenexpert kunnen doorstaan.

Als ik advocaten adviseer over digitale forensieke rapporten in hun dossiers, begin ik altijd met de eenvoudigste vraag: staat er een hash in het rapport? De vervolgvragen volgen vanzelf. En het antwoord op die eerste vraag zegt al veel over de kwaliteit van de rest.