Bij het verzamelen van informatie voor het beantwoorden van Woo-verzoeken is detecteren van duplicaten een belangrijk onderdeel om veel dubbel werk te besparen. Het blijkt dat de informatie die verzameld wordt bij het afhandelen van grotere Woo-verzoeken tussen de 40%-60% duplicaten bevat, met name als er veel communicatie informatie wordt opgevraagd die in bronnen zit zoals e-mail. Er zijn zelfs uitschieters waarbij van de verzamelde informatie maar liefst 68% een duplicaat is. Belangrijk dus om duplicaten goed te herkennen zodat er geen extra tijd en middelen wordt besteed aan de verwerking en beoordeling hiervan.
Het is belangrijk om een onderscheid te maken tussen exacte duplicaten en bijna-exacte duplicaten. Met een exact duplicaat bedoelen wij een document dat precies hetzelfde is als een ander document van hetzelfde bestandstype. Bijvoorbeeld twee Microsoft Word documenten met dezelfde inhoud maar een andere bestandsnaam.
Een bijna-exact duplicaat is een document waarbij de inhoud bijna gelijk is aan de inhoud van een ander document, dit zijn bijvoorbeeld verschillende versies van hetzelfde document met kleine veranderingen, of hetzelfde document maar dan als PDF en als Microsoft Word document.
Om duplicaten te herkennen met de computer heb je verschillende methodes die gebruikt worden. Voor exacte duplicaten wordt in het algemeen gebruik gemaakt van een hash berekening van een document of bestand. Een hash berekenen over een document of bestand is het uitvoeren van een algoritme om een unieke digitale vingerafdruk oftewel hashcode te maken. Deze hashcode wordt vastgelegd als een reeks van tekens en deze is uniek. Er zijn verschillende typen hashcodes zoals MD5, SHA-1 en SHA-256. Een voorbeeld van een MD5 hashcode van een bestand is d41d8cd98f00b204e9800998ecf8427e. MD5 is misschien wel de bekendste hashcode maar deze wordt inmiddels als onveilig beschouwd (net als SHA-1) en veelal wordt nu of SHA-256 of SHA-512 toegepast. Indien de hashcodes van verschillende documenten of bestanden gelijk zijn, dan zijn de documenten of bestanden ook identiek aan elkaar.
Voor e-mail worden ook hashcodes gebruikt, maar in tegenstelling tot bestandsformaten zoals PDF en Microsoft Word wordt er geen hashcode berekend over het bestand zelf, maar wordt een berekening gedaan over de tekstuele inhoud van de e-mail en de eigenschappen van een e-mail. Typische e-mail bestanden zijn bijvoorbeeld documenten met een EML of MSG extensie. Voor het berekenen van een hashcode van een e-mail wordt dan gekeken naar de tekst in de e-mail, het onderwerp, de afzender, de ontvangers, de verzenddatum en de bijlages. Dezelfde e-mail die is verzonden naar 2 verschillende personen en door hen als bestand wordt opgeslagen is nl. niet exact hetzelfde bestand, vandaar dat de hashcode niet wordt berekend over het e-mail bestand zelf zoals bij exacte duplicaten, maar over de inhoud en de eigenschappen van de e-mail.
Voor het herkennen van bijna-exacte duplicaten zijn er ook verschillende methodes beschikbaar. Zonder al te veel op de techniek in te gaan zijn er methodes die gebruik maken van hash methodes waarbij vergelijkingen worden gemaakt tussen documenten en onderdelen van documenten. Daar komt dan een score uit, een bekende methode is Simhash. Daarnaast wordt ook gebruik van Shingling, waarbij verschillende tekenreeksen binnen documenten met elkaar worden vergeleken. Beide technieken zijn kostbaar qua rekentijd. Alternatief is het gebruik van een “Inverted Index” waarbij bepaalde karakteristieken van een document worden gebruikt om bijna-exacte documenten te vinden.
Belangrijk bij het afhandelen van Woo-verzoeken is de snelheid waarmee een verzoek kan worden afgehandeld. Het herkennen en beoordelen van duplicaten kost extra tijd en is daardoor niet efficiënt. Door van te voren duplicaten uit de “te beoordelen” set van documenten te laten, wordt onnodig extra werk voorkomen.
Extra uitdaging hierbij is het herkennen van duplicaten die als “los document” zijn toegevoegd en duplicaten die als “e-mail bijlage” zijn toegevoegd. Het zijn duplicaten maar in een andere vorm, belangrijk om dit te signaleren en de juiste beslissing hierop te nemen.
Uiteraard is een registratie van duplicaten van belang voor de juridische verantwoording hiervan maar ook om te weten wie welke informatie had op welk tijdstip.
Informatie over duplicaten kan ook worden gebruikt om de hoeveelheid opslag te verminderen, veel back-up en andere opslag systemen maken gebruik van de hash codes om slechts één uniek exemplaar van een bestand of document vast te leggen.
Indien documenten een extra bewerking nodig hebben voordat deze geschikt zijn om te beoordelen en te doorzoeken zoals bijvoorbeeld tekst herkenning op niet-doorzoekbare PDF documenten is het efficiënt om dit proces niet dubbel uit te voeren voor identieke documenten. Het resultaat van het eerst verwerkte document kan direct worden gebruikt voor duplicaten, waardoor extra kostbare verwerkingstijd wordt voorkomen.
Hashcodes kunnen ook worden gebruikt voor het detecteren van reeds bekende documenten en bestanden. Indien er bestanden zijn die geen waarde hebben voor het afhandelen van een Woo-verzoek zoals systeembestanden of plaatjes dan kunnen deze direct al uit de data set worden gefilterd. Zo heeft het National Institute of Standards and Technology een lijst met hashcodes van alle bekende bestanden (Microsoft Windows programma bestanden ed.) gepubliceerd, de National Software Reference Library. Met deze lijst kan je vervolgens alle reeds bekende bestanden uit je data set halen en zo voorkomen dat deze terechtkomen in je data set die je wilt beoordelen.