Le ﬁligranage du code source

Correspondances approchées et obfuscation

Si les clones exacts sont les plus aisés à mettre en évidence, dans la pratique des opérations d’édition sont généralement réalisées entre plusieurs exemplaires de clones. Ces éditions inter- viennent aussi bien dans un cadre de copie légitime aﬁn d’adapter le code copié à son nouveau contexte que dans un cadre de copie illégitime où les modiﬁcations sont potentiellement plus importantes aﬁn de limiter l’eﬃcacité d’outils de détection de similarité. Nous nous intéressons ici principalement aux modiﬁcations liées à une volonté d’obfuscation. Nous présentons les opérations de modiﬁcation de code source les plus fréquentes accompagnées de quelques idées et pistes pouvant les contrecarrer. Un tableau récapitulatif de ces diﬀérentes opérations et leurs caractéristiques principales est présenté en ﬁgure 4.3 ; des exemples de code obfusqué sont réunis en ﬁgure 4.4 en ﬁn de chapitre.Obfuscation et… obfuscation Il existe deux types principaux de processus obfuscatoire selon l’objectif recherché. Le premier consiste à introduire des transformations dans le code source aﬁn de rendre celui-ci inintelligible pour un humain : il s’agit de rendre les opérations de rétro-ingénierie plus diﬃciles. Ce type d’obfuscation peut également aller de pair avec une volonté d’optimiser le code. Il peut se caractériser notamment par la suppression des commentaires, le renommage de variables en noms non signiﬁants, un usage spéciﬁque d’opérations de préprocesseur (pour les langages en disposant) ou le développement de fonctions ou structures de contrôle permettant une optimisation [107, 109, 113]. La détection d’une telle obfuscation est triviale pour un juge humain ; à première vue l’utilisation de certaines métriques [111] pourrait permettre une détection automatisée. Le second type d’obfuscation, auquel nous nous intéressons, concerne le camouﬂage d’une opération de copie illégitime de code. L’objectif est alors non pas de rendre le code inintelligible, mais de limiter l’eﬃcacité d’une recherche de similitudes par un humain ou un outil automatisé.

Filigranage de code

Le ﬁligranage du code (en anglais watermarking) est un procédé de modiﬁcation du code source aﬁn d’y introduire des marqueurs témoignant de l’origine de celui- ci. Le ﬁligranage permet ainsi de retrouver un morceau de code copié suﬃsamment signiﬁcatif sans avoir à disposer d’une base de codes de référence. Un procédé de ﬁligranage idéal devrait permettre la reconnaissance de ces marqueurs malgré des opérations d’obfuscation ultérieure sur le code ne dénaturant pas sa sémantique, avec la connaissance publique de l’algorithme de ﬁligranage et un couple clé privé/clé publique permettant respectivement d’ajouter le ﬁligra- nage et de vériﬁer son existence. De nombreux travaux ont été réalisés pour le ﬁligranage de ﬁchiers multimédias [126, 133]. Cependant ces ﬁchiers sont ﬁnalement destinés à une interpré- tation humaine et supportent ainsi des procédés destructifs. Dans le cadre de code sources, la sémantique doit être conservée aﬁn que l’exécution du programme ne soit pas aﬀectée. Ainsi, un ﬁligranage automatisé ne peut être réalisé que par des modiﬁcations de formatage ou par des modiﬁcations structurelles sémantiquement neutres. Une méthode envisageable serait alors le camouﬂage d’une chaîne de caractères indiquant l’origine par un procédé stéganographique. Un copieur de code attentif peut toutefois systématiser des opérations de normalisation de code aﬁn d’eﬀacer tout ﬁligranage.

L’édition de commentaires accompagne généralement des copies illégitimes. Il s’agit soit d’ajouter de nouveaux commentaires, soit (pratique plus fréquente) de supprimer des commen- taires ou de les modiﬁer. La suppression peut être réalisée systématiquement ou partiellement à l’aide d’une analyse lexicale. La réécriture de commentaires peut être réalisée manuellement par un humain ou alors automatiquement, par exemple en remplaçant certains termes par des synonymes à l’aide d’un corpus approprié. Aucun outil de recherche de similitudes intègre à notre connaissance une recherche de similarité en langue naturelle sur des commentaires : seul le code source utile pour la compilation est considéré. La suppression de commentaires étant une opération simple, il est possible d’attendre d’un plagiaire qu’elle soit réalisée : cependant si celle-ci n’est pas menée, une similarité sur un commentaire est un indice important sur la similarité du code environnant.

Télécharger le document complet