novembre 14th 2025

Deepfakes et phishing vocal : quand l’IA imite votre patron pour vider vos comptes

En février 2024, un employé d’Arup — un cabinet d’ingénierie britannique de 18 000 personnes — reçoit un email de son directeur financier basé à Londres. Le message évoque une transaction confidentielle urgente. L’employé flaire le phishing classique. Prudent, il demande une visioconférence pour vérifier.

L’appel a lieu. Le CFO est là, à l’écran. Plusieurs collègues aussi, tous familiers. La discussion est fluide, les instructions claires : transférer 200 millions de dollars hongkongais vers cinq comptes bancaires. L’employé s’exécute. Quinze virements au total.

Une semaine plus tard, en contactant le siège, il découvre la vérité : tous les participants à cet appel étaient des deepfakes. Le CFO, les collègues — des imitations générées par intelligence artificielle à partir de vidéos publiques. 25 millions de dollars envolés.

Ce n’est pas un scénario de film. C’est arrivé il y a 2 ans.

Ce qu’on voit arriver en entreprise

Chez CreativMinds, on accompagne des PME suisses sur leurs enjeux de cybersécurité depuis sept ans. Le phishing par email, on connaît — c’est le quotidien. Mais depuis 2023, on observe une évolution qui change la donne : l’intelligence artificielle rend les attaques vocales et vidéo terriblement crédibles.

Le principe est simple à comprendre, même si la technologie derrière est complexe. Un deepfake, c’est un contenu audio ou vidéo généré par IA qui imite une personne réelle. Le terme vient de la contraction de « deep learning » (apprentissage profond) et « fake » (faux). La voix, le visage, les expressions, l’accent — tout peut être reproduit à partir d’enregistrements existants. Une interview YouTube, un webinaire, quelques minutes de conférence suffisent pour entraîner un modèle.

Concrètement, comment ça fonctionne ? Les systèmes utilisent ce qu’on appelle des réseaux antagonistes génératifs. Deux algorithmes travaillent en opposition : l’un génère du contenu, l’autre tente de détecter si c’est un faux. Ils s’améliorent mutuellement jusqu’à produire des imitations quasi indétectables. Ce qui relevait de la recherche universitaire il y a cinq ans est aujourd’hui accessible à n’importe qui avec une connexion internet.

Et le phishing vocal — le « vishing » — en sort transformé. Avant, un escroc devait trouver quelqu’un capable d’imiter une voix. Aujourd’hui, il lui suffit de quelques échantillons audio et d’un logiciel accessible en ligne. Certains outils peuvent cloner une voix en moins de soixante secondes d’enregistrement.

Les chiffres donnent le vertige : selon plusieurs études, les tentatives de fraude par deepfake ont augmenté de 3000% en 2023. Les deepfakes vocaux spécifiquement ? +680% sur la même période. Et le coût moyen d’une attaque réussie dépasse les 500 000 dollars. Deloitte estime que les pertes liées aux fraudes par IA générative pourraient atteindre 40 milliards de dollars d’ici 2027.

Trois cas qui montrent l’ampleur du problème

Le cas Arup (2024) — 25 millions de dollars

On l’a évoqué en introduction. Ce qui frappe ici, c’est que l’employé a fait exactement ce qu’on recommande : vérifier par visioconférence. Sauf que la visioconférence elle-même était truquée. Les attaquants avaient téléchargé des vidéos publiques des personnes concernées et utilisé l’IA pour recréer leurs voix et leurs visages en temps réel.

Quand les attaquants peuvent simuler une salle de réunion entière, les réflexes habituels ne suffisent plus.

Le cas Ferrari (2024) — tentative déjouée

Un cadre de Ferrari reçoit des messages WhatsApp de son CEO, Benedetto Vigna. Photo de profil correcte — le CEO devant le logo Ferrari, en costume, bras croisés. Ton urgent, histoire d’acquisition confidentielle. « Sois prêt à signer le NDA que notre avocat va t’envoyer. Le régulateur italien et la Bourse de Milan sont déjà informés. Discrétion absolue. »

Puis un appel : la voix imite parfaitement l’accent du sud de l’Italie caractéristique de Vigna. L’escroc explique qu’il utilise un autre numéro pour des raisons de confidentialité et demande d’exécuter une opération de couverture de change.

Mais quelque chose cloche — des intonations légèrement mécaniques, presque imperceptibles. Le cadre pose une question simple : « Quel livre tu m’as recommandé la semaine dernière ? » L’escroc raccroche immédiatement.

Une question personnelle. C’est tout ce qu’il a fallu pour éviter une catastrophe.

Le cas de l’entreprise énergétique UK (2019) — 243 000 dollars

C’est l’un des premiers cas documentés de fraude par deepfake vocal. Le directeur d’une filiale britannique reçoit un appel de son CEO allemand. La voix est parfaite — timbre, accent, rythme de parole. Instruction : virer 243 000 dollars à un fournisseur hongrois, c’est urgent, le remboursement suivra immédiatement.

Le directeur s’exécute. Un second appel arrive, demandant un nouveau virement. Cette fois, quelque chose éveille les soupçons : l’appel vient d’un numéro autrichien, et le premier remboursement n’est jamais arrivé. Trop tard pour les 243 000 premiers dollars — l’argent a déjà transité par la Hongrie vers le Mexique avant de disparaître.

2019, c’était il y a six ans. La technologie a considérablement progressé depuis.

Pourquoi les PME sont concernées

On pourrait se dire : « Ferrari, Arup, ce sont des multinationales. Nous, on est une PME de 50 personnes en Suisse romande, qui viendrait nous cibler ? »

C’est précisément ce raisonnement qui rend vulnérable.

D’abord, les outils sont devenus accessibles. Créer un deepfake vocal coûte aujourd’hui moins de deux dollars et prend quelques minutes. Les attaquants n’ont plus besoin de viser uniquement les gros poissons pour rentabiliser leur investissement.

Ensuite, les PME ont souvent des processus de validation moins formalisés que les grands groupes. Un virement urgent demandé par le patron ? Dans beaucoup de structures, ça passe sans double vérification. Les relations sont plus directes, la confiance plus immédiate — ce qui est une force au quotidien devient une vulnérabilité face à ce type d’attaque.

Enfin — et c’est le point crucial — une PME locale a moins de marge pour absorber une perte de 50 000, 100 000 ou 200 000 francs. Ce qui serait un incident embarrassant pour Ferrari peut mettre en péril une entreprise familiale. Et contrairement aux grands groupes, une PME n’a généralement pas d’équipe juridique dédiée ni d’assurance cyber sophistiquée pour gérer les suites.

Il y a aussi l’effet réputation. Dans une zone géographique restreinte où le bouche-à-oreille compte, une fraude de ce type peut faire des dégâts bien au-delà de la perte financière immédiate.

Comment se protéger concrètement

La bonne nouvelle : les parades existent et ne nécessitent pas d’investissements massifs. L’essentiel repose sur des procédures humaines, pas sur de la technologie sophistiquée.

Mettre en place un mot de passe verbal

L’idée vient directement du cas Ferrari. Convenez avec vos collaborateurs clés d’un mot ou d’une question que vous êtes les seuls à connaître. Quelque chose qui ne figure nulle part en ligne : un souvenir partagé, une blague interne, le nom d’un ancien collègue, un détail d’une conversation récente.

En cas de doute sur un appel, posez la question. Un deepfake ne peut pas répondre à ce qu’il n’a jamais appris. C’est rudimentaire, presque artisanal — et c’est précisément pour ça que ça fonctionne.

Instaurer une règle de rappel systématique

Pour toute demande financière urgente reçue par téléphone ou visio, imposez un rappel sur le numéro habituel de la personne. Pas le numéro affiché sur l’appel entrant — le numéro enregistré dans vos contacts professionnels.

C’est contraignant ? Oui. Ça ralentit les processus ? Un peu. Mais c’est exactement ce qui aurait évité les 25 millions d’Arup. Le temps perdu sur une vérification est dérisoire comparé au temps passé à gérer une fraude.

Former les équipes aux signaux d’alerte

Quelques indices peuvent trahir un deepfake vocal :

  • Des micro-silences inhabituels dans la conversation, comme si la voix avait un léger temps de latence
  • Un rythme de parole légèrement décalé ou trop régulier
  • Une qualité audio qui varie de façon étrange
  • L’incapacité à répondre à des questions personnelles ou contextuelles
  • Une pression excessive sur l’urgence et la confidentialité — les deux leviers classiques de l’ingénierie sociale

Ces signaux sont subtils. Mais une fois qu’on sait qu’ils existent, on les repère plus facilement. L’idée n’est pas de transformer tout le monde en expert en détection, mais de créer un réflexe : quand quelque chose semble « pas tout à fait normal », on vérifie.

Séparer les canaux de validation

Si une demande arrive par email, confirmez par téléphone. Si elle arrive par téléphone, confirmez par email ou en personne. L’idée est de ne jamais valider une action sensible sur un seul canal — surtout si ce canal peut être compromis.

Cette règle existe depuis longtemps dans les procédures bancaires. Elle devient indispensable pour toute organisation qui manipule des fonds ou des données sensibles.

Le cadre légal, encore flou

Un mot sur l’aspect juridique, parce qu’on nous pose souvent la question : que dit la loi sur les deepfakes ?

La réponse honnête : pas grand-chose de spécifique, pour l’instant. En Europe, le futur AI Act prévoit d’encadrer les usages à risque de l’intelligence artificielle, avec des obligations de transparence. Aux États-Unis, quelques lois imposent d’étiqueter les contenus générés par IA. Mais il n’existe pas d’harmonisation internationale, et dans la plupart des juridictions, utiliser un deepfake pour escroquer tombe sous le coup des lois existantes sur la fraude — pas d’une législation spécifique.

Concrètement, ça signifie que la protection vient d’abord de l’interne. Attendre que la loi rattrape la technologie, c’est s’exposer pendant des années.

Ce que ça implique pour demain

On ne va pas se mentir : la technologie des deepfakes va continuer à progresser. Ce qui demande aujourd’hui quelques minutes d’audio pour cloner une voix en demandera bientôt quelques secondes. La qualité va s’améliorer, les détections automatiques auront toujours un temps de retard sur les nouvelles techniques.

Ça ne veut pas dire qu’on est impuissants. Ça veut dire qu’on doit intégrer cette réalité dans notre façon de travailler.

Les questions d’authentification deviennent aussi importantes pour les humains que pour les systèmes informatiques. La confiance par défaut — « c’est la voix de mon patron, donc c’est lui » — n’est plus un luxe qu’on peut se permettre.

Et paradoxalement, c’est peut-être une opportunité de revenir à des pratiques de vérification qu’on avait abandonnées par facilité. Rappeler quelqu’un pour confirmer un virement, poser une question personnelle avant d’agir, prendre trente secondes de plus avant une décision — ce n’est pas de la paranoïa, c’est de l’hygiène professionnelle.

À retenir

Les deepfakes et le phishing vocal dopé à l’IA ne sont plus des menaces théoriques. Des entreprises perdent des millions, d’autres évitent le pire grâce à des réflexes simples.

La protection repose moins sur la technologie que sur les procédures : mots de passe verbaux, rappels systématiques, validation multi-canal, formation des équipes.

Et la meilleure défense reste peut-être la plus ancienne : quand quelque chose semble urgent et inhabituel, c’est précisément le moment de ralentir.

Mémo pratique

  • Demande financière urgente par téléphone ou visio ? → Rappeler sur le numéro habituel avant d’agir
  • Doute sur l’identité d’un interlocuteur ? → Poser une question personnelle que seul lui peut connaître
  • Pression sur la confidentialité et l’urgence ? → C’est un signal d’alerte, pas une raison d’accélérer
  • Email + appel sur le même sujet sensible ? → Confirmer par un troisième canal (SMS, en personne)
  • Quelque chose « sonne » bizarre dans la voix ? → Faire confiance à son instinct et vérifier

Explore more insights in our blog