Vishing au PDG : comprendre les attaques par clonage vocal

Depuis 2023-2025, une nouvelle génération d’attaques combine ingénierie sociale et clonage vocal par IA : le vishing. La voix du dirigeant devient un vecteur d’attaque et le phénomène prend de l’ampleur. Avec l’IA, cloner une voix devient un jeu d’enfant. Nul besoin de compétences particulières, hormis celle du bluff.

Imaginez, il suffit de 3 secondes d’audio pour obtenir un résultat exploitable avec environ 85% de similarité avec l’original. Entre 10 et 30 secondes, le résultat est quasi parfait. Alors, qu’est-ce qui pourrait empêcher les hackers d’industrialiser cette arnaque ?

A nous de nous prémunir. Dans cet article :

Un aperçu de l’ampleur du phénomène et de ses conséquences
Profil des attaquants
Leur modus operandi en 3 étapes
Quelques mesures pour se protéger

Ampleur du phénomène et conséquences du Vishing

Une accélération documentée

Les attaques de type vishing connaissent une croissance beaucoup plus rapide que le phishing par email. Plusieurs rapports convergent :

Selon des analyses de threat intelligence compilées par IBM et des acteurs SOC européens, les attaques de vishing ont progressé de plus de 400 % entre 2023 et 2025, avec une part croissante impliquant des voix synthétiques réalistes.
Le FBI (IC3 Report) confirme une hausse continue des fraudes BEC (Business Email Compromise), dont une part significative bascule désormais vers le canal vocal, jugé plus efficace pour contourner les contrôles.
En Europe, Europol classe le deepfake vocal parmi les menaces cyber émergentes majeures, notamment pour les PME et ETI peu outillées sur les procédures internes.

Des impacts financiers et organisationnels

Les conséquences sont rarement limitées à une perte financière immédiate :

Fraudes financières : virements urgents, modifications de RIB, validation de paiements hors procédure.
Compromission d’identités : réinitialisation de MFA ou divulgation d’informations internes lors d’appels.
Crise de confiance interne : remise en cause de l’autorité du dirigeant, suspicion généralisée.
Risque juridique et réputationnel : défaut de contrôle interne, exposition réglementaire.

Cas documentés :

En 2024, Mark Read, PDG de WPP (un des plus grands groupes de communication et publicité au monde), a été ciblé par une tentative de fraude sophistiquée utilisant une imitation vocale par IA combinée à de faux éléments visuels via WhatsApp et Teams.
L’attaque visait un cadre pour l’inciter à effectuer une action (argent / création de business) en se faisant passer pour l’exécutif. L’opération a été contrée de justesse grâce à la vigilance interne, mais elle illustre que même les plus hauts dirigeants sont ciblés par des deepfake scams impliquant voix et visages générés par l’IA.
Janvier 2026 en Suisse : Un entrepreneur suisse a été dupé en transférant plusieurs millions de francs suisses suite à des appels utilisant une voix manipulée par IA présentée comme celle d’un partenaire de confiance. L’affaire est en cours d’enquête.

Profils des attaquants

Contrairement aux clichés, il ne s’agit pas majoritairement de « génies de l’IA ».

Trois profils dominants

Groupes de cybercriminalité financière organisée
Actifs sur le BEC, ils ont intégré le clonage vocal comme outil supplémentaire, peu coûteux et très rentable.
Fraudeurs opportunistes outillés
Individus ou petits groupes utilisant des plateformes commerciales de clonage vocal, sans compétence avancée en machine learning.
Prestataires criminels “as-a-service”
Certains acteurs proposent désormais du voice cloning on demand, à la manière du phishing-as-a-service. Un vrai marché parallèle.

La barrière technique est basse. Ce sont les scénarios sociaux et organisationnels qui font la différence.

Comment ils s’y prennent en 3 étapes

Étape 1 — Collecte de la voix

Les sources ne manquent pas :

vidéos LinkedIn, YouTube, conférences, webinaires,
interviews presse, podcasts,
messages vocaux internes,
parfois un simple appel « prétexte » pour faire parler la cible.

👉 10 à 30 secondes de voix suffisent aujourd’hui pour produire un clone exploitable.

Étape 2 — Entraînement du modèle vocal

Ensuite, facile. Les attaquants utilisent des plateformes commerciales de clonage vocal (cloud) ou des outils open source exécutés localement.

Elles fonctionnent toutes sur le même principe :

extraction de la signature vocale (speaker embedding),
apprentissage du timbre, rythme, prosodie,
génération d’un modèle capable de parler n’importe quel texte avec cette voix.

Étape 3 — Appel frauduleux

Enfin, ils passent à la phase « attaque » selon deux modes :

Text-to-Speech : script préparé (ordre, validation, urgence).
Voice-to-voice quasi temps réel : dialogue interactif.

L’efficacité repose sur trois principes bien connus et bien rodés :

l’urgence,
l’autorité hiérarchique,
la cohérence contextuelle (voyage, réunion, crise).

Pourquoi ça marche (encore)

Trois raisons majeures :

L’oreille humaine est peu fiable face aux voix synthétiques réalistes.
La voix déclenche un réflexe de confiance plus fort que l’email ou le texte.
Beaucoup d’organisations n’ont aucune règle formalisée sur ce qu’un dirigeant peut ou ne peut pas demander par téléphone.

Résultat : la voix devient un facteur d’authentification implicite, alors qu’elle ne l’est plus.

Mesures concrètes pour se protéger

Parlons peu, parlons bien. Trois types de mesures.

Mesures organisationnelles (prioritaires)

Interdiction formelle de toute validation sensible par téléphone seul.
Mise en place d’un double canal obligatoire (appel + message interne, ou appel + validation écrite).
Définition de phrases ou codes internes pour les situations critiques (simples, non publics).
Délai incompressible pour tout virement exceptionnel, même « urgent ».

Mesures humaines

Sensibilisation ciblée des fonctions à risque : finance, assistanat de direction, IT, RH.
Exercices de simulation de vishing.

Mesures techniques (complémentaires)

Journalisation et traçabilité des demandes sensibles.
Surveillance des appels entrants à caractère anormal.
L’authentification vocale peut constituer un premier signal, mais elle doit impérativement être combinée à une autre mesure indépendante pour toute action sensible.

Pour en savoir plus sur le sujet

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Vishing au PDG : les dessous d’une attaque industrialisée