IA

Confidentialité des données et IA : idées reçues vs la réalité

Par Johan Iavarone
13/3/2025
Johan Iavarone - Growth Strategist

L’essor de l’intelligence artificielle transforme profondément la gestion des données. Pourtant, certaines idées reçues persistent. Il est fréquent d’entendre que Microsoft Copilot protège mieux les données que ChatGPT, ou que l’hébergement sur un serveur local garantit une confidentialité absolue.

Ces affirmations simplifient une réalité bien plus complexe. La différence entre sécurité et confidentialité est souvent mal comprise. Un serveur local mal administré peut constituer une vulnérabilité plus importante qu’une solution cloud bien configurée. Un modèle open source ne garantit pas nécessairement une meilleure protection. Enfin, un outil labellisé « entreprise » ne met pas toujours les données à l’abri des réglementations extraterritoriales comme le Cloud Act.

Dans ce contexte, les entreprises doivent faire des choix éclairés pour protéger leurs informations sensibles tout en exploitant le potentiel de l’intelligence artificielle.

Les quatre niveaux de confidentialité en IA


L’IA grand public et la réutilisation des données

Les grands modèles d’IA accessibles au public, tels que ChatGPT (OpenAI), Gemini (Google DeepMind) ou Claude (Anthropic), s’appuient sur d’immenses bases de données, parfois issues des utilisateurs eux-mêmes.

OpenAI a par exemple été critiqué pour avoir utilisé des données en provenance de Reddit et Stack Overflow sans consentement explicite, ce qui a conduit ces plateformes à restreindre l’accès à leurs API (Ars Technica). En Chine, l’enjeu est encore plus critique. Les modèles comme DeepSeek ou Yi-34B sont soumis à des réglementations qui imposent une surveillance étatique et un accès potentiel aux données par les autorités (The Guardian).

Les entreprises doivent donc être conscientes du cadre juridique qui entoure les outils qu’elles utilisent et s’assurer que leurs données ne risquent pas d’être réutilisées à leur insu.

ChatGPT et le mode temporaire : une avancée, mais pas une solution absolue

Pour répondre aux préoccupations des utilisateurs, OpenAI a introduit un mode temporaire permettant de désactiver l’historique des conversations. Lorsqu’il est activé, les échanges ne sont pas stockés ni utilisés pour l’amélioration du modèle (OpenAI).

Cette fonctionnalité constitue une avancée, mais elle repose sur un engagement unilatéral de l’éditeur. Aucune garantie technique ne permet de vérifier que les données ne sont pas temporairement stockées avant suppression. Par ailleurs, OpenAI étant une entreprise américaine, ses services restent soumis au Cloud Act, qui autorise les autorités américaines à accéder à certaines données stockées sur leurs serveurs, y compris en dehors des États-Unis.

Des alternatives existent, notamment les solutions open source comme PrivateGPT ou lm-studio, qui permettent d’exécuter des modèles de langage en local, sans envoi de données vers un serveur externe (PrivateGPT, lm-studio).

Microsoft Copilot : une sécurité relative

Microsoft présente Copilot comme une solution sécurisée pour les environnements professionnels, notamment grâce à son intégration à Azure et Microsoft 365. Cependant, cette sécurité est conditionnée à une configuration rigoureuse.

Copilot est soumis au Cloud Act, ce qui signifie que les données stockées sur les serveurs Microsoft peuvent être accessibles aux autorités américaines (CNIL). De plus, si les permissions ne sont pas correctement paramétrées, l’outil peut permettre à des utilisateurs internes d’accéder à des documents confidentiels stockés dans SharePoint ou OneDrive (Microsoft).

Son niveau de confidentialité dépend donc directement des pratiques de gestion des accès mises en place au sein des entreprises.

IA souveraine et open source : une alternative en développement

Face aux préoccupations croissantes en matière de confidentialité, des solutions souveraines et open source commencent à émerger. Mistral AI, une startup française, propose des modèles ouverts pouvant être exécutés sur des infrastructures locales ou des clouds européens (OVH, Scaleway), garantissant ainsi une meilleure maîtrise des données (Mistral AI).

L’open source offre des avantages en matière de transparence et d’auditabilité, mais il ne constitue pas une solution universelle. L’hébergement et l’administration des modèles restent des éléments critiques à prendre en compte.

Parmi les alternatives disponibles, Falcon LLM, développé aux Émirats Arabes Unis, et LLaMA 2, conçu par Meta, offrent des performances avancées tout en étant disponibles en open source (Technology Innovation Institute, Meta).

L’open source permet de réduire la dépendance aux grands fournisseurs de cloud et d’infrastructure IA, mais il impose également une responsabilité accrue en matière de cybersécurité et de maintenance.

Confidentialité et IA : des compromis inévitables

Après plusieurs années de développement et de recherche, un constat s’impose :

• Une solution sécurisée n’est pas nécessairement confidentielle. Une infrastructure robuste peut être vulnérable à certaines obligations légales ou réglementaires.

• Un modèle open source n’est pas automatiquement exempt de risques. Sa sécurité dépend de son mode de déploiement et de son hébergement.

• Le cloud ne constitue pas nécessairement une menace, dès lors que les accès et les permissions sont correctement gérés.

Quelles solutions pour les entreprises ?

Les choix technologiques en matière d’IA doivent être adaptés aux enjeux spécifiques de chaque organisation. Parmi les options envisageables :

• L’hébergement on-premise, pertinent pour les secteurs manipulant des données sensibles (finance, défense), mais impliquant des coûts élevés et une complexité accrue.

• Le recours à un cloud souverain, comme OVH, Scaleway ou 3DS Outscale, permettant de limiter l’exposition aux régulations extraterritoriales.

• L’exploitation de modèles open source auto-hébergés, offrant un compromis entre autonomie et performances IA.

Conclusion

La question de la confidentialité des données en intelligence artificielle ne se résume pas à une opposition entre cloud et infrastructure locale, ni entre solutions propriétaires et open source. Chaque approche présente des avantages et des limites.

Les entreprises doivent adopter une démarche pragmatique, en évaluant non seulement les aspects techniques, mais aussi les implications légales et organisationnelles de leurs choix.

Les retours d’expérience sur ces sujets étant encore peu documentés, il est essentiel d’encourager les échanges et le partage d’expertise. Les professionnels du secteur – DSI, DPO, experts en cybersécurité – peuvent contribuer à une meilleure compréhension des enjeux en partageant leurs pratiques et leurs solutions.

On discute de votre projet ?

Nom / Prénom
E-mail
Votre Message
Envoyer
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.