INTERVIEW de Florian Douetteau, CEO et co-fondateur de Dataiku

« Les perspectives de la data science se confirment dans de nombreux secteurs »
 

L’AWS summit qui se tenait à Paris le 2 avril dernier nous a permis d’interviewer Florian Douetteau, CEO et co-fondateur de Dataiku à la fois sur l’offre et le positionnement de l’éditeur dans le panorama des acteurs du Big data mais aussi sur sa stratégie marché pour décrocher de nouveaux clients références en France et à l’international dans de multiples secteurs d’activités.

Florian Douetteau, CEO
et co-fondateur de Dataiku

Propos recueillis par Laurence Dubrovin, Analyste Conseil, Teknowlogy Group

Bonjour Florian, pouvez-vous en quelques mots nous présenter Dataiku ? 
 
Florian Douetteau. Dataiku est un éditeur d’origine française créé en 2013 qui compte 200 personnes dans le monde et souhaite atteindre 400 personnes d’ici fin 2019. Les effectifs se répartissent ainsi : 100 personnes en France (Paris), 30 personnes au Royaume Uni (Londres), et le reste se trouve aux Etats-Unis (New York), à Singapour et à Sydney. A terme, Dataiku vise d’investir en Allemagne et sur la côte Ouest des Etats-Unis. La société est profitable et a engrangé une nouvelle levée de fonds de 101M$ fin 2018. Sa plateforme accélératrice de projets Big data se base essentiellement sur des outils d’analyse prédictive issus du machine learning. En l’occurrence, elle répond à des problématiques clientes très variées dans moult secteurs d’activités.
 
Quelles sont les principales fonctions de la plateforme ?
 
F. D. L’offre de Dataiku DSS (Data Science Studio) est une plateforme qui facilite et accélère l’analyse de données et la création d’applications prédictives métier de bout-en-bout en environnement Big Data. Elle couvre les fonctions suivantes :
 
la préparation et la gestion de la qualité des données
la modélisation prédictive,
l’outil ETL intégré pour l’extraction, la transformation et l’alimentation de données,
<  la visualisation des données (Dataiku intègre son outil de data visualisation mais a également un partenariat avec les acteurs Qlik et Tableau).
 
Quelle est la maturité des clients qui s’adressent à Dataiku ?
 
F. D. Il existe des niveaux de maturité très différents d’un client à l’autre. L’enjeu est d’aboutir à un centre d’excellence néanmoins pas encore tout à fait formalisé mais on y pense au moment où il faut passer à un déploiement global.
La maturité moyenne des projets Big data en France est en-deçà de celle rencontrée aux Etats-Unis. Cependant, je conseille à ces groupes français de ne pas désespérer sur leur projet data même après 4 ou 5 POC. L’important ensuite est d’atteindre la phase d’industrialisation. Il faut aussi avoir en tête les enjeux d’intégration et de monitoring.
Ce qui est nouveau dans l’écosystème français, c’est que les grands acteurs ont désormais pour la plupart mis en place des data lakes qu’ils considèrent à présent comme un environnement de production et sur lequel ils ont des applications.
 
Qu’en est-il de votre présence sur le secteur public  ?
 
F. D. Le secteur public est un secteur sur lequel nous ne perdons pas beaucoup. Nous pouvons citer le Ministère de l’Intérieur comme une référence. Des applications tournent et sur lesquelles nous sommes engagés depuis 18 mois. Grâce à la Data science, nous assistons à l’industrialisation de pratiques analytiques jusqu’ici restées relativement manuelles. A ce titre, les analystes ont besoin de s’outiller davantage chaque année. Le secteur de la finance a mis les moyens, mais les acteurs du public - et ce n’est pas spécifique à la France - n’ont pas les mêmes capacités pour multiplier les efforts financiers.
Au congrès big data Paris, le Ministère de l’Intérieur a présenté une partie de ce qu’il fait (notamment dans la détection de faux papiers).
 
Dans l’application de la data science au secteur public, je vois plus de potentiel dans les activités régaliennes : l’urgence fait qu’on sait recruter les personnes alors que dans les collectivités, on n’y arrive pas. On y trouve un mélange d’intégrateurs bien sûr mais il y a maintenant une vraie frange de spécialistes dans le secteur public. Après, il faut savoir que dans le secteur public les cycles de vente sont multipliés par 2 ou 3. En l’occurrence, c’est vrai pour tous les éditeurs. Un POC met au moins 6 ou 9 mois dans le public, ce sont des sujets à fortes contraintes.
 
Et pour le secteur du Retail ?
 
F. D. Toutes les entreprises qui ont une marque forte ont construit des programmes de fidélité client et les ont internalisés.
L’enjeu consiste à avoir une connaissance plus fine du client, de comprendre à quel moment le réengager, avec quelle offre, etc. J’ai aussi l’impression que nos clients (a priori plus avancés que les autres) sont tous en train de penser multicanal par défaut, car ils ont désormais des bases fusionnées, etc. Ce n’est pas le paysage d’il y a 4 ou 5 ans. Ceci permet d’envisager des projets analytiques plus ambitieux, dans la mesure où il n’est plus besoin de fabriquer d’abord la base unifiée.
 
Les enjeux les plus forts pour le Retail sont : la question du centre d’excellence et de la réutilisabilité. Par exemple, on développe en central un algorithme, comment le déployer pour d’autres marques ou entités ? Les entités n’ont pas la masse critique pour tout refaire et repartir de zéro. En revanche, elles ont besoin d’adapter ce qui a été fait. Pour l’instant, on ne fait pas de conseil de ce point de vue, on donne des avis. En l’état actuel du marché, il manque souvent un chaînon entre les cabinets du type BCG/McKinsey et le côté pratique des projets. 
 
Concernant les moteurs de recommandation qui existent maintenant depuis longtemps, des progrès ont-ils été réalisés ?
 
F. D. Les techniques de base restent les mêmes, le progrès vient surtout du couplage entre moteur de recommandation et moteur de personnalisation des offres. Aussi, on peut désormais appliquer ces algorithmes sur des produits plus difficiles à recommander, par exemple des meubles (styles, couleurs, etc.) : maintenant en analysant le contenu des images, on peut envisager des choses plus avancées, pas juste en fonction des métadonnées (par exemple dimension) ou vu par d’autres gens.  Ceci est vraiment nouveau, même Amazon ne le fait que depuis peu.
 
Concernant l’optimisation du parcours client, avez-vous des projets sur lesquels Dataiku est sollicité ?
 
F. D. Nous voyons peu de projets de ce type précisément mais plutôt des projets de réactivation du parcours client.
IBM qui pourtant a une offre Watson à ce sujet, nous ne le voyons pas. Je pense que là-dessus, c’est plutôt le métier d'Adobe.
 
Qu’en est-il des autres cas d’utilisation métier ?
 
F. D. Nous n’avons pas vocation à entrer sur certains cas d’utilisation ou industries en particulier. Nous voulons en effet avant tout accompagner nos clients et leur fournir des éléments d’algorithmes exploitables par un data scientist. Concernant les cas d’utilisation, la répartition est assez éparse : 50% sur l’expérience client et le marketing, 20 à 25% sur la banque et l’assurance, entre 10 et 15% sur les services et le reste sur l’industrie et les technologies (en particulier la maintenance prédictive). Nous sommes souvent sollicités sur la haute technologie et le manufacturing (microchip, moteurs d’avion, etc.) sur des chaînes de fabrication déjà en place. 
 
Qui sont vos principaux concurrents ?
 
F. D. Aujourd’hui tout le monde dit avoir une plateforme et essaie de faire travailler tout le monde… Nous rencontrons bien sûr Datarobot, Alteryx… Parmi nos concurrents, on distingue 3 grandes catégories au sein de l’écosystème : la data préparation  (mais aussi le rapid mining comme par exemple Alteryx), les pure players de l’auto-Machine Learning (Datarobot typiquement), les acteurs plus orientés infrastructures / environnements de développement comme Databricks, Domino data labs ou encore Sense.io racheté par Cloudera.
 
Et sinon quels  autres concurrents ?
 
Saagie a un positionnement intéressant, il propose un portefeuille de services permettant à IT de lancer des containers ou des VM, ce qui est aussi un peu le métier d’AWS. Mais est-ce que cela a un sens potentiellement de laisser un data scientist mettre des projets en production. Il existe une vraie question autour du modèle d’industrialisation, car se pose la question du qui est l’ownership ?
Les services d’Auto Machine Learning d’AWS (Amazon Web Services) ou de GCP (Google Cloud Platform) sont accessibles  : on s’intègre plutôt avec AWS, tandis que la GCP propose plutôt des modèles précalculés. Chacun a son propre moteur d’auto ML : c’est le cas par exemple de Datarobot. En revanche, Microsoft avec Azure a un studio au sens classique du terme d’AutoML et il a évolué pour se rapprocher de SageMaker d’Amazon.
Le métier de ces acteurs n’est pas le studio d’AutoML, pas le nôtre non plus d’ailleurs. Notre enjeu consiste plutôt à proposer le workflow complet et qu’un analyste puisse l’utiliser. Les plateformes cloud cherchent essentiellement à fidéliser les développeurs, c’est là qu’est leur marché, dans la mesure où l’analytique reste pour eux modeste dans les budgets.
 
Qui sont vos principaux partenaires ?
 
Nos partenaires sont essentiellement des cabinets de conseil tels que Cap Gemini, Avisia, Saegus. Nous travaillons aussi avec Business&Decision et Micropole. Nos partenaires technologiques sont : Microsoft (Azure), Google et Amazon.
 
Selon les relations intuiti personae, nous allons travailler avec tel ou tel partenaire. Certains petits acteurs ont fait le choix d’investir sur nous très tôt, c’est donc plus facile de travailler avec eux car on reste encore un petit acteur. 
Nous travaillons bien avec Capgemini, mais leur enjeu est de générer plusieurs dizaines de millions avec un éditeur. 
 
Quelles sont les évolutions fonctionnelles de l’offre ?
 
Plusieurs évolutions de notre offre sont à mentionner : 
 
Nous travaillons à l’interprétabilité des modèles : pour certains métiers, il est important d’apporter des explications sur les résultats du modèle car l’analyste en a besoin. Et c’est souvent le frein le plus important à l’adoption de pratiques plus élaborées que la régression linéaire dans la finance.
Également, un enjeu plus global est celui d’obtenir plus de transparence et d’éthique dans la génération des résultats obtenus avec le Machine Learning : un outil doit fondamentalement offrir une fonctionnalité quasi-gratuite qui permette à la personne de comprendre si un biais existe dans les données ou le modèle ce afin que cela apparaisse de façon évidente, ce qui permet de créer la confiance.
Enfin, un autre domaine est la gestion du cycle de vie des modèles, pour que les applications analytiques deviennent plus pérennes en particulier quand on a ré-entraîné le modèle (par exemple dans les analyses de risques dans le domaine financier, afin d’avoir plus de scores et modèles que de data scientistes).

Merci Florian.
 
Avis de l’analyste :
 
Depuis 3 ans, Dataiku s’est fait une place de choix dans le domaine de la data science sur le marché français. Arrivé très tôt sur ce marché, il a très vite démontré l’efficacité de son business modèle. Il répond à des problématiques très variées : détection de fraude, détection d’anomalies, maintenance prédictive, détection de churn  (résiliation) pour le marketing, mise en conformité (compliance), segmentation client car son positionnement est transverse. De plus, il adresse de nombreux secteurs d’activités : secteur public, industrie, finance, retail, etc.
 
Il revendique désormais de très belles références comme dans le secteur public, avec le Ministère de l’Intérieur qui avait témoigné au congrès Big Data 2018 sur un projet de détection de fraude et compte étendre désormais la solution à d’autres problématiques. Dans l’industrie, Essilor a des projets de détection d’anomalies et de maintenance prédictive. En finance, BNP a développé des projets de détection de fraude, de détection de churn en marketing, de mise en conformité et de segmentation client. Dans le domaine de la ville, l’application Parkeon basée sur l’analyse prédictive est désormais déployée sur 50 villes dans le monde pour aider les automobilistes via une application mobile à trouver un emplacement pour se garer. Ainsi, il montre sa capacité à répliquer un modèle et à l’industrialiser. Ce point doit être souligné dans la mesure où il reste le problème majeur chez les clients où les POC se multiplient mais la phase de généralisation et d’industrialisation tend à tarder.
 

Commentaires

Publier un nouveau commentaire