Extraction de connaissances dans Azure : pourquoi, comment ?
Alibek JAKUPOV, Data Scientist et MVP Artificial Intelligence chez Expertime a participé au forum EdTech d’Astana, et au cours duquel il a répondu une interview sur l’extraction de connaissances et le processus de transformation des données de votre entreprise en actifs de valeur : découvrez l’interview.
Pouvez-vous nous parler du traitement des données ?
Le processus de traitement des données consiste à extraire des informations utiles de toutes les informations disponibles (à la fois structurées et non structurées) – ce qui, finalement, permet d’engager les clients, de transformer les produits, de responsabiliser les employés et d’améliorer les opérations.
Comment pouvez-vous utiliser le big data ?
Laissez-moi vous donner un exemple concret. Le partenaire d’Expertime, Scinan, a développé un logiciel dont le but est de rendre des dizaines de milliers de résultats scientifiques accessibles et compréhensibles grâce à des graphes de connaissances.
L’inspiration pour ce faire est venue des expériences des fondateurs dans le domaine de la recherche médicale et des nouvelles technologies en informatique.
Il y a une grande différence entre ce qui est fait dans le laboratoire de recherche et ce qui se retrouve finalement sur le terrain. Leur mission est de faciliter l’accès et l’analyse des publications scientifiques afin d’aider à l’émergence de nouveaux progrès pour nos sociétés. Basée sur Microsoft Academic Graph et Cognitive Search, leur solution vous aide à aller au-delà des résultats de recherche afin que vous puissiez voir les connexions entre les articles, parcourir les recherches connexes et voir comment votre domaine évolue.
Alors, qu’est-ce que l’Explorateur Bibliographique Augmenté de Scinan (découvrez notre article sur l’outil) ? Il s’agit d’une base de connaissances comprenant plus de 270 millions d’articles, de livres et de brevets dans 19 disciplines différentes. L’explorateur de publications scientifiques de Scinan vous évite de parcourir des tonnes de pages web par sa structure en graphe de connaissances où les sources sont interconnectées et permet aux étudiants de maîtriser facilement et rapidement la recherche et l’analyse de la littérature scientifique lorsqu’ils arrivent sur le marché du travail.
Cet outil propose une solution de système d’information axée sur l’amélioration, l’échange et l’apprentissage des connaissances par une représentation et une interaction avancée des publications scientifiques grâce à l’intégration des technologies d’IA et de graphe de connaissances.
Grâce à cela, Scinan nous permet d’apprendre plus vite et mieux dans tous les domaines de la science avec la solution de visualisation des publications scientifiques qui utilise les technologies de graphe de connaissance et d’IA.
C’est un parfait exemple de l’application du BigData et de l’IA pour construire un outil qui n’a jamais existé auparavant, et transformer les données en connaissances.
Comment expliqueriez-vous le processus d’extraction de connaissances en langage clair et simple ?
Le domaine des solutions d’extraction de connaissances se concentre sur le défi principal de transformer vos données (souvent non structurées) en une source de connaissances.
Contrairement à la simple recherche dans les bases de données, ce type de défi nécessite des algorithmes et des approches plus sophistiqués comme l’analyse d’archives vidéo ou de documents scannés.
Cependant, grâce à des innovations récentes dans les domaines de la vision, de la parole, du langage, de la décision et de la recherche, il est pour la première fois possible pour nos applications d’interpréter des données non structurées d’une manière semblable à celle d’un être humain, et de comprendre plus profondément les données traditionnelles sous forme de texte.
Ensemble, la recherche et l’IA créent une solution unique pour trouver de la valeur dans vos données, ce qui, en fin de compte, permet d’engager les clients, de transformer les produits, de responsabiliser les employés et d’améliorer les opérations.
Comment cela contribue-t-il à améliorer le travail et les processus opérationnels de l’entreprise ?
Le processus de transformation de vos données non structurées en un format structuré peut coûter du temps et de l’argent.
En interne, les décisions sont moins éclairées, prennent plus de temps à prendre, le travail est fait manuellement.
En externe, l’expérience utilisateur sur les apps peut être difficile à naviguer, et les clients peuvent ne pas être en mesure de trouver du contenu et des produits pertinents. Ainsi, l’information a le potentiel de devenir un atout ou un fardeau, selon la façon dont vous l’utilisez.
Comment l’utiliser à bon escient – pour en faire un atout, et vice versa – un fardeau ?
L’exploration des connaissances présente plusieurs scénarios clés, en fonction de ce que vous essayez de faire avec vos informations.
Par exemple, le problème est de faire apparaître les informations les plus pertinentes pour votre client sur un site web ou une application.
L’avantage de l’application de l’exploration des connaissances est que vous augmentez finalement les ventes et la satisfaction du client et améliorez l’expérience de l’utilisateur. Ou bien, le problème peut être de donner du sens à tous les types de contenus – PDF, documents Word, images – qui sont aujourd’hui traités manuellement. Et l’avantage est de rendre les processus commerciaux existants et la prise de décision évolutifs en utilisant toutes les informations disponibles, ce qui permet de réduire le temps, de rationaliser le travail, d’augmenter les ventes et d’identifier les risques/opportunités.
Les données peuvent également devenir un fardeau si vous n’en tirez aucune valeur ajoutée. Par exemple, imaginez la Business Unit d’une grande entreprise qui extrait manuellement des données essentielles des rapports de forage et d’achèvement. Il s’agit d’un processus laborieux, chronophage et sujet aux erreurs.
Ainsi, les développeurs et les entreprises ne peuvent pas extraire les informations de leurs formulaires et documents de manière rapide, précise et adaptée à leur contenu spécifique. Cela implique une intervention manuelle lourde à des coûts exorbitants. Les experts en la matière n’ont pas le temps de se concentrer sur des activités à plus forte valeur ajoutée et les informations circulent moins vite, ce qui ralentit le contrôle opérationnel.
Quelles entreprises, dans quels domaines d’activité, ont besoin aujourd’hui de mettre en œuvre l’extraction de connaissances enrichie par l’IA ?
À mon avis personnel, le Knowledge Mining a été très utile pour la numérisation des contrats. En combinaison avec l’IA, il leur permet d’ingérer des contrats, d’en extraire le contenu, puis d’en trouver le sens grâce à des modèles ML personnalisés.
En aidant les entreprises à mieux comprendre et gérer leurs obligations contractuelles, le Knowledge Mining améliore la conformité, réduit les risques et rationalise les opérations.
De plus, pour les entreprises des secteurs hautement réglementés, la capacité de vérifier et de rechercher facilement dans les données archivées peut faire la différence entre l’extraction d’informations opportunes et l’imposition de lourdes amendes.
Par conséquent, ces entreprises ont besoin d’un moyen facile de gérer leurs données archivées dans le cloud et de permettre à leurs clients de poser des questions complexes sur des ensembles de données de la taille d’un pétaoctet, rapidement et à moindre coût.
Pour les entreprises des secteurs hautement réglementés tels que les services financiers, la santé, l’industrie pharmaceutique et les assurances, la possibilité de rechercher facilement dans des pétaoctets de données archivées est un enjeu majeur.
C’est un aspect qu’aucune entreprise ne peut se permettre de négliger, étant donné les lourdes amendes infligées à celles qui ne sont pas en mesure de fournir des données spécifiques ainsi que des informations d’audit et de responsabilité sur demande.
Où étudier ?
Il n’y a peut-être pas de recommandation, car toute compétence est précieuse, et l’opinion de tout spécialiste est une contribution bienvenue lorsque vous commencez votre transformation numérique avec l’extraction de connaissances.
Par où commencer et que conseilleriez-vous aux aspirants professionnels dans ce domaine ?
Vous devez être conscient du fait que les développeurs et les entreprises se trouvent à différents stades de leur parcours de transformation numérique.
Vous devez donc commencer par explorer le marché. Idéalement, vous devez trouver une solution qui vous aidera à accélérer votre transformation numérique grâce à l’IA appliquée, quelle que soit l’étape à laquelle vous vous trouvez.
Votre moteur de recherche principal devrait être construit en back-end avec des modèles et des algorithmes sophistiqués pour classer, hiérarchiser et synthétiser les recherches de vos clients. Cependant, vous pouvez également obtenir plus d’informations à partir de vos données grâce à certains services d’IA pré-intégrés et à des outils OCR pour rechercher différents types d’informations. Et, si vous êtes à un stade plus avancé, trouvez la plateforme où vous pouvez également brancher vos propres modèles ML. Vous pouvez commencer simplement et ajouter plus de complexité lorsque vous êtes prêt.
Pour les développeurs, je suggère de commencer par l’apprentissage des concepts de BigData et de comprendre le fonctionnement de l’indexation et du crawling.
Ecrit par Alibek Jakupov, Data scientist et Microsoft MVP Artifical Intelligence.