Scinan : une nouvelle approche de la recherche scientifique

Posté le : 06/09/2021

Scinan comme réponse à l'infobésité

Du surf à la plongée dans la recherche scientifique

scinan recherche IA

À l’ère d’Internet, l’infobésité est associée à une consultation excessive d’informations et à leur surexposition. Le lecteur est donc inondé de données et n’a pas assez de temps pour les comprendre toutes.

Transformer l’information en connaissance

Et lorsqu’il s’agit de recherche scientifique, la situation devient plus critique. L’accès illimité au Web permet aux scientifiques de gérer leurs propres recherches à l’aide de moteurs de recherche qui les aident à trouver rapidement toute information.

Mais transformer l’information en connaissance est très délicat. Tout article publié n’est pas toujours fiable. Bien entendu, nous ne parlons pas de l’absence d’approbation par une autorité ou d’un contrôle obligatoire de l’exactitude avant la publication, car il existe un processus de relecture avant la publication finale de l’article. Dans notre cas, il s’agit d’un problème plus profond, car nous ne savons pas si nous pouvons faire confiance à l’article ou non.

L’information sur Internet manque de crédibilité car les moteurs de recherche du Web n’ont pas la capacité de filtrer et de gérer l’information et la désinformation.

Il existe ce que l’on appelle le h-index, un indicateur concernant l’auteur qui tient compte à la fois de la productivité et de l’impact des citations des publications. Cet indicateur regroupe des paramètres importants tels que le fait de gagner le prix Nobel, d’être accepté pour des bourses de recherche et d’occuper des postes dans les meilleures universités. Ainsi, vous disposez au moins d’un indicateur fiable pour filtrer les informations inutiles. Cependant, lorsque vous découvrez un domaine, vous commencerez certainement par une recherche large avec un grand nombre d’articles très bien classés. Le chercheur doit alors vérifier chaque publication scientifique avant de l’utiliser pour prendre des décisions, ce qui lui fait perdre du temps.

Vous connaissez sans doute de nombreuses techniques permettant de lire les articles scientifiques plus rapidement, comme l’écrémage d’article, la lecture du résumé, la lecture de la conclusion, et enfin la lecture des méthodes. Si cette méthodologie peut s’avérer utile pour les experts du domaine, pour les doctorants désireux de découvrir un domaine totalement nouveau, cela reste un défi.

Ainsi, lorsque vous souhaitez lire sérieusement un article que vous trouvez pertinent, vous devez :

Lire le document dans son intégralité
Parcourir quelques-uns des articles précédents du groupe concerné
Lire quelques articles sur le même sujet
S’il y a une déclaration que vous trouvez particulièrement intéressante, obtenez la référence (si elle existe) et consultez-la.
Si vous avez besoin de plus de détails, accédez aux dépôts de données fournis ou à des informations supplémentaires, par exemple, s’il s’agit d’un concept qui ne vous est pas familier.

En général, pour les bons articles, le processus prend une à deux semaines.

Pourquoi un tel délai ? Tout simplement parce que nous voulons tirer des connaissances de cet article, et pas simplement le lire et le cocher dans notre liste de choses à faire. Cette façon de lire les articles est difficile, mais elle est efficace. Après avoir lu un article de cette manière, on se familiarise davantage avec le domaine. L’inconvénient est que cela prend du temps. En se plongeant dans un seul article, on risque également de perdre la vue d’ensemble, ou la « question principale ».

Définir la « question principale »

La question principale n’est pas « de quoi parle cet article ? » mais « quel problème ce domaine entier essaie-t-il de résoudre ? ». Pour cela, vous devez trouver un équilibre parfait entre « surfer » et « plonger », en d’autres termes, regarder tous les articles tout en ayant une bonne compréhension de ce dont ils traitent. Ce n’est pas du tout une tâche triviale, je vous l’assure.

De plus, que se passerait-il si nous voulions visualiser le domaine ? Voir les articles, leur impact sur le domaine, voir comment le domaine se développe, voir les nouveaux domaines apparaître et disparaître, et regarder les différents domaines fusionner pour produire quelque chose de grand et de beau ?

Il y a deux façons de faire cela. Soit vous avez une mémoire et une imagination phénoménales, soit vous recherchez de grands outils de visualisation.

J’en ai trouvé deux :

Connected papers : un outil permettant d’avoir un aperçu visuel d’un nouveau domaine académique.
Scinan : un navigateur graphique, qui offre une nouvelle exploration des connaissances d’une base de données descriptive et flexible, adaptée précisément à chaque cas.

Ce dernier vous permet non seulement de faire une carte graphique d’un domaine académique, mais aussi de la manipuler, de voir les sous-domaines et les articles dans un espace 3D, de « voyager » à travers la cartographie.

L’important, c’est que vous continuiez à lire de cette même manière « sérieuse » (c’est-à-dire en lisant le document dans son intégralité, en étudiant les concepts inconnus, etc.), mais avec votre navigateur GPS personnel, qui vous permet de vous diriger dans la bonne direction.

Recherche sémantique

Ainsi, la cartographie 3D semble être un outil parfait pour la recherche, non ? C’est ce qu’il semble, mais, comme nous le savons, il est toujours possible de l’améliorer. Voici donc quelques idées pour créer un outil parfait pour la recherche, comme l’intégration de la recherche sémantique assistée par l’IA. Cette idée a été inspirée par Microsoft Search.

Il y a quelques années, lors du Salon Ignite, les responsables de Microsoft ont présenté « Bing for Business », qui faisait partie de son plan visant à permettre à Bing de fonctionner comme un service de recherche sur intranet, et pas seulement comme un service de recherche sur Internet. À Ignite 2018, Microsoft a rebaptisé cette capacité « Microsoft Search in Bing ». Cette technologie Microsoft Search centrée sur les intranets sera intégrée au nouveau Edge basé sur Chromium, à Windows 10, à Office.com et à diverses apps Office, entre autres.

En d’autres termes, la motivation ultime de cette idée est de fournir des informations non seulement pour des requêtes simples de type Google, mais aussi pour des requêtes plus personnalisées et plus complexes, telles que « Comment réaliser une étude d’ablation pour la détection de la fraude ? ».

Ce qui pourrait contribuer à cette recherche sémantique sur la cartographie 3D, c’est le « projet Turing » de Microsoft Research, que les responsables ont défini comme le nom de code d’un effort d’apprentissage profond à grande échelle au sein de Microsoft. La recherche sémantique alimentée par l’IA et basée sur le modèle de Turing permettrait de contourner les limites des algorithmes de correspondance actuels, développés dans les années 1970 et 1980, qui sont basés sur des termes et non sur des concepts. Cette correspondance de termes ne permet pas de comprendre la requête de l’utilisateur exprimée en langage naturel. Ainsi, le chercheur doit cliquer sur plusieurs documents pour trouver le ou les articles exacts qu’il recherche.

« Notre objectif est de comprendre le langage naturel à l’aide de modèles d’apprentissage profond de bout en bout, généralisables et à la pointe de la technologie. » – Youngji Kim, Directeur principal du programme

Ainsi, Turing dans des outils comme Scinan aiderait à comprendre la sémantique et l’intention de la requête en effectuant une recherche par concept plutôt que par mot-clé. La compréhension sémantique signifie que les chercheurs/étudiants en doctorat/scientifiques n’ont pas besoin de faire en sorte que leurs requêtes contiennent des mots clés pour obtenir des correspondances exactes dans les résultats de recherche (par exemple, lors de la recherche de « word embeddings », les résultats contenant « word2vec », « skipgram » ou « GloVe » apparaîtraient également comme des correspondances indirectes).

« Les chercheurs de Turing utilisent également la lecture automatique pour faciliter la recherche et les résultats contextuels. » – Mary Jo Foley, Journaliste

Ecrit par Alibek JAKUPOV– Data Scientist chez Expertime et Microsoft MVP Artificial Intelligence