Meta, propriété de Mark Zuckerberg, a dévoilé mardi un nouveau modèle d'intelligence artificielle appelé 'ImageBind' qui combine différents sens de la même manière que le font les personnes. Dans un message publié sur Facebook, partagé une vidéo expliquant le fonctionnement d'ImageBind.
"Il comprend les images, les vidéos, l'audio, la profondeur, la thermique et les mouvements spatiaux." Zuckerberg a déclaré :
Dans une déclaration, Meta AI a déclaré que le modèle apprend une seule représentation partagée, ou espace d'incorporation, non seulement pour le texte, l'image/la vidéo et l'audio, mais aussi pour les capteurs qui enregistrent la profondeur (3D), la thermique (rayonnement infrarouge) et les unités de mesure inertielle (IMU), qui calculent le mouvement et la position.
ImageBind équipe les machines d'une compréhension holistique qui relie les objets présents sur une photo à la manière dont ils sonneront, à leur forme en 3D, à leur température, ainsi qu'à leur mouvement.
La société a déclaré qu'ImageBind peut surpasser les modèles spécialisés précédents entraînés individuellement pour une seule modalité, comme décrit dans leur article de recherche. Mais surtout, cela contribue à faire progresser l'intelligence artificielle en permettant aux machines de...