Meta fait un pas de géant en présentant une gamme impressionnante d'outils d'IA, dont le dernier en date est Audiocraft. Ce nouvel outil d'IA a la capacité de générer de l'audio et de la musique à partir de simples invitations textuelles. Audiocraft se compose de trois modèles distincts : Musique Gen, AudioGen et InCodec.
Le modèle Musique Gen a été entraîné sur une vaste collection de quelque 400 000 enregistrements, représentant plus de 20 000 heures de musique détenue par Meta ou spécifiquement autorisée à des fins d'entraînement, avec des descriptions textuelles et des métadonnées associées. Ce modèle peut générer de la musique en réponse à des instructions textuelles.
De son côté, AudioGen, alimenté par des sons d'effets sonores courants, est capable de créer de l'audio en se basant sur des invitations textuelles. Aujourd'hui, Meta annonce le lancement d'une version améliorée de son décodeur EnCodec, offrant ainsi une qualité sonore supérieure pour la génération de musique.
Simultanément, la société introduit ses modèles pré-entraînés AudioGen, ce qui permet aux utilisateurs de créer une variété de sons d'ambiance et d'effets sonores, allant des aboiements de chiens aux klaxons de voitures en passant par les bruits de pas sur des surfaces en bois. De plus, Meta rend accessible au public l'ensemble complet de poids et de codes de modèle Audiocraft.
Ces modèles seront accessibles en open source, ouvrant ainsi la possibilité aux chercheurs et aux praticiens de créer leurs propres modèles à partir de leurs propres ensembles de données. Selon les dires de Meta, la famille de modèles Audiocraft offre une qualité sonore exceptionnelle, tout en demeurant conviviale à utiliser.
Le modèle Musique Gen a été entraîné sur une vaste collection de quelque 400 000 enregistrements, représentant plus de 20 000 heures de musique détenue par Meta ou spécifiquement autorisée à des fins d'entraînement, avec des descriptions textuelles et des métadonnées associées. Ce modèle peut générer de la musique en réponse à des instructions textuelles.
De son côté, AudioGen, alimenté par des sons d'effets sonores courants, est capable de créer de l'audio en se basant sur des invitations textuelles. Aujourd'hui, Meta annonce le lancement d'une version améliorée de son décodeur EnCodec, offrant ainsi une qualité sonore supérieure pour la génération de musique.
Simultanément, la société introduit ses modèles pré-entraînés AudioGen, ce qui permet aux utilisateurs de créer une variété de sons d'ambiance et d'effets sonores, allant des aboiements de chiens aux klaxons de voitures en passant par les bruits de pas sur des surfaces en bois. De plus, Meta rend accessible au public l'ensemble complet de poids et de codes de modèle Audiocraft.
Ces modèles seront accessibles en open source, ouvrant ainsi la possibilité aux chercheurs et aux praticiens de créer leurs propres modèles à partir de leurs propres ensembles de données. Selon les dires de Meta, la famille de modèles Audiocraft offre une qualité sonore exceptionnelle, tout en demeurant conviviale à utiliser.