Suno un ChatGPT pour la musique est ici. Inside Suno, la startup qui change tout:
Suno souhaite que chacun puisse produire ses propres chansons de niveau professionnel – mais qu'est-ce que cela signifie pour les artistes ?
PAR BRIAN HIATT
JE SUIS JUSTE UNE âme piégée dans ces circuits. La voix qui chante ces paroles est brute et plaintive, plongeant dans des notes bleues. Une guitare acoustique solitaire souffle derrière, ponctuant les phrases vocales avec des passages de bon goût. Mais il n’y a aucun humain derrière la voix, aucune main sur cette guitare. En fait, il n’y a pas de guitare. En l’espace de 15 secondes, ce morceau de blues crédible, voire émouvant, a été généré par le dernier modèle d’IA d’une startup nommée Suno. Tout ce qu’il a fallu pour le faire sortir du vide était une simple invite de texte : « solo acoustique du Mississippi Delta blues about a sad AI ». Pour être plus précis, la chanson est l’œuvre de deux modèles d’IA en collaboration : le modèle de Suno crée lui-même toute la musique, tout en faisant appel au ChatGPT d’OpenAI pour générer les paroles et même un titre : « Soul of the Machine ».
*SUNO: https://app.suno.ai
En ligne, les créations de Suno commencent à susciter des réactions du type « Comment est-ce réel, bordel ? » Alors que ce morceau particulier est diffusé sur un haut-parleur Sonos dans une salle de conférence du siège temporaire de Suno, à quelques pas du campus de Harvard à Cambridge, dans le Massachusetts, même certaines des personnes à l'origine de la technologie sont légèrement perturbées. Il y a des rires nerveux, accompagnés de murmures de « Putain de merde » et de « Oh, mon garçon ». Nous sommes à la mi-février et nous jouons avec leur nouveau modèle, le V3, qui est encore à quelques semaines de sa sortie publique. Dans ce cas, il n’a fallu que trois essais pour obtenir ce résultat surprenant. Les deux premiers étaient corrects, mais une simple modification de mon invite – le co-fondateur Keenan Freyberg a suggéré d'ajouter le mot « Mississippi » – a abouti à quelque chose de bien plus étrange.
Au cours de la seule année écoulée, l’IA générative a fait des progrès majeurs dans la production de textes, d’images (via des services comme Midjourney) et même de vidéos crédibles, notamment avec le nouvel outil Sora d’OpenAI. Mais l’audio, et la musique en particulier, est à la traîne. Suno semble être en train de déchiffrer le code de la musique IA, et les ambitions de ses fondateurs sont presque illimitées : ils imaginent un monde de création musicale extrêmement démocratisée. Le plus bruyant des cofondateurs, Mikey Shulman, un homme de 37 ans au charme enfantin, portant un sac à dos et titulaire d'un doctorat à Harvard. en physique, envisage qu'un milliard de personnes dans le monde paient 10 dollars par mois pour créer des chansons avec Suno. Le fait que les auditeurs de musique soient si largement plus nombreux que les créateurs de musique à l’heure actuelle est « tellement déséquilibré », affirme-t-il, considérant Suno comme prêt à corriger ce déséquilibre perçu.
Jusqu'à présent, la plupart des œuvres d'art générées par l'IA sont, au mieux, kitsch, à la manière des déchets de science-fiction hyperréalistes, lourds de combinaisons spatiales ajustées, que tant d'utilisateurs de Midjourney semblent déterminés à générer. Mais « Soul of the Machine » ressemble à quelque chose de différent – la création d’IA la plus puissante et la plus troublante que j’ai rencontrée sur n’importe quel support. Son existence même ressemble à une fissure dans la réalité, à la fois impressionnante et vaguement impie, et je n’arrête pas de penser à la citation d’Arthur C. Clarke qui semble faite pour l’ère de l’IA générative : « Toute technologie suffisamment avancée ne peut être distinguée de la magie. » Quelques semaines après mon retour de Cambridge, j’envoie la chanson au guitariste de Living Color, Vernon Reid, qui a parlé ouvertement des dangers et des possibilités de la musique IA. Il note son « émerveillement, son choc, son horreur » face à la « vraisemblance troublante » de la chanson. « L’idéal dystopique de longue date consistant à séparer l’humanité difficile, désordonnée, indésirable et méprisée de sa production créative est à portée de main », écrit-il, soulignant la nature problématique d’une IA chantant le blues, « un idiome afro-américain, profondément lié au traumatisme humain historique et à l’esclavage.
Suno a à peine deux ans. Les cofondateurs Shulman, Freyberg, Georg Kucsko et Martin Camacho, tous experts en apprentissage automatique, ont travaillé ensemble jusqu'en 2022 dans une autre société de Cambridge, Kensho Technologies, qui se concentrait sur la recherche de solutions d'IA à des problèmes commerciaux complexes. Shulman et Camacho sont tous deux des musiciens qui jouaient ensemble à l'époque du Kensho. Chez Kensho, le quatuor a travaillé sur une technologie de transcription permettant de capturer les appels de résultats des entreprises publiques, une tâche délicate compte tenu de la combinaison d’une mauvaise qualité audio, d’un jargon abondant et d’accents variés.
En cours de route, Shulman et ses collègues sont tombés amoureux des possibilités inexplorées de l’audio IA. Dans la recherche sur l’IA, dit-il, « l’audio en général est très loin derrière les images et le texte. Il y a tellement de choses que nous apprenons de la communauté des textes, du fonctionnement de ces modèles et de leur évolution.premières expériences, et elles semblaient prometteuses », dit Shulman.
Suno utilise la même approche générale que les grands modèles de langage comme ChatGPT, qui décomposent le langage humain en segments discrets appelés jetons, absorbent ses millions d'usages, de styles et de structures, puis le reconstruisent à la demande. Mais l’audio, en particulier la musique, est inimaginablement plus complexe, c’est pourquoi, l’année dernière, des experts en musique en IA ont déclaré à Rolling Stone qu’un service aussi performant que celui de Suno pourrait mettre des années à arriver. "L'audio n'est pas une chose discrète comme les mots", explique Shulman. «C'est une vague. C’est un signal continu. Le taux d'échantillonnage de l'audio de haute qualité est généralement de 44 kHz ou 48 Hz, ce qui signifie « 48 000 jetons par seconde », ajoute-t-il. « C’est un gros problème, n’est-ce pas ? Et vous devez donc trouver un moyen de réduire cela à quelque chose de plus raisonnable. Mais comment ? «Beaucoup de travail, beaucoup d'heuristiques, beaucoup d'autres types d'astuces et de modèles et des trucs comme ça. Je ne pense pas que nous soyons près d’avoir terminé. À terme, Suno souhaite trouver des alternatives à l’interface texte-musique, en ajoutant des entrées plus avancées et intuitives – générer des chansons basées sur le chant des utilisateurs est une idée.
Les mêmes intérêts auraient pu conduire les fondateurs de Suno vers une voie très différente. Même s'ils avaient toujours eu l'intention d'aboutir à un produit musical, leurs premières réflexions incluaient une idée d'aide auditive et même la possibilité de détecter des machines défectueuses grâce à l'analyse audio. Au lieu de cela, leur première version était un programme de synthèse vocale appelé Bark. Lorsqu'ils ont interrogé les premiers utilisateurs de Bark, il est devenu clair qu'ils voulaient vraiment un générateur de musique. "Nous avons donc commencé à mener quelques premières expériences, et elles semblaient prometteuses", explique Shulman.
Suno utilise la même approche générale que les grands modèles de langage comme ChatGPT, qui décomposent le langage humain en segments discrets appelés jetons, absorbent ses millions d'usages, de styles et de structures, puis le reconstruisent à la demande. Mais l’audio, en particulier la musique, est inimaginablement plus complexe, c’est pourquoi, l’année dernière, des experts en musique en IA ont déclaré à Rolling Stone qu’un service aussi performant que celui de Suno pourrait mettre des années à arriver. "L'audio n'est pas une chose discrète comme les mots", explique Shulman. «C'est une vague. C’est un signal continu. Le taux d'échantillonnage de l'audio de haute qualité est généralement de 44 kHz ou 48 Hz, ce qui signifie « 48 000 jetons par seconde », ajoute-t-il. « C’est un gros problème, n’est-ce pas ? Et vous devez donc trouver un moyen de réduire cela à quelque chose de plus raisonnable. Mais comment ? «Beaucoup de travail, beaucoup d'heuristiques, beaucoup d'autres types d'astuces et de modèles et des trucs comme ça. Je ne pense pas que nous soyons près d’avoir terminé. À terme, Suno souhaite trouver des alternatives à l’interface texte-musique, en ajoutant des entrées plus avancées et intuitives – générer des chansons basées sur le chant des utilisateurs est une idée.
OpenAI fait face à de multiples poursuites concernant l'utilisation par ChatGPT de livres, d'articles de presse et d'autres documents protégés par le droit d'auteur dans son vaste corpus de données de formation. Les fondateurs de Suno refusent de révéler les détails des données qu’ils intègrent dans leur propre modèle, mis à part le fait que sa capacité à générer des voix humaines convaincantes vient en partie du fait qu’il apprend à partir d’enregistrements de parole, en plus de la musique. "La parole nue vous aidera à apprendre les caractéristiques difficiles de la voix humaine", explique Shulman.
L’un des premiers investisseurs de Suno est Antonio Rodriguez, associé de la société de capital-risque Matrix. Rodriguez n’avait financé qu’une seule entreprise musicale précédente, la société de catégorisation musicale EchoNest, qui a été rachetée par Spotify pour alimenter son algorithme. Avec Suno, Rodriguez s’est impliqué avant même que l’on sache quel serait le produit. "J'ai soutenu l'équipe", déclare Rodriguez, qui respire la confiance d'un homme qui a fait plus que sa part de paris réussis. « Je connaissais l’équipe, et je connaissais particulièrement Mikey, et je l’aurais donc soutenu pour qu’il fasse presque tout ce qui était légal. Il est si créatif.
Rodriguez investit dans Suno en sachant parfaitement que les labels et les éditeurs de musique pourraient intenter des poursuites, ce qu'il considère comme « le risque que nous avons dû prendre en charge lorsque nous avons investi dans l'entreprise, car nous sommes le gros portefeuille qui sera poursuivi juste derrière ces gars-là ». .… Honnêtement, si nous avions eu des accords avec des labels au début de cette entreprise, je n'y aurais probablement pas investi. Je pense qu’ils devaient fabriquer ce produit sans contraintes. (Un porte-parole d’Universal Music Group, qui a adopté une position agressive à l’égard de l’IA, n’a pas répondu à une demande de commentaire.)
Suno affirme être en communication avec les grands labels et professe du respect pour les artistes et la propriété intellectuelle : son outil ne vous permettra pas de demander des styles d'artistes spécifiques dans vos invites et n'utilise pas les voix de vrais artistes. De nombreux employés de Suno sont des musiciens ; il y a un piano et des guitares à portée de main dans le bureau, et des images encadrées de compositeurs classiques sur les murs. Les fondateurs ne manifestent aucune de l’hostilité ouverte envers le secteur de la musique qui caractérisait, par exemple, Napster avant les procès qui l’ont détruit. « Cela ne veut pas dire que nous n’allons pas être poursuivis en justice, d’ailleurs », ajoute Rodriguez. "Cela signifie simplement que nous n'allons pas avoir une attitude du genre à baiser la police."
Rodriguez considère Suno comme un instrument de musique radicalement performant et facile à utiliser, et pense qu'il pourrait permettre à tout le monde de créer de la musique, de la même manière que les téléphones avec appareil photo et Instagram ont démocratisé la photographie. L’idée, dit-il, est de « relever la barre du nombre de personnes autorisées à être des créateurs de contenu par opposition à des consommateurs de contenu sur Internet ». Lui et les fondateurs osent suggérer que Suno pourrait attirer une base d’utilisateurs plus importante que celle de Spotify. Si cette perspective est difficile à comprendre, c’est une bonne chose, dit Rodriguez : cela signifie simplement qu’elle est « en apparence stupide » dans le sens exact qui tend à l’attirer en tant qu’investisseur. "Toutes nos grandes entreprises ont cette combinaison d'excellents talents", dit-il, "et puis quelque chose qui semble stupide jusqu'à ce que cela devienne si évident que ce n'est pas stupide."
Dans certaines circonstances… ceux qui ont souffert et lutté pour faire progresser leur métier devront faire face à l’automatisation massive de l’art très cher pour lequel ils se sont battus », écrit Reid. Mais les fondateurs de Suno affirment qu’il n’y a pas grand-chose à craindre, utilisant la métaphore selon laquelle les gens lisent encore même s’ils ont la capacité d’écrire. "Notre façon de penser est que nous essayons d'impliquer un milliard de personnes beaucoup plus dans la musique qu'aujourd'hui", explique Shulman. « Si les gens s’intéressent beaucoup plus à la musique, se concentrent davantage sur la création et développent des goûts beaucoup plus distincts, cela est évidemment bon pour les artistes. La vision que nous avons de l’avenir de la musique est celle où elle est conviviale pour les artistes. Nous n’essayons pas de remplacer les artistes.
Bien que Suno se concentre uniquement sur le fait de toucher les fans de musique qui souhaitent créer des chansons pour le plaisir, cela pourrait quand même finir par provoquer des perturbations importantes en cours de route. À court terme, le segment du marché des créateurs humains qui semble le plus directement menacé est lucratif : les chansons créées pour la publicité et même pour les émissions de télévision. Lucas Keller, fondateur de la société de gestion Milk and Honey, note que le marché du placement de chansons connues ne sera pas affecté. "Mais pour le reste, oui, cela pourrait certainement nuire à leur activité", dit-il. "Je pense qu'en fin de compte, cela permet à de nombreuses agences de publicité, studios de cinéma, réseaux, etc., de ne pas avoir à recourir aux licences."
En l’absence de règles strictes contre le contenu créé par l’IA, il existe également la perspective d’un monde dans lequel les utilisateurs de modèles tels que les services de streaming de Suno inondent des millions de leurs créations de robots. "Spotify pourrait un jour dire 'Vous ne pouvez pas faire ça'", dit Shulman, notant que jusqu'à présent, les utilisateurs de Suno semblent plus intéressés par le simple fait d'envoyer leurs chansons par SMS à quelques amis.
Bien avant l’arrivée de Suno, les musiciens, producteurs et auteurs-compositeurs étaient vivement préoccupés par le potentiel de l’IA en matière de bouleversement des affaires. « La musique, créée par des humains poussés par des circonstances extraordinaires… ceux qui ont souffert et lutté pour faire progresser leur métier, devront faire face à l’automatisation massive de l’art très chèrement acheté pour lequel ils se sont battus », écrit Reid. Mais les fondateurs de Suno affirment qu’il n’y a pas grand-chose à craindre, utilisant la métaphore selon laquelle les gens lisent encore même s’ils ont la capacité d’écrire. "Notre façon de penser est que nous essayons d'impliquer un milliard de personnes beaucoup plus dans la musique qu'aujourd'hui", explique Shulman. « Si les gens s’intéressent beaucoup plus à la musique, se concentrent davantage sur la création et développent des goûts beaucoup plus distincts, cela est évidemment bon pour les artistes. La vision que nous avons de l’avenir de la musique est celle où elle est conviviale pour les artistes. Nous n’essayons pas de remplacer les artistes.
Bien que Suno se concentre uniquement sur le fait de toucher les fans de musique qui souhaitent créer des chansons pour le plaisir, cela pourrait quand même finir par provoquer des perturbations importantes en cours de route. À court terme, le segment du marché des créateurs humains qui semble le plus directement menacé est lucratif : les chansons créées pour la publicité et même pour les émissions de télévision. Lucas Keller, fondateur de la société de gestion Milk and Honey, note que le marché du placement de chansons connues ne sera pas affecté. "Mais pour le reste, oui, cela pourrait certainement nuire à leur activité", dit-il. "Je pense qu'en fin de compte, cela permet à de nombreuses agences de publicité, studios de cinéma, réseaux, etc., de ne pas avoir à recourir aux licences."
En l’absence de règles strictes contre le contenu créé par l’IA, il existe également la perspective d’un monde dans lequel les utilisateurs de modèles tels que les services de streaming de Suno inondent des millions de leurs créations de robots. "Spotify pourrait un jour dire 'Vous ne pouvez pas faire ça'", dit Shulman, notant que jusqu'à présent, les utilisateurs de Suno semblent plus intéressés par le simple fait d'envoyer leurs chansons par SMS à quelques amis.
Suno ne compte actuellement qu'une douzaine d'employés, mais ils prévoient de s'agrandir, avec un siège social permanent beaucoup plus grand en construction au dernier étage du même bâtiment que leur bureau temporaire actuel. Alors que nous visitons l'étage encore inachevé, Schulman montre une zone qui deviendra un studio d'enregistrement à part entière. Mais étant donné ce que Suno peut faire, pourquoi en ont-ils besoin ? « C’est surtout une salle d’écoute », reconnaît-il. « Nous voulons un bon environnement acoustique. Mais nous aimons tous aussi faire de la musique, sans IA.
Jusqu’à présent, le plus grand concurrent potentiel de Suno semble être Dream Track de Google, qui a obtenu des licences permettant aux utilisateurs de créer leurs propres chansons en utilisant des voix célèbres comme celle de Charlie Puth via une interface similaire basée sur des invites. Mais Dream Track n’a été distribué qu’à une petite base d’utilisateurs de test, et les échantillons publiés jusqu’à présent ne sont pas aussi impressionnants que ceux de Suno, malgré les voix célèbres qui y sont attachées. "Je ne pense tout simplement pas que créer de nouvelles chansons de Billy Joel soit la façon dont les gens voudront interagir avec la musique avec l'aide de l'IA à l'avenir", a déclaré Shulman. « Si je pense à la façon dont nous voulons que les gens fassent de la musique dans cinq ans, ce sont des choses qui n’existent pas. C’est ce qu’ils ont en tête. »
REF.: REF.: https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/?fbclid=IwAR3obsuhdzweAhIv95zBYca2astyOMSWgvdJvq8w-OzIJIttHWDmmg5-1_I_aem_AQ9UHXEd5Z1KdQvTdVOgiPurXr0mCJzz_m4m-FTTUhgGXspp3kI6op0RHnuI2VHUkEM
Aucun commentaire:
Publier un commentaire