NousCoder-14B de Nous Research est un modèle de codage open source qui se situe juste au moment de Claude Code.



Nous Recherchela startup d’intelligence artificielle open source soutenue par une société de capital-risque de cryptographie Paradigmea publié lundi un nouveau modèle de programmation compétitif qui, selon lui, correspond ou dépasse plusieurs systèmes propriétaires plus importants — formé en seulement quatre jours à l’aide de 48 des derniers systèmes Nvidia. Processeurs graphiques B200.

Le modèle, appelé NousCoder-14Best une autre entrée dans le domaine encombré des assistants de codage IA, mais arrive à un moment particulièrement chargé : Claude Codel’outil de programmation agent de son rival Anthropic, a dominé les discussions sur les réseaux sociaux depuis le jour de l’An, les développeurs publiant haletant témoignages sur ses capacités. Ces développements simultanés soulignent à quelle vitesse le développement de logiciels assistés par l’IA évolue – et à quel point les entreprises, grandes et petites, se livrent une concurrence féroce pour capturer ce que beaucoup croient devenir une technologie fondamentale pour la façon dont les logiciels sont écrits.

taper: entrée-intégrée-en-ligne identifiant: 74cSyrq6OURp9SEQ5zOUSl

NousCoder-14B atteint un taux de précision de 67,87 pour cent sur LiveCodeBenchv6une évaluation standardisée qui teste des modèles sur des problèmes de programmation compétitifs publiée entre août 2024 et mai 2025. Ce chiffre représente une amélioration de 7,08 points de pourcentage par rapport au modèle de base à partir duquel il a été formé, selon l’évaluation d’Alibaba. Qwen3-14Bselon le rapport technique de Nous Research publié parallèlement au communiqué.

"J’ai donné à Claude Code une description du problème, cela a généré ce qu’on a construit l’année dernière en une heure," apparteniringénieur principal chez Google responsable de l’API Gemini, dans un article viral sur X la semaine dernière qui reflétait l’ambiance dominante autour des outils de codage d’IA. Dogan décrivait un système d’orchestration d’agents distribués que son équipe avait passé un an à développer – un système que Claude Code s’est rapproché d’une invite de trois paragraphes.

La juxtaposition est instructive : alors que l’Anthropic Claude Code a captivé les imaginations avec des démonstrations de développement logiciel de bout en bout, Nous Research parie que des alternatives open source formées sur des problèmes vérifiables peuvent combler l’écart – et que la transparence dans la façon dont ces modèles sont construits compte autant que la capacité brute.


Comment Nous Research a construit un modèle de codage d’IA que tout le monde peut reproduire

Ce qui distingue le NousCoder-14B Ce qui ressort de nombreuses annonces de concurrents, c’est son ouverture radicale. Nous Research a publié non seulement le poids du modèle mais le environnement complet d’apprentissage par renforcementsuite de référence et harnais de formation – construits sur les technologies de l’entreprise Cadre Atropos — permettre à tout chercheur disposant de suffisamment de calcul de reproduire ou prolonger l’œuvre.

"La pile Atropos en open source fournit l’infrastructure nécessaire pour une recherche de raisonnement reproductible au niveau des Olympiades," a noté un observateur sur Xrésumant l’importance pour les communautés universitaires et open source.

Le modèle a été formé par Joe Leechercheur en résidence à Nous Research et lui-même ancien programmeur compétitif. celui de Li rapport technique révèle une dimension personnelle inattendue : il a comparé la trajectoire d’amélioration du modèle à son propre parcours sur Codeforces, la plateforme de programmation compétitive où les participants obtiennent des notes en fonction de leurs performances au concours.

Sur la base d’estimations approximatives mappant les scores de LiveCodeBench aux évaluations de Codeforces, Li a calculé que l’amélioration de NousCoder-14B – d’environ la plage de notation de 1 600 à 1 750 à 2 100 à 2 200 – reflète un bond qui lui a pris près de deux ans de pratique soutenue entre 14 et 16 ans. Le modèle a accompli l’équivalent en quatre jours.

"Regarder cette dernière séance d’entraînement se dérouler était une expérience assez surréaliste," Li a écrit dans le rapport technique.

Mais Li n’a pas tardé à noter une mise en garde importante qui touche à des questions plus larges sur l’efficacité de l’IA : il a résolu environ 1 000 problèmes au cours de ces deux années, alors que le modèle en nécessitait 24 000. Les humains, du moins pour l’instant, restent des apprenants considérablement plus efficaces en matière d’échantillonnage.


À l’intérieur du système d’apprentissage par renforcement qui s’entraîne sur 24 000 problèmes de programmation compétitifs

NousCoder-14BLe processus de formation offre une fenêtre sur les techniques de plus en plus sophistiquées que les chercheurs utilisent pour améliorer les capacités de raisonnement de l’IA grâce à l’apprentissage par renforcement.

L’approche s’appuie sur ce que les chercheurs appellent "récompenses vérifiables" — un système dans lequel le modèle génère des solutions de code, ces solutions sont exécutées par rapport à des cas de test et le modèle reçoit un signal binaire simple : correct ou incorrect. Cette boucle de rétroaction, bien que simple sur le plan conceptuel, nécessite une infrastructure importante pour être exécutée à grande échelle.

Nous Recherche utilisé Modalune plate-forme de cloud computing, pour exécuter en parallèle l’exécution de code en bac à sable. Chacun des 24 000 problèmes de formation contient en moyenne des centaines de cas de test, et le système doit vérifier que le code généré produit des résultats corrects dans les limites de temps et de mémoire – 15 secondes et 4 gigaoctets, respectivement.

La formation utilisait une technique appelée DAPO (optimisation de la politique d’échantillonnage dynamique)dont les chercheurs ont constaté des performances légèrement supérieures aux alternatives dans leurs expériences. Une innovation clé implique "échantillonnage dynamique" — rejeter les exemples de formation dans lesquels le modèle résout toutes les tentatives ou échoue à toutes les tentatives, car ceux-ci ne fournissent aucun signal de gradient utile pour l’apprentissage.

Les chercheurs ont également adopté "extension de contexte itérative," entraînez d’abord le modèle avec une fenêtre contextuelle de 32 000 jetons avant de l’étendre à 40 000 jetons. Lors de l’évaluation, l’extension du contexte à environ 80 000 jetons a produit les meilleurs résultats, avec une précision atteignant 67,87 %.

Le plus important peut-être est que le pipeline de formation chevauche l’inférence et la vérification : dès que le modèle génère une solution, il commence à travailler sur le problème suivant pendant que la solution précédente est vérifiée. Ce pipeline, combiné à une formation asynchrone où plusieurs instances de modèle fonctionnent en parallèle, maximise l’utilisation du matériel sur des clusters GPU coûteux.


La pénurie imminente de données pourrait ralentir la progression du modèle de codage de l’IA

Enterré chez Li rapport technique est une découverte ayant des implications significatives pour l’avenir du développement de l’IA : l’ensemble de données de formation pour NousCoder-14B englobe "une partie importante de tous les problèmes de programmation compétitifs facilement disponibles et vérifiables dans un format d’ensemble de données standardisé."

En d’autres termes, pour ce domaine particulier, les chercheurs approchent des limites des données de formation de haute qualité.

"Le nombre total de problèmes de programmation concurrentielle sur Internet est à peu près du même ordre de grandeur," » a écrit Li, faisant référence aux 24 000 problèmes utilisés pour la formation. "Cela suggère que dans le domaine de la programmation compétitive, nous avons atteint les limites des données de haute qualité."

Cette observation fait écho aux préoccupations croissantes du secteur de l’IA concernant les contraintes liées aux données. Alors que le calcul continue d’évoluer selon des principes économiques et techniques bien compris, les données de formation sont "de plus en plus fini," comme Li l’a dit.

"Il semble que certaines des recherches les plus importantes qui devront être menées à l’avenir concerneront les domaines de la génération de données synthétiques et des algorithmes et architectures efficaces en matière de données." a-t-il conclu.

Le défi est particulièrement aigu pour la programmation compétitive car le domaine nécessite des problèmes avec des solutions correctes connues qui peuvent être vérifiées automatiquement. Contrairement aux tâches en langage naturel pour lesquelles une évaluation humaine ou des mesures proxy suffisent, le code fonctionne ou non, ce qui rend la génération de données synthétiques considérablement plus difficile.

Li a identifié une voie potentielle : former des modèles non seulement pour résoudre des problèmes, mais aussi pour générer des problèmes résolubles, permettant une forme de jeu personnel similaire aux techniques qui ont fait leurs preuves dans les systèmes d’IA de jeu. "Une fois la génération de problèmes synthétiques résolue, le jeu personnel devient une direction très intéressante," il a écrit.


Un pari de 65 millions de dollars pour que l’IA open source puisse rivaliser avec la Big Tech

Nous Research s’est taillé une position distinctive dans le paysage de l’IA : une entreprise engagée dans versions open source qui concurrencent – ​​et parfois dépassent – ​​les alternatives propriétaires.

L’entreprise a soulevé 50 millions de dollars en avril 2025 dans un cycle dirigé par Paradigm, la société de capital-risque axée sur la crypto-monnaie fondée par le co-fondateur de Coinbase, Fred Ehrsam. Le financement total a atteint 65 millions de dollars, selon certains rapports. Cet investissement reflète l’intérêt croissant pour les approches décentralisées de la formation en IA, un domaine dans lequel Nous Research a développé son expertise. Plateforme Psyché.

Les versions précédentes incluent Hermès 4une famille de modèles que nous avons signalés "surpasser ChatGPT sans restrictions de contenu," et DeepHermes-3, que la société a décrit comme le premier "modèle de raisonnement activé" — permettant aux utilisateurs d’activer des capacités de réflexion étendues à la demande.

L’entreprise a cultivé une esthétique et une communauté distinctives, suscitant un certain scepticisme quant à savoir si le style pourrait éclipser le fond. "Bien sûr, je vais croire une société d’anime PFP. arrêter de benchmarkmaxxing ffs," a écrit une critique sur Xfaisant référence à la marque de style anime de Nous Research et à la pratique de l’industrie consistant à optimiser les performances de référence.

D’autres ont soulevé des questions techniques. "Sur la base du benchmark, Nemotron est meilleur," a noté un commentateur, faisant référence à la famille de modèles de langage de Nvidia. Un autre a demandé si NousCoder-14B est "Codage axé sur l’agent ou juste « one-shot »" — une distinction importante pour le développement de logiciels pratiques, où l’itération sur la base des commentaires produit généralement de meilleurs résultats que des tentatives uniques.


Selon les chercheurs, ce qui doit se produire ensuite pour que les outils de codage de l’IA continuent de s’améliorer

La version comprend plusieurs orientations pour les travaux futurs qui indiquent où pourrait se diriger la recherche sur le codage de l’IA.

L’apprentissage par renforcement multitours arrive en tête de liste. Actuellement, le modèle ne reçoit qu’une récompense binaire finale – réussite ou échec – après avoir généré une solution. Mais les problèmes de programmation compétitifs incluent généralement des cas de tests publics qui fournissent un retour intermédiaire : erreurs de compilation, sorties incorrectes, non-respect des délais. Les modèles de formation intégrant ces commentaires au cours de plusieurs tentatives pourraient améliorer considérablement les performances.

Contrôler la longueur des réponses reste également un défi. Les chercheurs ont découvert que les solutions incorrectes avaient tendance à être plus longues que les bonnes, et que la longueur des réponses saturait rapidement les fenêtres contextuelles disponibles pendant la formation – un modèle que diverses modifications algorithmiques n’ont pas réussi à résoudre.

Peut-être de la manière la plus ambitieuse, Li a proposé "génération de problèmes et jeu personnel" — des modèles de formation pour résoudre et créer des problèmes de programmation. Cela permettrait de résoudre directement le problème de la rareté des données en permettant aux modèles de générer leurs propres programmes de formation.

"Les humains sont doués pour générer des problèmes intéressants et utiles pour d’autres programmeurs concurrents, mais il semble qu’il existe encore une lacune significative dans les capacités LLM en matière de génération de problèmes créatifs." Li a écrit.

Le modèle est disponible maintenant sur Hugging Face sous licence Apache 2.0. Pour les chercheurs et développeurs qui souhaitent s’appuyer sur leurs travaux, Nous Research a publié le document complet Pile de formation Atropos à côté.

Ce qu’il a fallu à Li deux ans de dévouement adolescent pour réaliser – passer d’un novice de niveau 1600 à un concurrent noté 2100 sur Codeforces – une IA répliquée en 96 heures. Il lui fallait 1 000 problèmes. Le modèle en avait besoin de 24 000. Mais bientôt, ces systèmes pourraient apprendre à rédiger leurs propres problèmes, à s’instruire eux-mêmes et à laisser complètement derrière eux les repères humains.

La question n’est plus de savoir si les machines peuvent apprendre à coder. Il s’agit de savoir s’ils seront bientôt de meilleurs enseignants que nous ne l’avons jamais été.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *