darwin.skill : le skill Claude Code qui optimise tes autres skills tout seul

Et si un skill Claude Code pouvait améliorer tous tes autres skills, tout seul ? C'est exactement l'idée derrière darwin.skill : un système qui prend tes skills un par un, les note, les améliore, teste si le résultat est vraiment meilleur, et ne garde que ce qui marche. Le tout inspiré de la méthode que Karpathy utilise pour entraîner ses modèles.

L'idée part d'un constat simple. Quand tu débutes avec Claude Code, tu as deux ou trois skills et tu les ajustes à la main. Mais l'écosystème grossit vite, et le jour où tu en as plusieurs dizaines, tu ne peux plus tous les maintenir manuellement. darwin.skill transforme cette maintenance en un processus automatique et mesurable.

Pourquoi c'est utile

Tu arrêtes de juger tes skills à leur apparence et tu commences à mesurer leur effet réel
Tu peux optimiser des dizaines de skills sans y passer tes journées
Le système ne garde que les améliorations qui marchent vraiment, le reste est annulé automatiquement
Tu gardes le contrôle : tu valides chaque changement avant qu'il passe
C'est open-source, MIT, et ça documente une approche que tu peux réutiliser ailleurs

Le cycle en boucle

Le coeur du système, c'est une boucle de quatre étapes qui tourne jusqu'à ce qu'un skill soit au maximum de ce qu'il peut donner.

Le cycle en 4 étapes : évalue, améliore, teste, garde ou revert, et ça recommence

D'abord, il évalue : il note ton skill sur huit critères, pour un score sur cent. Ensuite il améliore : il repère le critère le plus faible et génère une modification ciblée sur ce point précis (jamais plusieurs choses à la fois, pour que l'effet soit attribuable). Puis il teste : il lance de vrais prompts et mesure si la sortie est réellement meilleure. Enfin il garde ou annule : si le nouveau score dépasse l'ancien, il garde le changement ; sinon, il revient en arrière tout seul. Et ça recommence.

Le mécanisme du cliquet

C'est le détail qui rend tout ça fiable, et c'est emprunté direct à l'autoresearch de Karpathy. On l'appelle le cliquet, ou ratchet en anglais.

Graphe en escalier : le score monte, les tentatives ratées sont annulées et reviennent à la baseline

Le principe : le score ne peut que monter. Chaque tour propose une modification. Si elle améliore le skill, elle devient la nouvelle référence. Si elle le dégrade, elle est annulée proprement avec un git revert, et le système repart de la meilleure version connue. Concrètement, si ton skill est à 78 et qu'une tentative tombe à 75, elle est rejetée, et la prochaine amélioration repart de 78. Tu n'accumules jamais de régressions au fil du temps, contrairement à une optimisation manuelle où on casse souvent un truc en voulant en améliorer un autre.

Comment il note un skill

L'évaluation se fait sur huit critères répartis en deux familles, pour un total de cent points.

Deux colonnes : Structure 60 points (analyse statique) et Effet réel 40 points (testé en vrai)

La première famille, c'est la structure, qui vaut soixante points. Ce sont les critères vérifiables sans rien lancer : la clarté des instructions, le format, la présence d'exemples, la gestion des cas limites, la concision. C'est l'analyse statique, la forme du skill.

La deuxième famille, c'est l'effet réel, qui vaut quarante points, et c'est là que darwin.skill se distingue d'un simple linter. Le critère le plus lourd à lui seul, vingt-cinq points, c'est la performance sur de vrais prompts. Parce qu'un skill peut être parfaitement écrit sur la forme et donner des résultats médiocres en pratique. C'est ce critère qui tranche entre un skill qui a l'air bon et un skill qui est bon.

À savoir avant de te lancer

C'est un concept malin et une approche nouvelle, mais il faut le prendre pour ce qu'il est.

Quatre points : pour qui, humain dans la boucle, jeune projet, l'idée clé

C'est fait pour ceux qui ont beaucoup de skills. En dessous de trente ou soixante skills, la maintenance manuelle reste gérable. Au-delà, c'est là que ça prend tout son sens.

Tu restes dans la boucle. Le système n'est pas entièrement autonome : il s'arrête après chaque skill optimisé, te montre la différence et le changement de score, et attend ton feu vert avant de continuer. C'est volontaire, parce que la qualité d'un skill est plus subtile qu'un simple chiffre et mérite un oeil humain.

C'est un projet tout jeune. Le repo est récent et encore petit. C'est davantage un concept élégant à comprendre et une approche à connaître qu'un outil déjà adopté par des milliers de personnes. Ça vaut le coup de le suivre et de tester l'idée, en gardant ça en tête.

Et surtout, retiens l'idée clé : arrêter de deviner si un skill est bon en regardant sa forme, et commencer à mesurer son effet réel sur de vrais prompts. Même si tu n'installes pas l'outil, cette idée seule peut changer ta façon d'écrire tes skills.

Pour qui c'est

Si tu maintiens une grosse collection de skills Claude Code, c'est l'outil qui transforme une corvée en processus automatique et mesurable.

Si tu construis des agents ou des systèmes IA, le pattern derrière darwin.skill (optimiser un asset en ne gardant que les améliorations testées) est réutilisable bien au-delà des skills. C'est une façon de penser l'amélioration continue qui vient tout droit de l'entraînement de modèles.

Et si tu débutes avec les skills, la simple lecture du système te fera écrire de meilleurs skills dès le départ, parce que tu sauras sur quels critères ils seront jugés.

Bottom line

darwin.skill est un de ces projets qui valent autant pour leur idée que pour leur code. Le repo est ici : github.com/alchaincyf/darwin-skill, avec le SKILL.md complet à poser dans ton dossier de skills Claude Code et le détail de la grille d'évaluation. L'installation tient en deux lignes : tu copies le SKILL.md dans ton dossier de skills, et tu demandes à Claude d'évaluer ou d'optimiser tes skills existants.

Si tu as déjà une bonne collection de skills et que tu veux les faire monter en qualité sans y passer des heures, c'est exactement le genre d'outil à tester.