Dans le contexte: Les chercheurs bouleversent le monde créatif en exploitant l’intelligence artificielle et les algorithmes d’apprentissage automatique pour transformer de nombreuses tâches en processus semi-autonomes. Rien n’est plus à l’abri de l’IA générative, pas même l’écriture illisible de votre médecin local.
Des années avant qu’OpenAI et d’autres organisations ne commencent à jouer avec l’IA pour générer facilement du texte, de la parole, des œuvres d’art, des logiciels malveillants et des vidéos, le chercheur en apprentissage automatique Sean Vasquez étudiait un article de 2013 d’Alex Graves de Google DeepMind pour créer des expériences de “synthèse d’écriture manuscrite”.
Vasquez archivé son code sur GitHub avec sa démo en ligne. L’expérience est disponible sur Calligraphe.aique Hacker News a récemment redécouvert. La synthèse d’écriture manuscrite derrière Calligrapher.ai utilise une méthode générative basée sur un réseau neuronal récurrent (RNN).
Un RNN est une classe de réseaux de neurones artificiels où les connexions entre les nœuds peuvent créer un cycle permettant à la sortie de certains nœuds d’affecter l’entrée ultérieure aux mêmes nœuds. Les réseaux de neurones récurrents peuvent présenter un comportement dynamique temporel, ce qui les rend particulièrement utiles dans des tâches telles que l’écriture manuscrite ou la reconnaissance vocale. Comme tout autre réseau neuronal, Vasquez a formé Calligrapher.ai sur un ensemble de données modérément volumineux d’échantillons de calligraphie, principalement la base de données d’écriture manuscrite en ligne IAM.
La base de données IAM-On contient des “formes de texte anglais manuscrit acquises sur un tableau blanc”, avec des échantillons de 221 “écrivains” différents et plus de 1 700 formes acquises. La base de données comprend 13 049 lignes de texte isolées et étiquetées au format “en ligne” et “hors ligne”, pour un total de 86 272 échantillons d’un dictionnaire de 11 059 mots.
Calligrapher.ai peut générer une écriture manuscrite variable dans 9 styles différents, tandis que les utilisateurs peuvent modifier les curseurs de vitesse, de lisibilité et de largeur de trait pour une personnalisation plus poussée. Contrairement aux types de polices traditionnels conçus pour imiter l’écriture manuscrite, chaque échantillon généré par Calligrapher.ai doit être unique même lorsque le style d’écriture est le même. Les utilisateurs peuvent télécharger le résultat final sous forme de fichier vectoriel SVG.
Selon Vasquez, le curseur de lisibilité utilise une méthode connue sous le nom de “réglage de la température de la distribution d’échantillonnage” pour modifier la variation de l’écriture manuscrite. Les sorties proviennent d’une “distribution de probabilité” et l’augmentation de la lisibilité “concentre efficacement la densité de probabilité autour de résultats plus probables”.
N’étant qu’une démo, Calligrapher.ai a une portée limitée malgré sa capacité à créer des modèles d’écriture crédibles. De plus, Vasquez n’a formé le RNN sous-jacent que sur des échantillons de langue anglaise, de sorte que le site Web n’est pas particulièrement efficace pour reproduire les accents couramment utilisés dans d’autres langues.