Добавить новость
Новое

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Habr.com
23

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.

Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик.

Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу.

Читать далее
Moscow.media
Музыкальные новости

Новости России





Все новости на сегодня
Губернаторы России



Rss.plus

Другие новости




Все новости часа на smi24.net

Moscow.media
Ria.city
Новости Крыма на Sevpoisk.ru

Регионы