Новое

Как мы отсеиваем 95% мусора из Telegram-чатов до того, как сообщение попадёт в LLM

16:15 Habr.com

Привет, Хабр!
Меня зовут Артём, я фаундер Leadl.ai. Мы строим AI-агента для поиска b2b-клиентов, и одна из его ключевых задач это мониторинг чатов и различных источников.
Звучит просто, пока не сталкиваешься с масштабом.

У нас в пуле 20000+ чатов в 15 источниках. Суммарно около 1000 000 000 сообщений в сутки. Из них реально полезных (запросы на услуги, поиск подрядчиков, вакансии) от силы 3-5%. Остальное: флуд, криптоспам, «доброе утро», мемы и бесконечные стикеры.

Задача: вытащить эти 3-5% качественных сообщений. Первой мыслью было отдать всё на откуп большой LLM типа GPT-4o. Посчитали. Среднее сообщение 50 токенов. 100 000 сообщений 50 токенов/сообщение ($10 / 1M токенов) = $50 в день только на input. Добавьте сюда output и prompt — и счёт легко перевалит за $100-150/день или $3000-4500/месяц. Для стартапа это путь в никуда.

Нам нужен был pipeline, который бы отсеивал мусор на ранних этапах, чтобы до дорогого LLM-скоринга доходило не более 5-10% от всего потока. Вот как мы его построили, через какие грабли прошли и что из этого вышло.

Другие новости

Сорвал подснежник — попал на 120 тысяч: объявлена охота на любителей весны — краснокнижные цветы теперь дороже золота

Какие цветы нельзя собирать, рассказали в Бобруйской горрайинспекции природных ресурсов и охраны окружающей среды.

Великобритания получает 1 000 новых зарядных станций для электромобилей благодаря многомиллионным инвестициям

Гидрометцентр РТ сообщил об аномальном тепле в апреле и в мае

Ольга Шевцова: Сегодня провела совещание по вопросу ликвидации недействующего полигона ТКО в пгт Гаспра

Учёные обнаружили загрязнение почв тяжёлыми металлами у ледников Кавказа

Рост уровня воды в малых реках Волгоградской области отмечают специалисты

В Севастополе 19 марта проведут вакцинацию диких хищников против бешенства

Гидрометцентр РТ предупредил о возможном возвращении холодов в марте

Запланирован к проведению выездной прием граждан в Администрации города Красноперекопска

Леса Чувашии оказались уникальными для всей России: ученые изучат, как за 100 лет изменились растения региона

Ольга Шевцова: Учения – один из важнейших этапов при подготовке к пожароопасному сезону

Барнаул накроет волной загрязненного воздуха. Как уберечься

В Феодосии загорелся камыш: пожар тушат 50 человек

Наталья Лисовская и Павел Чаговец приняли участие в совещании под руководством Ольги Шевцовой

В Москве пройдет XVII Международный форум «Экология

Река Вятка станет судоходной благодаря отмене 27-летнего запрета на добычу песка

Минлесхоз РТ: «По количеству школьных лесничеств Татарстан – первый в России»

В Татарстане сохранится аномально теплая погода, ожидаются новые температурные рекорды

Минприроды Кабардино-Балкарии высадит 100 ореховых деревьев в Нальчике

Министр экологии открыл акцию "Сдай макулатуру - спаси дерево!"

Краевой суд признал законным отказ во взыскании 82 млн рублей с бывшего совладельца Экопромбанка

Только тепло наступило, а в Ленобласти уже есть палы травы

Продолжаем совершенствовать свои навыки!

Из-за аномального тепла в Санкт-Петербурге стартовало мытьё улиц

В Калужской области аист побил рекорд

Таинственное зловоние: в управлении Роспотребнадзора рассказали, что делать жителям Балаково

Воздух в Лабинске остается чистым после инцидента на нефтебазе

Минлесхоз РТ: В Татарстане не хватает около 100 мастеров леса

Зарипов: зарплата работников лесного хозяйства Татарстана вырастет на 10%

В Калужской области появился первый в этом году аист

В новый альманах «Наше слово» вошли произведения сотрудников волгодонского музея

Иван Носков: «Новая дорога должна отвечать абсолютно всем необходимым требованиям и нормативам»

Свен из «Холодного сердца» нашёлся в Хакасии

Магнитогорцам напомнили о мерах профилактики птичьего гриппа

Первый сурок проснулся в Оренбургской области — в степи наступила весна

Пензенская область останется под влиянием антициклона

В Алтайском крае ввели режим «черного неба»

Свыше 122 тысяч белгородцев зарегистрированы на платформе Добро.рф

Минлесхоз РТ анонсировал рост зарплат по отрасли на 10% в 2026 году

За незаконную вырубку деревьев на 6,6 млн рублей под Пермью осудят машиниста лесозаготовительной фирмы

Другие новости сегодня