Разработка модели машинного обучения и парсинг ВК

«Фрилансим»
38
Задание состоит из нескольких частей:
Обучить модель машинного обучения на Python для решения задачи классификации новостных русскоязычных текстов по темам: экономика, политика, социальная сфера, здравоохранение, образование, экология, либо отнесение к категории "не заданная категория". Для классификации должен использоваться метод наивного байеса. Обучающую выборку я предоставлю.
Обучить модель машинного обучения на Python для решения задачи классификации русскоязычных комментариев по тональности: позитивная, негативная, нейтральная. Метод, используемый для классификации не принципиален, но необходимо указать его в комментариях к коду.
Обе модели должны сохранять текущее состояние, т.е. не обучаться с нуля при каждом запуске скрипта, а использовать уже имеющиеся знания для классификации.
Необходимо парсить посты и комментарии к ним из групп, начиная с 01.01.2024. Сообщества:
https://vk.com/mos
https://vk.com/m24
При запуске скрипта должны происходить следующие действия:
1)Создание .csv файла, который должен содержать в себе поля:
Post_ID – уникальный идентификатор каждой записи в таблице; Post_text – текстовое содержание поста;
Group – название группы, из которой был взят пост;
Post_date – дата публикации поста в формате дд.мм.гггг;
Post_topic – тема публикации – поле заполняется путем применения обученной ранее модели;
ERpost – коэффициент вовлеченности в обсуждение поста, который рассчитывается по формуле:
ERpost = (количество реакций на публикации + количество комментариев на публикации + количество репостов на публикации)/количество просмотров публикации.
Comment_text – текстовое содержание комментария к конкретной публикации;
Comment_tonality – поле, содержащее в себе оценку тональности комментария – поле заполняется путем применения обученной ранее модели;
Age – возраст автора комментария;
Gender – пол автора комментария.
Необходимо предоставить исходные файлы с кодом, весь код должен быть написан в объектно-ориентированном стиле и разбит на файлы для лучшей читаемости, должны быть соблюдены ограничения по количеству запросов к API вконтакте. При каждом запуске скрипта парсинг должен начинаться с последнего записанного в файле поста (т.е. последний пост пропускается и в файл записывается следующий за ним пост), в случае удаления со стены группы последнего поста - парсить начиная с последнего неудаленного поста. В случае, если какая-либо информация в профиле автора комментария недоступна/неуказана - оставить поле пустым.

В Барнауле сменился главный "речник" на фоне рекордных цифр по перевозке грузов

Более 30 детских площадок модернизуют в этом году в Коломне

Жамнов назвал причину отсутствия Голдобина в матче с «Сочи»

Военэксперт Матвийчук: утрата Покровска и Угледара обратит ВСУ в бегство

Moscow.media

Иран и Россия могут подписать договор о партнерстве в ходе саммита БРИКС

Путин поставил Камалу Харрис в неловкое положение - Милонов

Намолила: Анна Калашникова купила шестикомнатную квартиру

Книга года. В Москве наградили лауреатов главной книжной премии

Музыкальные новости

Новости России


Москва

Книга года. В Москве наградили лауреатов главной книжной премии



Полезные советы от партнёров Russia24.pro


Все новости на сегодня

Другие новости

Частные объявления в Вашем городе



Новости от партнёров Russia24.pro


Жизнь

“Фанагория” получила сразу 7 высоких наград Международного конкурса Asia Wine Сhallenge в китайском Гонконге



Все новости часа на smi24.net
Москва

Более 30 детских площадок модернизуют в этом году в Коломне


Moscow.media <::
:: Ria.city
Новости Крыма на Sevpoisk.ru

Регионы

Новости России

Новости России


Москва

Книга года. В Москве наградили лауреатов главной книжной премии


Авто в России и мире


Спорт в России и мире



Новости тенниса


WTA

Арина Соболенко квалифицировалась на Итоговый турнир WTA


Здоровье в России и мире


Экология в России и мире


Коронавирус в России


Музыкальные новости


Моргенштерн

Моргенштерн* психически нездоров и лечится: «Я признал свою болезнь, зависимости»


Россия


Rss.plus


Спартак

ЭСК: Карасёв правильно не назначил пенальти в ворота «Спартака» в матче с «Рубином»


Жизнь


Блоги


Развлечения


Сегодня в мире


Другие новости сегодня




Самые свежие публикации часа


News Every Day

Watch Real Madrid star Tchouameni’s bizarre ‘Fifa glitch’ tackle as optical illusion leaves fans completely baffled


Game24.pro