Распарить комментарии в ВК и сделать их сентимент-анализ (Python)
Этап 1. Сбор материала для анализа – посты и комментарии в группе «Экология России» https://vk.com/russia_ecology :
- создание краулера для ВК на языке Python,
- парсинг данных (тексты постов и комментариев к ним) на языке Python,
- первичный анализ данных: программный подсчет количества сообщений в группе, средней длины сообщений, количество комментариев на один пост в среднем на языке Python.
Результат этапа 1: код краулера для ВК; код парсера; число сообщений в группе, средняя длина сообщения, среднее количество комментариев после поста;
подробное описание шагов по написанию программы, созданию массива данных, описание кода по первичному анализу данных.
Этап 2. Автоматическое выявление мнений среди комментариев к постам и их анализ (всё с помощью Python).
- очистка и предварительная обработка текста (очистка текста от знаков пунктуации (кроме восклицательных и вопросительных знаков), лишних пробельных символов и цифр)
- удаление стоп-слов
- присоединение слов «нет» / «не» / «без» к следующему слову для сохранения эмоциональной окраски высказывания
- перевод слов в основную форму (токенизация)
- выделение тех комментариев, в которых содержатся мнения, с помощью словаря маркеров мнений (вводно-модальные слова с семантикой мнений)
- анализ мнений:(1) частотный анализ, т.е. выделение наиболее часто встречающихся в мнениях слов; (2) сентимент-анализ мнений