2 года постов. 846 публикаций. Внутри — 250 программ с дедлайнами

2 года постов. 846 публикаций. Внутри — 250 программ с дедлайнами Коллеги, ваш старый контент — это data asset. Даже если он лежит мёртвым грузом 2 года.

Старый канал StudyQA лежал без обновлений с 2024 года. 846 постов о стипендиях, грантах, программах обмена.

Решил извлечь из него данные. За 3 часа получил структурированную базу: • 500 URL в постах • 398 живых ссылок (79%) • 250 программ с extracted данными • Дедлайны, требования, суммы

Как парсил 2 года контента Этап 1: Export всех постов через Telegram API Этап 2: Extract URL из текста (regex) Этап 3: Проверка доступности (batch HTTP requests) Этап 4: Парсинг содержимого страниц Этап 5: AI extraction данных

Использовал Gemini Flash с thinkingBudget:0 : дёшево и сердито.

Структура extracted данных


{
 "title": "Fulbright Program 2026",
 "deadline": "2026-05-15",
 "amount": "$25,000",
 "target_audience": "Graduate students",
 "requirements": [...],
 "application_url": "..."
}

Из хаоса постов : в структурированную базу.

Что делать с результатами

  1. Database для нового продукта : поиск по стипендиям
  2. Content для рассылок : персонализированные подборки
  3. API для партнёров : лицензирование данных
  4. Тренинг данные : для ML моделей

Мёртвый контент стал продуктом.

В моём посте про 200 контактов : похожий подход к извлечению value из старых данных.

Больше о data extraction в бесплатном гиде

#моикейсы_поповвии Работаем дальше.


Больше AI-автоматизации в бесплатном гиде. Подписывайтесь на канал @popovvii — делюсь кейсами и инструментами для автоматизации бизнеса.

Поделиться: Telegram LinkedIn X

Больше — в канале

Практические кейсы AI-автоматизации для предпринимателей

Vladislav Popov

Владислав Попов

AI-консультант, 15+ лет в IT, PhD (University of York). Помогаю предпринимателям автоматизировать бизнес с помощью AI.