2 года постов. 846 публикаций. Внутри — 250 программ с дедлайнами

2 года постов. 846 публикаций. Внутри — 250 программ с дедлайнами Коллеги, ваш старый контент — это data asset. Даже если он лежит мёртвым грузом 2 года.

Старый канал StudyQA лежал без обновлений с 2024 года. 846 постов о стипендиях, грантах, программах обмена.

Решил извлечь из него данные. За 3 часа получил структурированную базу: • 500 URL в постах • 398 живых ссылок (79%) • 250 программ с extracted данными • Дедлайны, требования, суммы

Как парсил 2 года контента Этап 1: Export всех постов через Telegram API Этап 2: Extract URL из текста (regex) Этап 3: Проверка доступности (batch HTTP requests) Этап 4: Парсинг содержимого страниц Этап 5: AI extraction данных

Использовал Gemini Flash с thinkingBudget:0 : дёшево и сердито.

Структура extracted данных


{
 &quot;title&quot;: &quot;Fulbright Program 2026&quot;,
 &quot;deadline&quot;: &quot;2026-05-15&quot;,
 &quot;amount&quot;: &quot;&#036;25,000&quot;,
 &quot;target_audience&quot;: &quot;Graduate students&quot;,
 &quot;requirements&quot;: [...],
 &quot;application_url&quot;: &quot;...&quot;
}

Из хаоса постов : в структурированную базу.

Что делать с результатами

Database для нового продукта : поиск по стипендиям
Content для рассылок : персонализированные подборки
API для партнёров : лицензирование данных
Тренинг данные : для ML моделей

Мёртвый контент стал продуктом.

В моём посте про 200 контактов : похожий подход к извлечению value из старых данных.

Больше о data extraction в бесплатном гиде

#моикейсы_поповвии Работаем дальше.

Больше AI-автоматизации в бесплатном гиде. Подписывайтесь на канал @popovvii — делюсь кейсами и инструментами для автоматизации бизнеса.

2 года постов. 846 публикаций. Внутри — 250 программ с дедлайнами

Больше — в канале

Владислав Попов

2 года постов. 846 публикаций. Внутри — 250 программ с дедлайнами

Читайте также

Больше — в канале

Владислав Попов