8 (495) 085-27-71Контактный центрtalk@jobby.aiПочта для связи
О насКомпаниямУниверситетамПодборки вакансий
Стать менторомСтать амбассадоромЦентры карьеры университетов
Политика обработки персональных данныхПользовательское соглашение

Мы используем файлы cookie, для персонализации сервисов и повышения удобства пользования сайтом. Если вы не согласны на их использование, поменяйте настройки браузера.

ООО «ДЖОББИ СОЛЮШНС»
ИНН 7736337101 КПП 773601001
ОГРН 1217700465212

Россия, Москва, Ленинский проспект, дом 67

© Jobby, 2026

Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer в Ит — вакансия для студентов и начинающих специалистов

Москва

Информационные технологии

Полная занятость

Разработчик парсеров (Reddit / Trustpilot) / Data Extraction Engineer

Зарплата: от 1000 USD
Компания: Ит
Вакансия создана:19.02.2026

Мы — продуктовая команда, делаем приложения для конечных пользователей и активно используем ML. Растём быстро: любим новые технологии, но понимаем, что результат — это ещё и регулярная “рутинная” инженерная работа.

Сейчас у нас 10 продуктов дающие порядка 1 000 000 установок ежемесячно:

  • Saby — Baby monitor

  • Visory — Security camera

  • Imgit — AI art generator

Мы находимся в Испании, работать можно удалённо из любой точки мира, в удобное время. Важен результат и ответственность.

Задача роли (что нужно сделать)

Твоя основная миссия — построить и поддерживать надёжный пайплайн массового сбора отзывов/комментариев из:

  • Reddit (посты + треды комментариев, поиск по сабреддитам/ключевым словам, фильтры по времени/популярности)

  • Trustpilot (страницы компаний/продуктов, отзывы, рейтинги, метаданные)

Дальше эти данные будут использоваться, чтобы:

выделять боли пользователей в существующих приложениях/сервисах

находить ниши, где мы можем быстро делать MVP и забирать спрос

Чем будешь заниматься

  • Разработка парсеров и/или интеграций с API (где возможно) для Reddit и Trustpilot

  • Массовый сбор данных: миллионы сущностей (посты/комменты/отзывы) с контролем качества

  • Нормализация данных: единые схемы, дедупликация, языковые поля, таймстемпы, ссылки на источники

  • Построение пайплайна: планировщик, очереди, ретраи, обработка ошибок, мониторинг

  • Антифрод/антибан устойчивость: лимиты, ротации, корректное соблюдение правил платформ

  • Экспорт в хранилище (SQL/NoSQL/BigQuery/S3 — выберем оптимально)

  • Базовые аналитические выгрузки для продукта/ресерча: “топ-боли”, частотность, кластеры по темам (можно совместно с ML)

Эта вакансия для тебя, если ты

  • Умеешь самостоятельно доводить задачу до работающей системы, а не “скрипта на один запуск”

  • Любишь копаться в данных и строить системы сбора “под нагрузку”

  • Понимаешь, что парсер = продукт, которому нужны тесты, мониторинг и поддержка

  • Ок с удалёнкой и работой на результат (без микроменеджмента)

Требования (обязательно)

  • Опыт разработки парсеров / скрейперов / data ingestion систем в проде для Reddit или Trustpilot

  • Умение проектировать устойчивый сбор данных:

    • rate limits, backoff/retry, очереди, таймауты, прокси/ротации (если нужно)

    • восстановление после падений, идемпотентность, дедупликация

  • Умение работать с:

    • HTTP, cookies/sessions, pagination, динамическими страницами

    • парсингом HTML (CSS selectors/XPath) и JSON

  • Знание одного из стеков:

    • Python или Node.js

  • Умение писать понятный код, покрывать критичное тестами и логами

Будет плюсом

  • Опыт построения ETL:

    • Airflow/Prefect/Temporal

    • Kafka/RabbitMQ/SQS

  • Опыт с хранилищами и аналитикой:

    • Postgres, ClickHouse, BigQuery, Elasticsearch

  • Опыт с NLP-задачами “pain mining”:

    • тематическое моделирование, кластеризация, embeddings

Пример ожидаемого результата через 2–4 недели работы (ориентир)

  • Reddit: сбор по списку сабреддитов и ключевиков, треды комментариев, обновления “инкрементально”

  • Trustpilot: сбор отзывов по списку компаний/категорий, стабильная пагинация, контроль пропусков

  • Хранилище + схема + базовая витрина данных

  • Метрики: сколько собрано, процент ошибок, пропуски/дубликаты, скорость

Условия

  • Удалённая работа, фулл-тайм, гибкий график

  • Чёткие задачи и ожидаемый результат, адекватная оценка времени

  • Интересные задачи на стыке данных, автоматизации и продуктового ресерча

  • Официальное оформление

Навыки:
Python

О компании

Ит

Интернет-компания (поисковики, платежные системы, соц.сети, информационно-познавательные и развлекательные ресурсы, продвижение сайтов и прочее)

О компании:

Мы – динамично развивающаяся компания в сфере разработки программного обеспечения, основанная более десяти лет назад в Санкт-Петербурге. Наша специализация – создание успешных приложений, которые находят отклик на глобальном рынке. Мы начали с инжиниринговой компании, но с 2018 года сконцентрировались на разработке приложений и уже достигли значительных успехов с такими продуктами, как Saby Baby Monitor и Visory Security Camera.

Что мы предлагаем:

  • Возможность работать c передовыми технологиями и инновационными продуктами.
  • Работу в команде профессионалов, с которыми можно учиться и расти.
  • Участие в разработке приложений, которые ежедневно используются сотнями тысяч пользователей.

Что нам нужно:

  • Люди, готовые брать на себя ответственность и улучшать код.
  • Опытные профессионалы, которые хотят расти вместе с нами и привносить новые идеи.
  • Специалисты, которые готовы работать в быстро меняющейся среде и искать нестандартные решения.

Присоединяйтесь к нашей команде и помогите нам продолжать создавать выдающиеся продукты, которые изменяют мир технологий!

Похожие вакансии

Дата - инженер
Зарплата: от 190000 ₽
Procter & Gamble
Полная занятость
Москва
Прием заявок до 15.03.2026
Стажер дата-инженер
Зарплата: 100000 — 100000 ₽
Procter & Gamble
Полная занятость
Москва
Прием заявок до 15.03.2026
Стажер-менеджер по управлению данными
Зарплата: от 100000 ₽
Procter & Gamble
Полная занятость
Москва
Прием заявок до 12.03.2026
  • 1