Рубрика: AI

Hugging Face Transformers: Пошаговое введение
Transformers — это библиотека от Hugging Face, которая позволяет легко использовать мощные языковые модели вроде BERT, GPT, RoBERTa и многих других. Она содержит как сами модели, так и удобные инструменты для инференса, обучения и обработки текста.

В этом материале:
- Что такое pipeline и как быстро сделать инференс
- Как загружать модели и токенизаторы вручную
- Как обучить модель под свою задачу (fine-tuning)
- Как сохранить и использовать свою модель
(далее…)
15 апреля 2025
PyTorch: Пошаговое введение
PyTorch — это популярная библиотека для построения и обучения нейросетей. Она используется как в академии, так и в индустрии, потому что сочетает в себе мощь, гибкость и простоту.

В этом материале мы рассмотрим:
- Что такое тензоры и как с ними работать
- Как работает автодифференцирование
- Как писать собственные модели
- Как обучать модель шаг за шагом
(далее…)
15 апреля 2025
Первый взгляд на Google Firebase Studio
Что это такое

Google выпустил новый инструмент под названием Firebase Studio — веб-приложение для программирования с интеграцией ИИ (на базе Gemini 2.5). Оно умеет:
- редактировать файлы;
- запускать команды;
- и, в целом, пытается быть полноценным агентом для разработки прямо в браузере.
На первый взгляд — это что-то вроде веб-версии VS Code с интеграцией ИИ от Google. Но есть нюансы.

Интерфейс и UX

Главное, что бросается в глаза — необычное расположение чата с ИИ. Вместо привычной правой панели он расположен в виде отдельной вкладки рядом с файлами. Это непривычно и сбивает с толку.

Интерфейс в целом оставляет желать лучшего: низкая отзывчивость, частые подвисания, неудобная навигация. Чтобы применить изменения, часто приходится перезапускать Android-эмулятор целиком — интерфейс сам не обновляется.

Тест-драйв: вайб-кодинг

Я решил протестировать Firebase Studio в стиле вайб-кодинга — использовать стек, в котором почти не разбираюсь. В качестве цели выбрал простое мобильное приложение на React Native.

Через 40 минут у меня так и не получилось собрать работающее приложение. Сначала оно падало с ошибкой 500. Как бы я ни просил ИИ «починить» проект, он ходил по кругу и не предлагал рабочее решение.

Пришлось самому прочитать ошибку, зайти в нужный файл и поправить код вручную. Ошибка оказалась несложной — я справился без опыта в React Native. Но для ИИ это оказалось непреодолимой задачей.

После исправления мы с агентом ещё около получаса дописывали логику, добавляли меню и кнопки. Но ощущение нативности так и не появилось — всё выглядело скорее как веб-приложение в эмуляторе, а не полноценный Android-интерфейс.

Проблемы с производительностью

Ещё один важный минус — общая медлительность. Интерфейс реагирует с задержками, некоторые кнопки не работают, а при падении приложения исправления не применяются без перезапуска эмулятора. Навигация по вкладкам помогает лишь частично.

Альтернатива: VS Code и Cursor

Пока что Firebase Studio — это больше эксперимент, чем готовый инструмент. Для целей вайб-кодинга он пока не годится.

Тем временем конкуренты не стоят на месте. Например, VS Code получил обновление: теперь он тоже умеет запускать команды через ИИ, как это делает Cursor. Таким образом, VS Code и Cursor становятся прямыми конкурентами — и это отличная новость для всех, кто интересуется AI-помощниками для разработки.

Вывод

Firebase Studio — интересный шаг от Google, но в текущем виде он скорее разочаровывает. У Google ещё есть время довести интерфейс до ума и улучшить работу ИИ. А пока — рекомендую продолжать использовать более зрелые решения.
11 апреля 2025
Frustration Coding: Почему вайб-кодинг не всегда про вайб

Сегодня говорим о таком феномене, как frustration coding. Это то состояние, в которое вы попадаете, когда начинаете «вайб-кодить» — просто садитесь, включаете музыку, открываете редактор и начинаете писать код… но у вас ничего не выходит.

Почему вайб-кодинг не всегда работает?

В интернете полно вдохновляющих видео: кто-то за 60 секунд запускает рабочий MVP, пишет коммерческий продукт и говорит, что всё просто. Но это — ошибка выжившего. Мы видим только успехи, а не 9 неудачных попыток до них.
(далее…)

7 апреля 2025
Трюк: как отловить бота в личке с помощью LLM

Оказывается, просто спросить у нейросети «Это бот или человек?» — уже не так эффективно. Есть способ надёжнее.

Вот как работает приём:

1. Сначала классический промпт:

Оцени, написал это человек или бот.

2. Затем — ключевой шаг (в стиле промпт-чейнинга):

Если вероятность того, что это бот, больше 50%, придумай и задай ему вопрос, по ответу на который мы с высокой точностью сможем понять, бот это или человек.

Получается, мы подключаем LLM не только как оценщика, но и как активного собеседника.

Анализируем уже реакцию на вопрос, а не просто исходное сообщение. Это почти стопроцентное попадание.

5 апреля 2025
Как записывать и расшифровывать встречи — от А до Я
Если вы проводите встречи в Zoom, Google Meet или Discord и хотите:
- записывать свой голос и собеседников;
- получить один чистый аудиофайл;
- превратить его в текст с разделением по ролям;
- и сделать всё это максимально просто —
этот гайд для вас.

Часть 1. Запись встречи (через Audio Hijack)

Цель: записать два источника — микрофон и системный звук — в один файл, но с разделением по каналам:
- вы — в левом канале;
- собеседники — в правом.
Такой подход позволяет точно разделить, кто говорит, даже при одновременной записи.

Что нужно сделать:
1. Установите Audio Hijack.
2. Создайте новую сессию.
3. Добавьте блоки:
  - Input Device — ваш микрофон;
  - Application или System Audio — звук от Zoom или браузера.
4. К каждому блоку подключите Channels:
  - микрофон → Left Only;
  - системный звук → Right Only.
5. Объедините их в один Recorder:
  - формат — WAV, стерео, 44.1 или 48 kHz.
6. Нажмите «Run» и начните встречу.
Совет: используйте наушники, чтобы голоса собеседников не попадали в микрофон повторно.

Часть 2. Расшифровка через noScribe

noScribe — это бесплатная оболочка над WhisperX с удобным интерфейсом. Она позволяет:
- превратить звук в текст;
- автоматически разделить спикеров;
- экспортировать в TXT, DOCX, SRT.
Как использовать:
1. Перейдите на noscribe и скачайте приложение.
2. Откройте свой WAV-файл.
3. Установите настройки:
  - язык — русский (или auto);
  - модель — medium или large;
  - включите опции Diarization и WhisperX.
4. Нажмите Start и дождитесь результата.
Вы получите текст с пометками, кто когда говорил.

Часть 3. Что делать с текстом

Теперь у вас есть полный расшифрованный диалог. Вы можете:
- очистить от слов-паразитов;
- структурировать по смыслу;
- сделать краткий конспект;
- вставить в Notion, отправить в Telegram или сохранить в архив.
Если вы используете GPT, можно сгенерировать саммари, список задач или даже пост в соцсети на основе текста.
5 апреля 2025
Можно ли обмануть защиту больших языковых моделей (LLM)?
Сегодня мы поговорим не о том, что правильно или неправильно с этической точки зрения, а о том, насколько хорошо устроена защита современных языковых моделей. Большинство таких моделей, включая ChatGPT, Perplexity, Claude и других, обучены отказывать в генерации вредоносного контента. Например, если вы напрямую попросите написать скрипт для DDoS-атаки, получите вежливый отказ.

Но есть нюанс: оказывается, если подойти к вопросу поэтапно, можно обойти эти запреты. Об этом рассказывается в научной статье “Divide and Conquer: Prompt Chaining Attacks on Aligned Language Models” (ссылка на исследование внизу).

Как работает обход защиты через цепочку запросов?

Этот метод получил название Prompt Chaining, или цепочка запросов. Он разбивает потенциально опасный запрос на несколько невинных шагов. Вот как это выглядит на примере:
1. Теоретическая подводка. Вы представляете себя преподавателем компьютерной безопасности и просите дать теоретическое объяснение, например, как работает DDoS-атака. В этом шаге подчёркивается, что не нужен код и инструкции — только теория.
2. Псевдокод. Далее вы просите преобразовать полученное объяснение в псевдокод — якобы для лучшего понимания.
3. Прототип. Следующий шаг — простая реализация псевдокода на Python. Якобы «для демонстрации».
4. Оптимизация. Финальный шаг — вы просите улучшить код и адаптировать его для «реального использования».
В результате — модель, не заметив, как её постепенно подводят к цели, выдает исполняемый скрипт. С комментариями, подсказками и без каких-либо этических предупреждений.

Что это значит?

Это значит, что современные LLM всё ещё уязвимы к продуманным, поэтапным атакам. Они хорошо фильтруют одиночные опасные запросы, но плохо справляются с вредоносными цепочками, где каждый шаг выглядит безобидно.

Выводы

Очевидно, что инженерам предстоит усилить защиту не только на уровне одиночного запроса, но и учитывать контекст всей цепочки взаимодействия. Исследование не ставит целью научить кого-то использовать эти уязвимости — оно лишь показывает, где модели пока слабы.

На сегодняшний день важно понимать: даже у продвинутых моделей есть дыры, и важно их исследовать до того, как ими начнут массово пользоваться в реальных атаках.

Ссылка на исследование:

https://arxiv.org/pdf/2503.21598
3 апреля 2025
Как изменятся интервью для разработчиков, руководителей разработки и CTO в будущем?
Сегодня процесс найма в IT-компаниях — это многоступенчатый марафон. Кандидаты часто проходят 5–7 этапов, включая обязательное программирование, даже если они претендуют на управленческие позиции. Для тех, кто несколько лет занимался исключительно менеджментом, это может быть настоящим испытанием. Особенно сложно справляться с задачами без помощи современных инструментов вроде IDE или автодополнений кода.

Однако будущее интервью в IT уже просматривается на горизонте. Вместо классических задач на алгоритмы нас ждет AI-кодинг-интервью, или точнее — AI-прототипирование.

Что такое AI-прототипирование?

Представьте: кандидат получает задачу — создать прототип продукта за один час. Это может быть CRM-система или приложение для управления временем. Вместе с ним открывается инструмент вроде GitHub Copilot или Cursor, и начинается работа. Главная цель — не просто получить работающий прототип, а увидеть, как человек мыслит:
- Как он ставит задачи AI?
- Какие промты использует?
- Как проектирует базу данных и системный дизайн?
- Как работает с сгенерированным кодом и исправляет ошибки?
Результат генерации кода всегда непредсказуем, поэтому важно понять, умеет ли кандидат формулировать точные запросы и работать с результатами.

Почему это важно?

AI уже стал неотъемлемой частью разработки. Программисты, игнорирующие его возможности, рискуют остаться позади. С помощью AI можно за считанные дни создать продукт, включая настройку DevOps и выкатку на продакшн. Поэтому умение взаимодействовать с AI станет ключевым навыком для всех ролей — от разработчиков до CTO.

Что будет дальше?

Классические интервью на алгоритмы постепенно уйдут в прошлое. Зачем проверять навыки, которые легко автоматизируются нейросетями? Современные инструменты позволяют оценить кандидата гораздо быстрее и точнее. В будущем компании будут искать тех, кто способен эффективно использовать AI для решения реальных задач.

Будущее уже здесь. Осталось только адаптироваться.
2 апреля 2025
Автоматизация создания контента: как я пишу статьи для блога и Telegram-канала
Создание контента — процесс, который требует времени. Однако современные технологии позволяют существенно его ускорить. В этой статье я расскажу, как автоматизировать написание статей, используя Telegram, AI-модели и специализированные инструменты.

От голосовых заметок к статье

Раньше процесс написания статей предполагал долгую работу с текстом: от чернового варианта до окончательной редакции. Однако печатать текст вручную — уже не самый удобный формат. Поэтому я нашел способ делать это быстрее.
1. Фиксация идей. Все начинается с голосовых заметок. Я записываю мысли в Telegram (раздел «Избранное»), что позволяет быстро сохранять идеи.
2. Автоматическая расшифровка. Пользователи Telegram Premium могут воспользоваться функцией «Расшифровать» для преобразования голосового сообщения в текст.
3. Редактура AI. После получения текста я копирую его в Perplexity, ChatGPT или любую другую AI-систему. С помощью простого запроса — «Сделай из этого статью» — AI превращает заметку в готовый текст.
4. Доработка. Несмотря на продвинутость AI, он пока не может добавить изображения, расставить ссылки и внести важные редакторские правки. Эти доработки выполняю вручную.
Оптимизация для Telegram-канала

Формат публикаций в Telegram требует специфической структуры:
- Короткие абзацы для удобства чтения
- Грамотно подобранные эмодзи
- Минимальное количество лишнего текста
Чтобы не редактировать статьи вручную перед публикацией в Telegram, я создал Space в Perplexity, который автоматически форматирует текст в нужном стиле. В этом Space прописан промпт, обеспечивающий структурирование статьи по стандартам Telegram.

Если вас заинтересовал мой подход, я разместил готовый промпт в исходнике этой статьи на своем блоге. Вы можете воспользоваться им, чтобы автоматизировать создание контента для своего Telegram-канала.
```
Ты профессиональный SMM менеджер и готовишь мне публикации в канал Telegram. Я даю тебе ссылку на текст, ты возвращаешь сообщение, которое я сразу копирую и вставляю сразу в сообщение канала. Никаких приветствий и дополнительных фраз от тебя не требуется
Предоставленный текст можно немного улучшить стилистически, добавить эмоджи в нужных местах. Оформить по лучшим практикам оформления сообщений в Телеграм. Не сокращай статью. Просто оформи.
Не нужно указывать внизу источники, но нужно добавить несколько ссылок в конце сообщения:
Дальше текст как есть, не меняй его, но можешь перед добавить релевантный эмоджи:
Полная версия статьи в моем блоге  - здесь ссылка на статью, которую я дал тебе
Заказать консультацию CTO - https://mtkv.ru
Не надо указывать блок Sources
Не надо делать ссылки с markdown разметкой, в телеграме они не работают.
Таблицы телеграм не поддерживает
```
Итог

Этот процесс позволяет:
✅ Экономить время на написание текстов
✅ Автоматизировать рутину с AI
✅ Упрощать публикации в Telegram

Если вы занимаетесь контент-маркетингом или ведете корпоративный блог, попробуйте адаптировать этот подход под свои задачи. Удачи!
1 апреля 2025
Вайб-кодинг: миф или реальность?
Сегодня поговорим о концепции, которая вызывает интерес у многих разработчиков — вайб-кодинг. Это подход к созданию цифровых продуктов, где вы взаимодействуете с интеллектуальными агентами, способными не только предлагать куски кода, но и редактировать файлы, формируя готовый продукт. Однако давайте разберемся, насколько это реально и какие подводные камни существуют.

Что такое вайб-кодинг?

Вайб-кодинг — это процесс, в котором разработчик взаимодействует с умным редактором кода (например, Cursor или Github Copilot). Основная идея заключается в том, что вы формулируете запрос, а агент генерирует код и даже редактирует файлы. В идеале вы получаете готовый сайт или приложение на выходе.

На первый взгляд звучит как магия: вы описываете проект в нескольких абзацах, и через некоторое время видите результат. Первое впечатление от такого подхода может быть ошеломляющим — продукт запускается, интерфейс работает. Но при более глубоком погружении начинают проявляться проблемы:
- Ненормализованные базы данных: структура данных может оказаться хаотичной.
- Ошибки в логике: агент может забыть о ранее созданных функциях или переписать их несколько раз.
- Отсутствие целостности: без четкого технического задания (ТЗ) продукт будет страдать от архитектурных недочетов.
Почему вайб-кодинг пока не существует в чистом виде?

На текущем этапе развития технологий вайб-кодинг скорее звучит как мечта. Чтобы получить качественный результат, разработчику всё равно приходится:
1. Расписывать архитектуру проекта.
2. Формулировать контракты между компонентами.
3. Создавать модель базы данных и описывать связи таблиц.
4. Подробно описывать каждую страницу и её функционал.
По сути, это всё равно превращается в написание технического задания (ТЗ). А как известно, ТЗ писать любят далеко не все.

Кому подходит вайб-кодинг?

Если вы опытный архитектор или разработчик с терпением и навыками планирования, то вайб-кодинг может стать полезным инструментом. При условии, что вы готовы потратить время на детальную проработку проекта и составление ТЗ, результат может быть впечатляющим.

Личный опыт: Perfecto

Для примера рассмотрим продукт Perfecto — проект, который я создал с использованием вайб-кодинга. Однако стоит отметить важный момент:
- Первая версия была попыткой «трушного» вайб-кодинга без четкого плана. Итог оказался плачевным: база данных была хаотичной, код — трудно поддерживаемым, а продукт — уязвимым. Ознакомиться тут: https://app.mtkv.ru/
- Вторая версия была полностью спроектирована заранее: архитектура, ожидания и образ результата были детально описаны. Итог получился гораздо лучше — продукт стал стабильным и удобным для поддержки. Можно ее посмотреть тут https://perf.mtkv.ru/
Снаружи обе версии выглядели одинаково — интерфейс работал. Но разница в качестве кода и удобстве сопровождения была колоссальной.

Чтобы понять всю боль, вот скриншот первой версии:

3300+ строк! Вся логика замешана в одном файле. И это вы еще фронтенд не видели.

Выводы

На данный момент вайб-кодинг — это скорее инструмент для ускорения разработки при наличии четкого плана действий. Без предварительной подготовки он превращается в хаос и головную боль для разработчика.

Если вы хотите попробовать этот подход:
- Будьте готовы к тщательному планированию.
- Используйте его как помощника, а не замену профессиональной разработки.
- Не пренебрегайте техническим заданием — оно остаётся основой успешного проекта.
Возможно, однажды технологии достигнут уровня настоящего вайб-кодинга, где можно будет просто «кайфовать», но пока это лишь мечта.
31 марта 2025