Как мы сделали ИИ-ассистента для анализа речи в Телеграм

В рамках проекта для онлайн-курса по публичным выступлениям мы разработали Телеграм-бот с ИИ-ассистентом, который анализирует речь по аудио и видео, даёт персональный разбор и рекомендации, а затем мягко подводит пользователя к курсу и отдельным модулям. 

О проекте

К нам обратились с задачей создать не просто продающий бот, а вовлекающий инструмент для первого контакта с аудиторией. В нише обучения речи и публичным выступлениям человеку важно не только прочитать описание курса, а почувствовать: «Да, у меня правда есть точки роста, и с ними можно работать». Поэтому мы предложили построить воронку вокруг персональной диагностики речи.


Так появился Телеграм-бот с ИИ-ассистентом по речи. Пользователь загружает аудио или видео, бот анализирует речь по заданным критериям, выдаёт развёрнутую обратную связь и рекомендации, а затем предлагает посмотреть бесплатные видео или перейти к покупке полного курса и отдельных модулей.


Такой подход помогает сместить фокус с прямой продажи на личный опыт пользователя. Сначала человек получает разбор собственного выступления, видит конкретные рекомендации, пробует упражнение и только потом переходит к знакомству с курсом.

Задачи проекта

Перед нами стояло несколько задач:


  • придумать понятную механику первичного контакта с пользователем;
  • автоматизировать разбор аудио- и видеовыступлений;
  • сделать так, чтобы ИИ не просто выдавал формальный ответ, а говорил в нужной тональности;
  • встроить в бот полезный контент, который помогает пользователю двигаться дальше;
  • связать бесплатную диагностику с продажей курса и отдельных модулей.

Важно было соблюсти баланс. С одной стороны, дать человеку реальную пользу уже на первом касании. С другой — выстроить воронку так, чтобы она работала на продажу продукта, а не заканчивалась на разовом разборе.

Схема чат-бота в Salebot

Что мы предложили

Мы не стали строить воронку по классической схеме «подпишись — посмотри видео — купи курс». Для продукта, связанного с речью, такой путь был бы слишком общим: пользователь мог посмотреть материалы, но не почувствовать, почему курс нужен именно ему.


Поэтому мы предложили сделать главным входом в воронку персональную диагностику речи. Это сильнее обычного лид-магнита: человек загружает своё аудио или видео и получает пероснализированную обратную связь.


Так воронка начинается не с продажи, а с полезного действия:


  • пользователь слышит себя со стороны;
  • видит сильные стороны и точки роста;
  • получает рекомендации;
  • пробует короткое упражнение;
  • понимает, какие навыки можно развивать дальше.

А уже после этого бот показывает, как эти задачи решаются на курсе и в отдельных модулях.

Для клиента такой подход ценен тем, что ИИ-ассистент берёт на себя первичную диагностику и помогает прогреть аудиторию до знакомства с продуктом. Для пользователя — тем, что он получает понятный результат ещё до покупки.

Как работает бот

Сценарий построили так:


  • Пользователь заходит в бот и получает вводное сообщение от ИИ-ассистента.
Приветственное сообщение бота
  • Бот предлагает отправить аудио или видео с речью.
  • После загрузки файла запускается автоматическая обработка.
Получение файла от пользователя
  • Пользователь получает разбор речи с общей оценкой и рекомендациями.
Анализ речи от бота
  • После этого бот предлагает дополнительные шаги: упражнения, бесплатные видео, повторную диагностику или переход к курсу.
Бесплатное видео в боте
  • Через отдельную цепочку пользователь попадает в прогрев и продажу полного курса или его модулей.

Продумали также логику повторных касаний: напоминания, ветки бездействия, повторный анализ и переходы в продающую часть воронки.

Как устроена техническая часть

Главная техническая задача была в том, чтобы превратить аудио- или видеофайл пользователя в понятный разбор речи без ручной обработки.


Для этого мы собрали автоматическую связку:


Телеграм → Salebot → n8n → SaluteSpeech → OpenAI → Телеграм


Наша задача была не просто подключить ИИ к боту, а собрать устойчивую цепочку, где каждый сервис отвечает за свою часть процесса. Salebot управляет пользовательским сценарием, n8n связывает сервисы между собой, SaluteSpeech отвечает за распознавание русской речи, а OpenAI — за экспертный анализ расшифровки.


Как это работает:


  1. Пользователь отправляет аудио или видео в Телеграм-бот.
  2. Бот, собранный на платформе Salebot, принимает файл и запускает сценарий обработки.
  3. Через n8n файл передаётся в SaluteSpeech — сервис распознавания речи от Сбера.
  4. SaluteSpeech переводит русскую речь в текст.
  5. Через n8n расшифровка автоматически отправляется в OpenAI.
  6. ИИ анализирует текст по заданным критериям и формирует готовый ответ.
  7. Пользователь получает в Телеграм подробный разбор речи с оценкой и рекомендациями.

Для проекта также арендовали отдельный облачный сервер и использовали отдельные аккаунты для OpenAI и SaluteSpeech. Это позволило собрать автономную инфраструктуру под бот и не завязывать обработку пользовательских файлов на ручные действия команды.

Какие критерии анализирует ИИ

Нужно было сделать так, чтобы разбор выглядел не как случайный ответ нейросети, а как системная обратная связь по понятным параметрам.


Для этого в основу анализа заложили критерии, которые использует клиент в своей методике. ИИ оценивает речь по 8 параметрам:


  • чистота речи;
  • темп;
  • эмоциональность;
  • метафоры, примеры и образы;
  • структура и логика;
  • аргументация;
  • начало и финал;
  • ключевое сообщение.

По каждому параметру ИИ даёт развёрнутый комментарий: что получилось хорошо, что стоит улучшить и на что обратить внимание дальше.


Отдельно мы настроили структуру ответа, чтобы он был не сухим и не «канцелярским», а дружелюбным, понятным и при этом экспертным.

Анализ речи по критериям

Промпт и тональность

Сам по себе ИИ не знает, как именно должен звучать хороший разбор речи в этом проекте. Поэтому большой объём работы пришёлся на подготовку логики анализа и промпта.


В таких проектах промпт — это не вспомогательная инструкция, а фактически методическая основа ИИ-ассистента. От него зависит, будет ли пользователь получать общие советы вроде «говорите увереннее» или действительно полезный разбор с примерами и понятным вектором развития.


Клиентская команда передала критерии оценки и пожелания к формату. На этой основе мы собрали промпт, в котором задали:


  • роль ИИ-эксперта;
  • критерии анализа;
  • структуру ответа;
  • желаемую тональность;
  • логику рекомендаций;
  • формат общей оценки.

Мы работали не только с формулировками, но и с логикой ответа: что ИИ должен заметить, в каком порядке дать обратную связь, как не перегрузить пользователя критикой и как сохранить ощущение живого наставника.

Работа с промптом шла итеративно: мы тестировали ответы, корректировали формулировки, уточняли структуру и добивались более точного результата.


В результате ИИ-ассистент стал работать как первая точка экспертного контакта: анализировать, объяснять, поддерживать и переводить пользователя к следующему шагу.

Какие сложности были в проекте

1. Хотелось анализировать именно речь, а не только текст

На старте одной из главных сложностей было то, что пользователи присылают не текст, а живую речь: аудио и видео. А это значит, что важно было не потерять нюансы при автоматической обработке.

Для пользователя это выглядит как магия: отправил голосовое — получил подробный разбор. Но внутри нужно было решить важную продуктовую задачу: сохранить ощущение персональной обратной связи, хотя процесс полностью автоматизирован.

В итоге мы пошли через распознавание речи и анализ расшифровки. Такой подход позволил автоматизировать процесс и при этом получать подробный разбор. По результатам тестов стало понятно, что даже в таком формате ИИ хорошо подмечает слабые места: длинные конструкции, сбивчивость, смысловые повторы, паузы и другие особенности речи.


2. Было ограничение по размеру файла

Бот принимает файлы только до 20 МБ. Для пользователя это означает дополнительное ограничение: длинные или тяжёлые видео нужно обрезать, сжимать или отправлять в более лёгком формате.



Часть схемы бота с сообщением об ограничении

Мы не просто поставили техническое ограничение, а продумали, как объяснить его пользователю человеческим языком. В таких деталях часто и держится конверсия: если человек сталкивается с ошибкой и не понимает, что делать дальше, он уходит. Если бот спокойно объясняет варианты — сжать файл, обрезать запись или записать голосовое прямо в Телеграме — пользователь остаётся в сценарии.


3. Нужно было не перегрузить пользователя

После диагностики важно было не обрушить на человека слишком много контента сразу. Поэтому воронку выстраивали ступенчато: сначала разбор, потом полезные материалы, потом переход к курсу.

Мы специально не вели пользователя к продаже сразу после диагностики. Сначала бот помогал прожить маленький результат: получить разбор, выполнить упражнение, заметить изменения в голосе или темпе речи.

Дополнительно прорабатывали таймеры, задержки и напоминания, чтобы цепочка была живой, но не навязчивой.


4. Логика воронки менялась по ходу проекта

Пока мы работали над ботом, у клиента менялась продуктовая логика. Изначально планировались одни сценарии, затем структура курса и набор бесплатных материалов были пересобраны. Из-за этого часть механик пришлось адаптировать уже в процессе, а воронку дорабатывать под новую структуру продукта.

Это добавило проекту гибкости: мы не просто собрали изначальную схему, а подстроили её под то, как продукт выглядел на финальном этапе.

Как мы выстроили воронку после диагностики

После того как пользователь получает разбор, бот не заканчивает разговор. Дальше начинается следующая часть сценария.


Сначала пользователь может перейти к бесплатным видео по разным направлениям. Например, выбрать тему, которая волнует его сейчас больше всего: как справиться с паникой, удерживать внимание, говорить коротко и по делу, подготовить выступление, работать с голосом, харизмой, конфликтами, сложными аудиториями или ответами на неудобные вопросы.


Затем через отдельную цепочку бот переводит пользователя в продающий сценарий. Там он знакомится с полным курсом, его модулями, тарифами и дополнительными материалами.


То есть воронка строится так:

  • сначала интерес и польза;
  • потом углубление в тему;
  • затем продажа полного курса или отдельных модулей.

Это важный принцип для образовательных продуктов: человек легче принимает решение об обучении, когда уже почувствовал пользу подхода на себе. Поэтому продажа курса встроена не как резкий переход, а как логичное продолжение опыта: если короткая практика дала эффект, системная программа может дать больше.

Хотите, чтобы чат-бот решал ваши задачи? Обращайтесь к нам, поможем!
С 2018 года создаём «под ключ» чат-боты для различных ниш бизнеса. Оставьте заявку на консультацию внизу страницы.

Основатель агентства Townsend

Что в итоге получил клиент

В результате клиент получил инструмент, который одновременно решает несколько задач: вовлекает новую аудиторию, даёт пользователю персональную пользу, демонстрирует экспертность продукта и переводит интерес в следующий шаг — просмотр материалов, выбор модуля или покупку курса.


Что удалось реализовать:


  • Телеграм-бота на Salebot;
  • автоматический приём аудио- и видеофайлов;
  • связку Salebot, n8n, SaluteSpeech и OpenAI;
  • распознавание русской речи и передачу расшифровки в ИИ;
  • промпт для анализа речи по 8 критериям;
  • структурированную и персонализированную обратную связь;
  • сценарий с упражнениями и полезным контентом;
  • переход из бесплатной диагностики в прогрев и продажу;
  • отдельные ветки для покупки полного курса и модулей;
  • обработку ограничений: файл больше 20 МБ, повторная попытка, бездействие пользователя;
  • возможность дорабатывать воронку после запуска.

Такой бот может работать как самостоятельный лид-магнит, как прогрев перед запуском, как точка входа из рекламы или как бесплатная диагностика для аудитории эксперта. При этом он не требует ручного разбора каждой записи и сохраняет ощущение персонального подхода.

Хотите использовать ИИ для вовлечения и прогрева клиентов?
Оставьте свои контакты, и мы свяжемся с вами, чтобы обсудить детали