Инженеры Пенсильванского университета разработали SmartDJ — редактор на основе искусственного интеллекта, позволяющий пользователям изменять иммерсивные звуковые среды с помощью простых инструкций на понятном языке. Он может найти применение в виртуальной реальности, дополненной реальности, играх и звуковом дизайне. Вместо того чтобы требовать от пользователей указания
отдельных параметров редактирования, SmartDJ может реагировать на запросы высокого уровня, например, «сделать так, чтобы это звучало как оживленный офис», а затем планировать и выполнять необходимые шаги для достижения этого результата. Система устраняет два основных недостатка более ранних инструментов редактирования аудио с использованием ИИ. Во-первых, большинство
предыдущих систем лучше всего работали с жесткими, шаблонными командами, требуя от пользователей идентификации звуков для добавления или удаления. Во-вторых, эти инструменты, как правило, работали с одноканальным или «моно» аудио, теряя пространственные нюансы, необходимые для полного погружения в звук. SmartDJ, напротив, способен
интерпретировать инструкции высокого уровня и предназначен для стереофонического звука, что позволяет ему вносить изменения, которые лучше сохраняют или изменяют пространственную структуру сцены. Более того, система является интерпретируемой: пользователи могут видеть каждый шаг, который предпринимает SmartDJ. Например, запрос типа «сделайте так, чтобы это звучало как оживленный офис» может
привести к тому, что SmartDJ сгенерирует инструкцию типа «Добавьте звук звонка телефона справа на 3 дБ». Затем пользователи могут изменять, удалять или добавлять отдельные шаги, обеспечивая больший контроль над конечным результатом. «С помощью SmartDJ пользователи могут описать желаемый результат на естественном языке, а система сама определит, как этого добиться», — говорит Минмин Чжао, доцент кафедры компьютерных и информационных наук (CIS). «Мы
показываем, что ИИ может помочь людям редактировать аудио интуитивно понятным способом, используя простой язык». Чжао является ведущим автором исследования, представленного на этой неделе на Международной конференции по изучению представлений ( ICLR 2026 ), проходившей в Рио-де-Жанейро. Статья также доступна на сервере препринтов arXiv. Сочетание языковых и диффузионных моделей Одна из главных
проблем редактирования аудио с помощью ИИ заключается в том, что понимание запроса пользователя и генерация звуков обычно обрабатываются различными типами систем ИИ. «Мы используем языковые модели для работы с текстом», — говорит Цзитун Лан, аспирант кафедры электротехники и системотехники (ESE) и первый автор исследования. «Кроме того, мы используем модели диффузии
для редактирования звуков». Разница сводится к тому, чему каждая система была обучена. Языковые модели — та же технология, которая лежит в основе чат-ботов — изучают закономерности в словах, помогая им интерпретировать смысл, который вкладывают пользователи, и генерировать текст в ответ. Диффузионные модели, напротив, предназначены для
создания медиаконтента путем постепенного преобразования шума в связный сигнал. Чтобы преодолеть этот разрыв, команда внедрила в процесс редактирования аудиоязыковую модель (ALM). Обученная как на звуке, так и на тексте, ALM анализирует исходный аудиоматериал вместе с запросом пользователя, а затем разбивает этот запрос на последовательность более мелких действий редактирования, таких как добавление, удаление или изменение
положения звука. Затем модель диффузии выполняет эти действия шаг за шагом, позволяя SmartDJ как интерпретировать язык, так и редактировать аудио. По сути, языковая модель выступает в роли продюсера, определяя, как должно меняться звуковое оформление, в то время как модель диффузии действует как студийный музыкант, воплощая эти указания в
аудио. «Языковая модель задает системе направление», — говорит Идуо Хао, аспирант CIS и соавтор исследования. «Модель диффузии выполняет эти указания». Обучение SmartDJ Чтобы научиться преобразовывать общие запросы пользователей в пошаговые аудиоредактирования, SmartDJ потребовались примеры, которые объединяли бы сразу три вещи: общую инструкцию, последовательность действий по редактированию,
необходимых для ее выполнения, и аудио до и после каждого изменения. К сожалению, таких обучающих данных не существовало. «Для решения этой проблемы требовался совершенно необычный набор данных, — говорит Лан. — Он должен был одновременно отражать цель, этапы и результат». Поэтому команда разработала его самостоятельно. Опираясь на общедоступные
звуковые библиотеки, исследователи создали конвейер, который использовал большую языковую модель для генерации высокоуровневых подсказок для редактирования и промежуточных шагов, необходимых для их выполнения, в то время как обработка аудиосигнала производила соответствующие отредактированные выходные данные. «Для того чтобы это работало, мы не могли просто показать модели входные и выходные данные, — говорит Хао. — Мы должны были показать ей цепочку рассуждений между ними».
К более доступному редактированию аудио Для проверки SmartDJ исследователи сравнили его с более ранними системами редактирования звука и обнаружили, что он выдает более реалистичные и лучше согласованные результаты. Как в количественных оценках, так и в исследованиях с участием людей, SmartDJ превзошел предыдущие методы по таким
показателям, как качество звука, соответствие результатов инструкциям пользователя и реалистичность размещения звуков в пространстве. Исследователи видят потенциальные области применения в виртуальной реальности, дополненной реальности, играх, звуковом дизайне, виртуальных конференциях и других формах интерактивных медиа, где пользователи могут захотеть изменить звуковую среду,
не указывая вручную каждое отдельное изменение. В конечном итоге, цель исследователей — сделать редактирование аудио более доступным, позволив любому человеку с творческим видением редактировать звуковые ландшафты. «Для других медиа, таких как текст и изображения, пользователи уже могут использовать ИИ для выполнения запросов на высокоуровневое редактирование», — говорит Чжао. «SmartDJ открывает аналогичные возможности для аудио, упрощая для большего числа людей воплощение своих идей в
жизнь».
Сообщает android-robot.com
Новость из рубрики: Интернет
Поделиться новостью:
Топ Новости Недели
- Подготовка документов для участия в аукционе на право пользования недрами является сложным и ответственным процессом, требующим профессионального подхода...
- Рабочие ХБ перчатки с ПВХ покрытием являются надежным и практичным средством защиты рук...
- Зубная паста Glossy Cherry является отличным выбором для ежедневного ухода, объединяя в себе качественное очищение, приятный вкус и заботу о здоровье зубов и десен...
- Ремонт кофемашин De’Longhi — это процесс, требующий внимательного подхода и профессиональных навыков...
- Хорошая семейная стоматология становится не просто местом лечения, а партнером в заботе о здоровье всей семьи...
- Новые сервера Lineage 2 с высоким онлайном представляют собой идеальное сочетание динамики, конкуренции и возможностей для роста...
- Продукты халяль занимают важное место в системе питания, основанной на нормах ислама...
- Выбор банкетного зала — это важный этап подготовки к мероприятию, который требует внимательного анализа и учета множества деталей...
- Эндотрахеальная трубка является незаменимым инструментом в современной медицине, позволяющим спасать жизни в самых сложных ситуациях...
- Выбор детской стоматологии — это важное решение для родителей, от которого зависит не только здоровье зубов ребенка, но и его отношение к лечению в будущем...
- Сертификация и декларирование товаров являются важными элементами современной системы контроля качества...
- В последние годы служба по контракту приобретает всё большую актуальность, особенно в контексте текущих задач, стоящих перед государством...
- Душевая система с тропическим душем является современным и практичным решением для обустройства ванной комнаты...
- Нейросети для генерации докладов уже сегодня являются мощным инструментом, который помогает быстро и качественно решать учебные задачи...
- Современный интерьер невозможно представить без удобной и стильной мебели, которая не только выполняет практическую функцию, но и формирует атмосферу уюта...
- Гель Intimly отражает эти тенденции, предлагая сочетание эффективности и бережного ухода...
- Выбор стоматолога — важное решение, от которого напрямую зависит здоровье зубов и общее самочувствие...
- Необычные обручальные кольца становятся всё более популярным выбором среди современных пар, стремящихся подчеркнуть свою индивидуальность и создать символ любви с уникальным характером....
- Archibald Gran Comfort от Poltrona Frau — это не просто предмет мебели, а тщательно продуманное дизайнерское решение, объединяющее комфорт, эстетику и высокое качество исполнения...
- Аксессуары для грузовых автомобилей являются важной частью современной транспортной инфраструктуры...
14:00, 26 Апр Илон Маск запустил мессенджер XChat с искусственным интеллектом. Российским пользователям пока не повезло Компания X Илона Маска официально выпустила новый мессенджер XChat для iPhone. Приложение позиционируется как безопасная альтернатива встроенным личн...
02:00, 08 Май 5 простых и удобных электрических мини-пил для сада Мини-пила — своеобразная альтернатива ручной ножовке. Ей тоже удобно работать одной рукой, а тонкая шина позволит подобраться к нужной ветке на дерев...
11:51, 21 Апр Утилизация растворителей и лакокрасочных отходов в Москве Ликвидация ЛКМ: как избежать предписаний и закрыть вопрос с отходами
В условиях жесткого надзора в Московском регионе жидкие промышленные отходы — э...
07:00, 23 Май Как конвертировать GPT в MBR и наоборот: несколько простых способов для Windows Основная загрузочная запись (MBR) – это наследие давно минувших дней, когда объем потребительских накопителей не превышал 2 Тбайт, а в самих компьюте...
02:00, 07 Май Как выбрать летние шины: пять простых критериев Большинство автомобилистов меняют шины на летние в апреле-мае, ориентируясь на погоду в своем регионе. В некоторых из них низкие температуры сохраняю...
05:00, 27 Апр Как читать больше книг и не бросать: 5 простых лайфхаков Хочешь читать больше? Вот 5 лайфхаков для читающих Книги — одно из величайших удовольствий в жизни, и это хорошо известно каждому, кто когда-либо час...
13:00, 08 Май Эксперт: Уязвимость Copy Fail не позволяет полностью захватить российскую Astra Linux Директор департамента анализа безопасности «Группы Астра» Владимир Тележников рассказал, что обнаруженная в ядре Linux критическая уязвимость Copy Fa...
08:23, 14 Апр Грамотная организация грузоперевозок в Африку позволяет не только расширить географию бизнеса, но и значительно повысить его эффективность Грузоперевозки в Африку из России: особенности и преимущества
Современные международные грузоперевозки играют ключевую роль в развитии бизнеса, особ...
09:00, 16 Май Сколько слов в русском языке: в словаре 200 тысяч, но в жизни их больше Даже академики знают только примерное количество русских слов В детстве вам наверняка было интересно, сколько всего слов в русском языке. Тысяча? Дес...
09:09, 14 Апр Правильный выбор оборудования позволяет эффективно решать задачи по переработке древесных отходов, снижать затраты и повышать производительность Измельчители древесины представляют собой специализированное оборудование, предназначенное для переработки древесных отходов в щепу или мелкую фракци...
17:00, 22 Апр Некоторые люди слышат цвета и чувствуют вкус слов: научное объяснение Умение чувствовать запах музыки называется синестезией Представьте, что каждая буква алфавита для вас окрашена в определенный цвет, музыка рисует пер...
18:00, 08 Май "Сама стала той, с кем изменили". Наталью Подольскую раскритиковали после её слов об изменах в браке 43-летную певицу Наталью Подольскую осудили за слова об изменах в браке. Подольская заявила, что это можно простить, а ей в ответ в соцсетях припомни...
11:00, 24 Апр "Он не выступает от имени Великобритании". Дональд Трамп ответил принцу Гарри после его слов об Украине Дональд Трамп прокомментировал слова принца Гарри, который вчера прибыл в Киев и призвал на форуме президента США помочь Украине, чтобы закончить вое...
08:00, 09 Май "Летают беспилотники, гибнут люди. Так не должно быть". "Отменённый" из-за своих слов об СВО Дмитрий Нагиев записал видео ко Дню Победы Дмитрий Нагиев, которого, по слухам, сейчас "отменяют" в России за противоречивые высказывания об СВО, записал очередное видео на фоне берёз накануне...
13:00, 20 Апр В России ускорили рекомендательные системы с помощью ИИ Исследователи Центра практического искусственного интеллекта Сбербанка вместе с коллегами из AIRI, Университета Иннополис и ИТМО нашли способ перенос...
16:00, 27 Апр Алекс Пройас снимет «Heaven» с помощью ИИ Алекс Пройас, человек, который подарил «Ворона» и «Я, робот», возвращается с проектом «Heaven» и пытается собрать его не только на студийных деньгах,...
11:00, 25 Апр В Новосибирске изучили древние черепа с помощью КТ В пресс-службе Новосибирского госуниверситета (НГУ) сообщили, что специалисты вуза провели компьютерную томографию (КТ) четырех черепов из археологич...
11:00, 18 Апр Как создать песню с помощью нейросети — бесплатно и за 5 минут Искусственный интеллект пишет стихи, рисует картины и придумывает сценарии — теперь очередь дошла до музыки. Сегодня любой желающий найдет, как сдела...
20:00, 16 Апр «Норникель» будет создавать сплавы с помощью ИИ в новом центре при МГУ В научно-технологической долине МГУ «Воробьёвы горы» открылся Центр палладиевых технологий «Норникеля». Главная задача — создавать новые материалы и ...
20:00, 28 Апр Экономист Лизан: Украина следит за российским зерном с помощью спецагентов Киев и Брюссель не могут предоставить четких доказательств, что Россия торгует с миром зерном, выращенным именно на территории новых регионов. Поэтом...
06:00, 26 Апр Авито в 1,6 раз повысил эффективность социальных механик с помощью искусственного интеллекта Технологическая платформа Авито первой в России применила комбинацию генеративного ИИ и рекомендательных алгоритмов для автоматизации социальных и бл...
06:00, 06 Май Роботы против мусора: в Европе начали очищать морское дно с помощью ИИ Проект SeaClear 2.0 объединяет дроны, подводные аппараты и автономные суда, чтобы находить и поднимать отходы со дна — где раньше это было слишком сл...
11:00, 17 Апр Более 50 тыс. нарушений чистоты устранили в Подмосковье с помощью ИИ с начала года "ИИ-контроль за чистотой во дворах ведется в Подмосковье с 2023 года. Задействовано около 80 тыс. камер, оборудованных искусственным интеллектом. За ...
18:00, 15 Май Жительница Находки приговорена к двум годам колонии-поселения за ДТП со скорой помощью Дорожная беспечность имеет высокую цену. В Находке жительница края спровоцировала столкновение со скорой помощью, что привело к гибели человека. Суде...
04:00, 10 Май Дети научились обходить проверки возраста в интернете с помощью нарисованных усов Исследование показало, что многие системы принимают косметический карандаш и грим за признаки взрослого человекаДети начали массово обходить системы ...
18:00, 08 Май Как найти клеща на собаке с помощью айфона — способ из TikTok, который работает В TikTok набирает популярность простой бытовой лайфхак: владельцы iPhone используют стандартное приложение «Лупа», чтобы быстрее находить клещей у со...
09:00, 25 Апр Шесть человек обратились за помощью после атаки украинских БПЛА на Екатеринбург После атаки украинских беспилотников на жилой дом в Екатеринбурге за медицинской помощью обратились шесть человек. Об этом в своем Telegram-канале со...
10:00, 30 Апр Конец эпохи кадрового голода: почему российские компании считают, что перехитрили рынок с помощью ИИ Российский корпоративный сектор проходит этап жесткой трансформации производственных процессов. Топ-менеджмент компаний переосмысливает текущие огран...
00:00, 09 Май СССР пытался подчинить природу с помощью лесов: зелёная стена дала стране изобилие продуктов Сталинский план преобразования природы стал ответом на катастрофическую засуху 1946 года, которая принесла стране голод и разруху. Советское руководс...
17:00, 26 Май «Вечный» аккумулятор на подходе: японцы нашли способ продлить жизнь батарей в сотни раз с помощью простого олова Циклический ресурс нового сплава магния и олова оказался более чем в 400 раза выше, чем у чистого магнияГруппа исследователей из Университета Тохоку ...