Технологии преобразования звука в визуальные образы
Авторы: Карпов И.Е., Москалик A.A. | |
Опубликовано в выпуске: #2(97)/2025 | |
DOI: | |
Раздел: Информатика, вычислительная техника и управление | Рубрика: Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем |
|
Ключевые слова: технологии преобразования звука, визуальные образы, нарушения слуха, глубокое обучение, обработка естественного языка, компьютерное зрение, визуализация звука, аудиовизуальные методы, социальная интеграция, качество жизни |
|
Опубликовано: 09.04.2025 |
Описано исследование технологий преобразования звука в визуальные образы, особенно важные для людей с нарушениями слуха. Исследование сфокусировано на разработке технологии, позволяющей точно и полно преобразовать эмоциональные и контекстуальные аспекты аудиосообщений в визуальный формат. Представлены текущие методы визуализации аудиоинформации, их ограничения и новый подход, при котором используется комбинация глубокого обучения, обработки естественного языка и компьютерного зрения. Основное внимание уделено практическому применению разработок, включая образовательные и коммуникационные сценарии, и результатам экспериментов с добровольцами, подтверждающим значительное улучшение в визуализации звука по сравнению с существующими технологиями.
Литература
[1] Sung-Bin K., Senocak A., Ha H., Owens A., Oh T.-H. Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment. URL: https://sound2scene.github.io/ (дата обращения 15.10.2024).
[2] Pambou J. Generating Images from Audio with Machine Learning. URL: https://www.comet.com/site/blog/generating-images-from-audio-with-machine-learning/ (дата обращения 15.10.2024).
[3] Макеев М.А. Анализ аудиосигнала с применением алгоритма быстрого преобразования Фурье. Исследования и разработки в области машиностроения, энергетики и управления: матер. XXIII Междунар. науч.-техн. конф. студентов, аспирантов и молодых ученых. Гомель, ГГТУ им. П.О. Сухого, 2023, c. 262–265. URL: https://elib.gstu.by/handle/220612/29267 (дата обращения 15.10.2024).
[4] Авербух В.Л. К теории компьютерной визуализации. Вычислительные технологии, 2005, т. 10, № 4, c. 21–51.
[5] Акименко В.М. Особенности применения технологий визуализаций в коррекционной работе с детьми, имеющими нарушениям слуха. Электронный научный журнал «Личность в меняющемся мире», 2018, т. № 6, с. 173–188. https://doi.org/10.23888/humJ20181173-188
[6] Огородников А. Н. Выбор интервалов анализа сигнала при распознавании речи. Вестник Томского государственного университета, 2003, № 280, с. 295–304.
[7] Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. Москва, Радио и связь, 2004, 164 с.
[8] Конев А.А. Модель и алгоритмы анализа и сегментации речевого сигнала. Дис. … канд. техн. наук. Самара, 2007, 142 с.
[9] Дворянкин С.В., Нагорных И.М. К вопросу о технологии преобразования звук – изображение – звук. Спецтехника и связь, 2013, № 1, с. 28–32.
[10] Иванов С.Ю., Аржанова М.Ю. Разработка программного обеспечения для визуализации и анализа аудио файлов. Новые информационные технологии в автоматизированных системах, 2010, № 13, с. 196–198.
[11] Макаров Я.В. Исследование возможности выделения признаков в процессе аудиоанализа. Глобус: технические науки, 2019, с. 5–11.