Ученые говорят, что человеческий мозг - это уникальный
когнитивно-аналитический инструмент. Его возможности в познании, оценке
и анализе окружающей информации еще очень долго не будут доступны для
компьютеров в том же объеме и с тем же качеством. Больше других ученых
интересую когнитивные возможности нашего мозга - исследователи хотят
понять как наш мозг способен отличать речь от других звуков,
классифицировать источник и направление звука.
Физики из Института им Макса Планка в немецком Лейпциге давно работают
над системами, позволяющими компьютерам распознавать человеческую речь
и транслировать ее в текст, однако успехи исследователей на этой почве
были невелики. Сейчас здесь разработана новая математическая модель,
способная улучшить автоматические процесс разпознавания и обработки
человеческой речи. Авторы методики говорят, что в недалеком будущем
такие алгоритмы приблизят машины к человеческому мозгу.
Немецкие инженеры говорят, что многие люди знают, что сложно
компьютерам иметь дело с человеческой речью. "Человек, которому
приходится общаться с автоматической телефонной системой, должен
запастись терпением. Если вы говорите слишком быстро или слишком
медленно, если ваше произношение не идеально четкое или если рядом с
вами находится источник шума, то система вас не поймет", - говорит
Стефан Кибель из Института Макса Планка.
Проблема современных систем распознавания голоса заключается в том, что
они очень чувствительны к изменениям. Когда нынешние системы пытаются
понять, что говорит человек, то они анализируют свою базу знаний,
сравнивают частоты и звуковые комбинации, таким образом пытаясь найти
совпадения.
"Очевидно, что наш мозг работает иначе. Мы полагаем, что мозг опирается
на временные последовательности. Многие наши мозговые стимулы состоят
из временных последовательностей. Музыка и речь являются упорядоченными
последовательностями с разной длиной, но иерархически упорядоченные.
Полагаем, что наш мозг классифицирует разные сигналы от маленьких и
быстро меняющихся компонентов (букв) до больших и медленно меняющихся
(тем)", - говорит ученый.
Немецкие ученые говорят, что их исследования доказывают значение
информации, разбитой на разные временные уровни восприятия. "Мозг
постоянно ищет временные структуры в окружающей среде, чтобы можно было
сделать логический вывод о том, что последует дальше. Таким образом,
мозг может часто предсказывать следующий звук на основе медленно
меняющейся информации", - говорит он.
Иными словами, наш мозг на подсознательном уровне способен как-бы предугадывать слова в зависимости от контекста разговора.
Чтобы проверить эту гипотезу, исследователи создали математическую
модель, которая в упрощенном виде имитирует нервные процессы,
происходящие для осмысления речи. Нервные процессы были описаны
алгоритмами, которые обрабатываются на различных временных уровнях.
Модель могла обрабатывать как отдельные звуки речи, так и слоги или
слова. Если система делала неверный прогноз о слове или контексте, то
модель обнаруживала ошибку.
В качестве языка ученые использовали упрощенную модель из четырех
гласных букв а, е, я, о, которые объединялись в слоги. "В первую
очередь мы хотели проверить верность самой концепции, в дальнейшем на
этой базе можно строить более сложные системы, приближенные к
естественному языку", - говорит Кибель.
"С неврологической точки зрения самым важным для нас были реакции,
похожие на те, что происходят в головном мозге", - рассказывает ученый.
|