Наш коллега - робот - [46]

Шрифт

Интервал

Надо сказать, что человеческий язык уже давно "волновал" умы машин. Приборы, читающие печатный текст и являющиеся, как правило, частями других, более сложных устройств, уже перестали быть технической новинкой. Достаточно вспомнить почтовые автоматы, сортирующие корреспонденцию в зависимости от шестизначного почтового индекса. Однако такие примитивные устройства способны "понимать" лишь сильно стилизованный текст, написанный по заданному трафарету. А как же простой печатный шрифт? Неужели нужно специально переписывать для робота миллионы человеческих книг?

Вот последнее достижение в этой области - читающий компьютер третьего поколения. Он "умнее" своих предшественников - читает тексты, отпечатанные шрифтами двадцати пяти различных видов. "Тренировочная фаза" в течение 15-20 минут позволяет прибору переходить на другой вид шрифта. Машина работает по принципу "оптического ощупывания" со скоростью 20-30 печатных знаков в секунду. Существуют и разработки, нацеленные на распознавание рукописного текста.

Однако проблема восприятия информации "с голоса" гораздо сложнее. Печатный текст формируется из четких знаков - букв, живая речь из атомов речи - звуков или, как их называют специалисты, - фонем (отсюда "фонетика" - наука о правильном произношении). Как объект физического анализа каждый звук речи отличается от другого и частотой, и продолжительностью, и интенсивностью. Кроме того, в речи нет четких границ между звуками, как между буквами в тексте, и это сильно затрудняет распознавание по сравнению с любым печатным текстом. Одни специалисты пытаются распознавать речь по частотным характеристикам, присущим звучанию каждой буквы (заметим, что в некоторых буквах несколько фонем). Другие - по группе фонем, составляющих слог, так как распознавание многих фонем вне контекста очень трудно.

Для того чтобы понять, сколь сложна проблема звукового распознавания человеческой речи, уместно привести такой почти анекдотический пример. В одном научно-исследовательском институте, расположенном на Кавказе, была построена кибернетическая черепаха, которая выполняла фиксированный набор команд, подаваемых голосом. На торжественную демонстрацию съехались гости. Черепаха была послушна своим создателям, но "принципиально" отказалась слушаться гостей. Как выяснилось в результате пристрастного разбирательства, гостям она не повиновалась по одной простой причине... команды нужно было произносить с "кавказским акцентом". То, что мы называем кавказским акцентом, всего лишь связано с повышенным участием в произношении некоторых звуков гортани.

Проблема машинного слуха настолько сложна, что не имеет имитационных аналогов механического моделирования в глубинах истории. Анналы техники не сохранили нам достоверных сведений о слушающих андроидах. То ли слуховой аппарат человека оказался слишком замысловатым для чисто механического подражания, то ли роль мозга оказалась слишком велика в слуховом процессе, по крайней мере, проблема машинного слуха так же, как и зрения, стала актуальной лишь на электронном уровне. К сожалению, известный нам микрофон еще меньше напоминает человеческое ухо, чем телекамера человеческий глаз.

Имевшиеся в распоряжении ученых ЭВМ поначалу с трудом справлялись с предлагаемым им объемом "распознавательных" работ. Они реагировали далеко не на каждый голос, а лишь на тот, на который они настроены заранее. К тому же у них был ограниченный словарный запас.

Загвоздка состоит в следующем: число возможных вариантов спектра фонем, учитывая словарное богатство каждого языка, выражается астрономической величиной, и это не считая того, что спектры даже одинаковых слов разнятся в зависимости от индивидуума, их произносящего. Более того, даже один и тот же человек в течение одной недели, даже нескольких часов будет произносить одни и те же слова совершенно по-разному.

Первые акустические системы безошибочно распознавали лишь отдельно сказанные буквы алфавита, следующие - отдельные слова команд, четко произнесенные в микрофон. Однако понимающий робот "слушался" лишь голоса своего "хозяина" и делал это очень хорошо. Во время работы он самостоятельно приспосабливался к "постоянно меняющейся языковой манере человека". Другим людям, которые вступали в контакт с роботом и произносили в микрофон буквы или цифры, удавалось его "обмануть". Но это бывало лишь тогда, когда голос говорящего напоминал голос "хозяина". Конечно, "привыкание" машины к другим голосам не связано с какими-то непреодолимыми трудностями, просто компьютер вырабатывает "модель голоса данного индивидуума". Для этого необходимо ввести в память ряд звуковых проб со словами, которые машина должна понимать.

Можно не сомневаться, что в будущем понимающие наш язык аппараты, если мы хотим, чтобы они утвердились в производстве и быту, должны обладать такой степенью приспособляемости, чтобы узнавать голоса любых людей и выполнять любые команды.

В настоящее время уже нашли применение около пятисот систем распознавания речи. Они используются при контроле качества продукции на конвейерах, при управлении станками, сортировке товаров и багажа в аэропортах, с целью включения электроприборов, вызова врача или медсестры, в системах программированного обучения, опознавания личности и т. д. и т. п.

Продолжить чтение

Рекомендуем почитать

Санне Блау

Во власти цифр. Как числа управляют нашей жизнью и вводят в заблуждение

Миром правят числа. Все чаще и чаще решения принимают не люди, а математические модели. В числах измеряется все – от наших успехов в образовании и работе и состояния нашего здоровья до состояния экономики и достижений политики. Но числа не так объективны, как может показаться. Кроме того, мы охотнее верим числам, подтверждающим наше мнение, и легко отбрасываем те результаты, которые идут вразрез с нашими убеждениями… Анализируя примеры обращения с численными данными в сферах здравоохранения, политики, социологии, в научных исследованиях, в коммерции и в других областях и проливая свет на ряд распространенных заблуждений, нидерландский журналист, специалист по числовой грамотности Санне Блау призывает мыслить критически и советует нам быть осмотрительнее, о чем бы ни шла речь – о повседневных цифрах, управляющих нашим благополучием, или о статистике, позволяющей тем, кто ее применяет, достичь огромной власти и влияния. «Числа влияют на то, что мы пьем, что едим, где работаем, сколько зарабатываем, где живем, с кем вступаем в брак, за кого голосуем, как решаем вопрос, брать ли ипотеку, как оплачиваем страховку.

Михаил Райтман

Старший брат следит за тобой. Как защитить себя в цифровом мире

В эпоху тотальной цифровизации сложно представить свою жизнь без интернета и умных устройств. Но даже люди, осторожно ведущие себя в реальном мире, часто недостаточно внимательно относятся к своей цифровой безопасности. Между тем с последствиями такой беспечности можно столкнуться в любой момент: злоумышленник может перехватить управление автомобилем, а телевизор – записывать разговоры зрителей, с помощью игрушек преступники могут похищать детей, а к видеокамерам можно подключиться и шпионить за владельцами.

Виктор Пронин

Продолжим наши игры+Кандибобер

Виктор Пронин пишет о героях, которые решают острые нравственные проблемы. В конфликтных ситуациях им приходится делать выбор между добром и злом, отстаивать свои убеждения или изменять им — тогда человек неизбежно теряет многое.

Григорий Тарасевич

О науке без звериной серьёзности

О чем это? • о ключевых словах современной науки; • о самых страшных экспериментах; • о сущности цивилизации. «Любому человеку нужен просто разговор – о важном, научном. Это задача научных журналистов. И один из самых ярких, самых ясных, самых ответственных – Григорий Тарасевич». Александр Архангельский, телеведущий, писатель, профессор Высшей школы экономики «…Книга вызывает множество противоречивых чувств: с рядом моментов хочется спорить, от большинства историй смеялась в голос, а от некоторых глав становилось безумно грустно».

Терренс Сейновски

Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет

История машинного обучения, от теоретических исследований 50-х годов до наших дней, в изложении ведущего мирового специалиста по изучению нейросетей и искусственного интеллекта Терренса Сейновски. Автор рассказывает обо всех ключевых исследованиях и событиях, повлиявших на развитие этой технологии, начиная с первых конгрессов, посвященных искусственному разуму, и заканчивая глубоким обучением и возможностями, которые оно предоставляет разработчикам ИИ. В формате PDF A4 сохранен издательский макет.

Штефан-Людвиг Хоффманн

Социальное общение и демократия. Ассоциации и гражданское общество в транснациональной перспективе, 1750-1914

Что значат для демократии добровольные общественные объединения? Этот вопрос стал предметом оживленных дискуссий после краха государственного социализма и постепенного отказа от западной модели государства всеобщего благосостояния, – дискуссий, сфокусированных вокруг понятия «гражданское общество». Ответ может дать обращение к прошлому, а именно – к «золотому веку» общественных объединений между Просвещением и Первой мировой войной. Политические теоретики от Алексиса де Токвиля до Макса Вебера, равно как и не столь известные практики от Бостона до Санкт-Петербурга, полагали, что общество без добровольных объединений неминуемо скатится к деспотизму.