Наш коллега - робот - [47]

Шрифт

Интервал

Имеются практические примеры применения понимающих речь роботов и в непромышленной сфере.

Системы, распознающие печатный текст, уже не новость. Но вот эта особенная. Сконструированы роботы, которые работают в паре - один переворачивает страницы текста, а другой... читает слова приятным женским голосом. Точность распознавания 99,5 процента. Эти роботы могут излагать последние известия по радио и отвечать на вопросы по телефону. Конструкторы создали механического чтеца вовсе не для рекламы, ему уже уготовано рабочее место - он будет служить в автоматизированной телефонной справочной службе.

Конечно, можно и специально ввести в компьютер всю необходимую справочную информацию; но зачем делать еще раз то, что уже однажды сделано, ведь телефонные книги и справочники уже отпечатаны, они и в будущем будут переиздаваться и корректироваться, ими будут пользоваться люди... а теперь еще и роботы.

Да! Общение с человеком пошло роботу на пользу, он получил еще одну чисто человеческую привилегию - заговорил. Таким образом, к привычным механическим эффекторам робота добавилось еще одно немаловажное устройство - синтезатор речи.

Машина, которая "говорит", не такая уж новинка, к примеру обыкновенный магнитофон. Однако он, к сожалению, "говорит" только то, что записано на пленку, то, что заранее "наговорил" ему человек. С подобной говорящей машиной можно легко "побеседовать", достаточно лишь набрать номер московских "говорящих часов" 100.

А что, если наговорить кучу самых разных слов и поручить компьютеру находить и воспроизводить нужные слова в нужной последовательности в процессе разговора? Получится ли правильная человеческая речь?

Вряд ли. Ведь одно и то же слово участвует в предложениях разного типа с десятком интонаций, сотнями вариантов произношения. Чтобы такая речь мало-мальски "ласкала слух", потребуется слишком большая куча вариантов произнесения слов и, следовательно, слишком длительный поиск нужного варианта. Все это окажется слишком дорого. Хорошо бы, задумались конструкторы, создать машину, которая бы не воспроизводила заранее записанные фрагменты, а говорила сама, то есть синтезировала речь, подобно человеку.

Историю говорящих машин следовало бы начать с глубины веков. Самые первые были тщательными моделями человеческого речевого аппарата. Кузнечный мех вдувал мощную струю воздуха в кожаную гортань, язычки и резонаторы, управляемые набором рычагов, вибрировали, и машина "говорила". Достоверно известна одна из конструкций такого типа, построенная В. фон Кемпелиа в конце XVIII века. Она неплохо имитировала человеческую речь, хотя не совсем правильно произносила некоторые звуки. В 1920 году Р. Пэджет демонстрировал акустическую модель речевого аппарата, которая удивляла слушателей целыми фразами, например: "О Лейла, я люблю вас!" или: "Алло, Лондон, Вы слушаете?" Изобретатель, манипулируя руками, очень искусно изменял форму резонирующей полости механической гортани - и одна фраза менялась на другую.

Как это неоднократно происходило в истории техники, механический принцип копирования благополучно завершил серию тщетных потуг и новая фаворитка человечества - электроника прочно уселась на его место.

Исследованиями было установлено, что подавляющая часть "звуковой энергии" человеческой речи сосредоточена в пяти типовых областях частот: от 200 до 3500 герц. Эта шкала разбивается на пять фонем, каждая из которых генерируется своей специально настроенной звуковой схемой. Управление частотой и амплитудой каждой схемы, а также очередностью их срабатывания поручается компьютеру. В результате определенных последовательностей включения генерирующих схем и возникают необходимые звуки "человеческого голоса".

Однако качество работы машины, полностью синтезирующей речь, в большой степени зависит от того, насколько удачно удается электронная имитация смеси переходных шумов между отдельными звуками, поскольку эти шумы играют определяющую роль для понимания языка вообще и, следовательно, искусственного языка в частности. Еще более усложняет все дело то, что они бывают чрезвычайно разнообразными, зависят от того, в какой последовательности произносятся гласные и согласные, от скорости и громкости произнесения слов и т. д. и т. п.

Еще недавно как великую экзотику демонстрировали кибернетики системы, полностью синтезирующие человеческую речь, а уже поступают сообщения о серийном выпуске говорящих часов, фотокамер и светофоров.

Это следствие появления на рынке близкого родственника современного микропроцессора - который назван voiceprocessor (от английского слова "voice" - голос).

Что-то вроде "процессор для синтеза голоса" или "голосистый процессор". Такое устройство программируется как обычный компьютер и может синтезировать электронную копию волнового спектра, возникающего при произнесении слов. Этим машина похожа на читающего, который, правда, не имеет понятия о смысле прочитанного.

Лингвистические способности роботов не только "оживили" безгласные вещи, но и помогают человеку в его "разговорной деятельности"; например, созданы карманные компьютеры, используемые в качестве помощников при переводе, которые "выговаривают" отдельные слова с правильным произношением на нужном языке; или целые роботы-переводчики, которые могут осуществлять перевод международных разговоров несложного бытового содержания. Такова, например, система перевода английский - японский. Память робота содержит около восьми тысяч фонем слов, четыреста идиом, примерно тысячу грамматических правил обоих языков. Она почти не отличается от аналогичных интеллектуальных переводчиков. Шагом вперед явилось ее объединение с распознавателем и синтезатором речи.

Продолжить чтение

Рекомендуем почитать

Санне Блау

Во власти цифр. Как числа управляют нашей жизнью и вводят в заблуждение

Миром правят числа. Все чаще и чаще решения принимают не люди, а математические модели. В числах измеряется все – от наших успехов в образовании и работе и состояния нашего здоровья до состояния экономики и достижений политики. Но числа не так объективны, как может показаться. Кроме того, мы охотнее верим числам, подтверждающим наше мнение, и легко отбрасываем те результаты, которые идут вразрез с нашими убеждениями… Анализируя примеры обращения с численными данными в сферах здравоохранения, политики, социологии, в научных исследованиях, в коммерции и в других областях и проливая свет на ряд распространенных заблуждений, нидерландский журналист, специалист по числовой грамотности Санне Блау призывает мыслить критически и советует нам быть осмотрительнее, о чем бы ни шла речь – о повседневных цифрах, управляющих нашим благополучием, или о статистике, позволяющей тем, кто ее применяет, достичь огромной власти и влияния. «Числа влияют на то, что мы пьем, что едим, где работаем, сколько зарабатываем, где живем, с кем вступаем в брак, за кого голосуем, как решаем вопрос, брать ли ипотеку, как оплачиваем страховку.

Михаил Райтман

Старший брат следит за тобой. Как защитить себя в цифровом мире

В эпоху тотальной цифровизации сложно представить свою жизнь без интернета и умных устройств. Но даже люди, осторожно ведущие себя в реальном мире, часто недостаточно внимательно относятся к своей цифровой безопасности. Между тем с последствиями такой беспечности можно столкнуться в любой момент: злоумышленник может перехватить управление автомобилем, а телевизор – записывать разговоры зрителей, с помощью игрушек преступники могут похищать детей, а к видеокамерам можно подключиться и шпионить за владельцами.

Виктор Пронин

Продолжим наши игры+Кандибобер

Виктор Пронин пишет о героях, которые решают острые нравственные проблемы. В конфликтных ситуациях им приходится делать выбор между добром и злом, отстаивать свои убеждения или изменять им — тогда человек неизбежно теряет многое.

Григорий Тарасевич

О науке без звериной серьёзности

О чем это? • о ключевых словах современной науки; • о самых страшных экспериментах; • о сущности цивилизации. «Любому человеку нужен просто разговор – о важном, научном. Это задача научных журналистов. И один из самых ярких, самых ясных, самых ответственных – Григорий Тарасевич». Александр Архангельский, телеведущий, писатель, профессор Высшей школы экономики «…Книга вызывает множество противоречивых чувств: с рядом моментов хочется спорить, от большинства историй смеялась в голос, а от некоторых глав становилось безумно грустно».

Терренс Сейновски

Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет

История машинного обучения, от теоретических исследований 50-х годов до наших дней, в изложении ведущего мирового специалиста по изучению нейросетей и искусственного интеллекта Терренса Сейновски. Автор рассказывает обо всех ключевых исследованиях и событиях, повлиявших на развитие этой технологии, начиная с первых конгрессов, посвященных искусственному разуму, и заканчивая глубоким обучением и возможностями, которые оно предоставляет разработчикам ИИ. В формате PDF A4 сохранен издательский макет.

Штефан-Людвиг Хоффманн

Социальное общение и демократия. Ассоциации и гражданское общество в транснациональной перспективе, 1750-1914

Что значат для демократии добровольные общественные объединения? Этот вопрос стал предметом оживленных дискуссий после краха государственного социализма и постепенного отказа от западной модели государства всеобщего благосостояния, – дискуссий, сфокусированных вокруг понятия «гражданское общество». Ответ может дать обращение к прошлому, а именно – к «золотому веку» общественных объединений между Просвещением и Первой мировой войной. Политические теоретики от Алексиса де Токвиля до Макса Вебера, равно как и не столь известные практики от Бостона до Санкт-Петербурга, полагали, что общество без добровольных объединений неминуемо скатится к деспотизму.