Интересно / Жизнь до Siri

:

Siri - это настоящее достижение в сфере распознавания речи и управления голосом. Но не стоит забывать о том, что распознавание речи компьютером начало свою историю еще в начале 50-х годов. Позднее эта технология была использована во многих областях.

В своих фильмах о будущем Голливуд уже не раз демонстрировал компьютеры, с которыми мы можем легко общаться. Мы же вам покажем историю в картинках о жизни до Siri.

Древняя история: первые разговаривающие машины.


В некоторых средневековых легендах говорится о том, что существовали бронзовые головы, которые не только разговаривали, но и предсказывали будущее, их изготовление приписывали Герберту Аврилакскому. Роджер Бэкон также пытался создавать первые образцы «говорящих голов». О его механизме было упомянуто в первых научно-фантастических произведениях, таких как “The Brazen Android” Уильяма Дугласа О`Коннора. Христиан Кратценштайн построил в 1773 году первую говорящую машину, используя органически трубочки для синтезирования искусственной речи, она произносила гласные звуки. А в 1791 году Вольфганг фон Кемпелен (изобретатель шахматной машины, в которой автомат, одетый турком, искусно играл в шахматы; как потом выяснилось, внутри аппарата сидел человек) создал говорящую машину с резонирующими трубками, она представляла собой четырёхугольный деревянный ящик, длиной около 1 м и шириной в 0,5 м, снабженный мехами и сложной системой клапанов, штифтиков и т. п. Держа в каждой руке по трубке, он мог воспроизводить целые слова голосом ребенка 3-4 лет. В 1846 году Джозеф Фабер представил публике, среди которой находился отец Александра Грэхема Белла, “Euphonia”, машину, не только говорящую, но и поющую.

Появление искусственного голоса в 30-х годах.


Первый электронный синтезатор речи, VODER (Voice Operating DEmonstratoR), был разработан в Bell Labs Гомэром Дадли. Синтезатор, который было тяжело запустить и понять трудноразличимую фразу, произнесенную им в 1939 году на Международной ярмарке в Нью Йорке: «Good evening, radio audience» (Добрый вечер, радио-аудитория). Но после этого события газета New York Times написала: “О боже, оно разговаривает.” В 1936 году английская телефонная служба выпускает говорящие часы со словами, идущими друг за другом, образуя фразы. В 1950 году появилась Pattern Playback, машина, созданная Франклином Купером и его коллегами в лабораториях Haskins, которая использовала изображения речи в виде спектограмм, считываемых при помощи света и транскрипции.

Прослушать Pattern Playback

Музыка и кино продвигают Вокодер.


Гомэр Дадли также изобрел VOCODER (сокращенно от англ. voice — голос, англ. coder — кодировщик), устройство синтеза речи, которое изначально было разработано в целях экономии частотных ресурсов телефонных линий (речь идет о некоем подобии кодека Skype, он производит синтетический звук из речи, пропускает его через фильтры, позволяя отправить меньший по объему сигнал). Вокодер так и не был использован в телефонах, но стал популярен благодаря таким музыкантам, как Венди Карлос, который использовал его в саундтреке к “ Заводному апельсину”. Другие эффекты, похожие на звук вокодера (например, имитация звука поезда в “Дамбо”), воспроизводят при помощи Sonovox. Устройство, состоящее из двух дисков, которые прижимаются к горлу. При произнесении слов диски вибрируют, что и производит эффект, подобный вокодеру.

50-е годы и начало распознавания.


Bell Labs были заинтересованы как в распознавании речи, так и в ее ретрансляции. И в 1952 году было создано устройство Audrey, которое было способно распознавать произносимые цифры с точностью до 99%. Однако существовал ряд ограничений. Диктующий человек должен был быть мужчиной, ранее уже работавший с Audrey, нужно было произносить цифры от нуля до девяти с определенной паузой 350 миллисекунд, не используя при этом никаких других слов. Устройство должно было записать достаточное количество образцов для того, чтобы система имела по двадцать возможных вариантов для каждого номера в аналоговой памяти. Система была чувствительна к формантам, двум частотным пикам в речи, которые позволяют различить гласные.

Shoebox IBM : распознавание речи и вычисления в 1961 году.


Во время международной выставки компьютерных технологий 1962 года IBM представила модель меньшую по размеру, но более мощную, чем предыдущие. Она называлась Shoebox (из-за своих размеров и формы, похожей на обувную коробку). Действовало это устройство как калькулятор с распознаванием голоса. Shoebox было способно распознавать первые десять цифр и 6 команд, среди которых были сложение, вычитание и равно. Таким образом, устройство могло сформулировать математическую проблему, произнесенную в микрофон, и вычислить результат на компьютере, подключенном к этому аппарату. Каждое распознанное число отображалось, что позволяло проверить, верно ли оно.

1961 год: поющий компьютер, вдохновивший на создание HAL 9000.


В научной фантастике речь, синтезируемая компьютером, в начале своей истории повторяющаяся и монотонная (как, например, у робота, который кричал «Внимание, Уилл Робинсон!» в телевизионном шоу «Затерянные в космосе»), со временем становилась все более реалистичной. Компьютер из “Звездного пути”, C-3PO в “Звездных войнах”, HAL 9000 в “2001 год: Космическая одиссея”. В начале 60-х годов Артур Кларк посетил Bell Labs, когда Джон Келли и Кэрол Локбаум работали над IBM 704 (первый компьютер, запущенный в массовое производство, выполняющий математические операции с числами с плавающей запятой и обладающий памятью магнитных сердечников вместо запоминающих электронно-лучевых трубок). Когда Кларк присутствовал на демонстрации синтезирования голоса компьютером IBM 704, это произвело на него такое сильное впечатление, что позднее он решил ввести этот момент в фильм. Голосовой синтезатор смог воссоздать популярную американскую песенку «Daisy Bell», которую начал весело распевать HAL 9000. Позднее она вышла в альбоме «Music From Mathematics». Вдохновленный Кларком, Стенли Кубрик использовал аудиопроцессор Eltro Mark II для изменения голоса актера Дугласа Райана, когда он пел “Daisy, Daisy”.

Прослушать как IBM поет Daisy Bell

70-е годы: медленное распознавание.


Кларк посетил Bell Labs, чтобы встретиться с Джоном Пирсом, который в 1969 году объяснил, что распознавание речи также маловероятно, как “излечение от рака или полет на луну”. В 1971 году агентство DARPA начинает поиск программ распознавания речи. Лучшим проектом была Harpy, которая, обладая словарем в 1011 слов, распознавала речь с точностью 95%. Однако аппарату на распознание фразы требовалось в 80 раз больше времени, чем на ее произнесение, к тому же слова нужно было произносить в определенном порядке. Пишущее по голосовой команде устройство IBM, подключенное к компьютеру IBM 370, с тем же словарем в тысячу слов обрабатывало фразу в течение часа. Тем не менее, уже в 70-х годах появилась первая реклама компании, специализирующейся в области распознавания речи. Threshold, имеющая к этому прямое отношение, продала свой аппарат VIP-100 компании FedEx для классификации посылок на конвейере.

1978 год: La Dictée Magique (Speek and Spell) внедряет синтез речи в игрушки.



Говорящие куклы начали появляться в 60-х годах в США, первой была Chatty Cathy. Дергая за кольцо, находящееся сзади, в действие приходил мини проигрыватель, находящийся внутри куклы. La Dictée Magique (Speek and Spell) компании Texas Instruments, игрушка, представленная на CES (международная выставка потребительской электроники) в 1978 году, является первым синтезатором речи на однокристальной микросхеме. Исследовательский проект составил 25 000 долларов, целью было найти запоминающее устройство большого размера (голосовые данные занимают много памяти). Первые говарящие электронные шахматы появились в 1979 году. В 1980 появился “Milton”, электронная игра с синтезом речи, который использовали для оскорбления игроков. “Говорящие” аркады “Stratovox” и “Bezerk” вышли в том же году.

Прослушать La Dictée Magique

Первые разговаривающие PC.


В 1978 году Texas Instruments предлагает устройство синтеза речи для компьютеров TI-99/4 и 4a. В комплект к ним бесплатно прилагались картриджи видеоигр, например, “Alpiner” и “Parsec”, использующие голос. Идея состояла в том, чтобы продавать дополнительные картриджи для расширения ограниченного встроенного словарного запаса. Но необходимости в них не было, поскольку было достаточно программного обеспечения “speech to text” в “Terminal Emulator II”. В 1972 году UNIX тоже предлагает распознавание речи, при условии наличия необходимого оборудования. В 1983 - Atari использует специальную карту для синтеза речи в компьютерах 1400XL. В 1984 - Mac выпускает MacInTalk, программное обеспечение для синтеза речи, а в 1985 - Amiga включает синтез речи, разработанный той же компанией SoftVoice (которая изначально называлась SAM - Soft Automatic Mouth).

80-е годы: зарождение нынешних предприятий распознавания речи.


В 70-е годы распознавание речи плохо работало, пытаясь распознать каждое слово в отдельности. В 80-х годах большинство исследователей применило математическую модель, разработанную в Принстоне в 60-х и названную Hidden Markov Modeling (скрытая марковская модель). Она основывается на вероятности того, что данный звук представляет конкретное слово. В 1982 году появилось три крупных компании: Covox, Dragon Systems и Kurzweil. К середине 80-х все они предложили программное обеспечение распознавания голоса на PC, что ранее уже предлагала компания IBM, но ее устройство могло распознать лишь небольшое количество слов за раз. Kurzweil могло распознать 1000 слов в 1985 году и 20 000 в 1987. Технология была улучшена только в 1995 году, что позволило правильно распознавать больше одного слова из двух. Такого рода программные обеспечения обходились очень дорого: в 1990 году DragonDictate стоил $9000.

1988 год: Apple продумывает голосовую технологию.


Siri появилась в нужное время. В 1988 году Apple показала видео, которое демонстрировало, как в 2011 году человек будет разговаривать с компьютером, достаточно хорошо его понимая, чтобы вести с ним беседу, как компьютер будет отвечать на телефонные звонки, записывать голосовые сообщения и осуществлять за вас бронирования. Эту концепцию электронного секретаря Apple назвала « Knowledge Navigator», которая являлась далеко не самым простым средством распознавания и синтеза речи. Эта идея искусственного интеллекта или компьютерного помощника была представлена в виде аватара с галстуком-бабочкой. Компьютер был в форме складного планшета с тактильным экраном, на который можно было нажать, чтобы отключить помощника.

90-е годы: автоматизация телефонных центров.


В 90-х программное обеспечение распознавания речи, работающее на чем-то более мощном, чем PC, было достаточно безопасным и точным для телефонной поддержки пользователей в США. В 1992 году AT&T выпускает Voice Recognition Call Processing Service, который спрашивал: “How May I Help You” (как я могу вам помочь?), и включал в себя голосовой набор, а также распознавание ключевых слов для управления телефонными звонками. В 1996 году Nuance создает систему Voice Broker для банковской компании Charles Schwab. Эта система была способна одновременно отвечать 360 клиентам о котировках на бирже. Voice Broker была достаточно точна, для того, чтобы Sears, E*TRADE и UPS тоже начали автоматизировать свои центры поддержки клиентов.

Wildfire : первая программа Siri в 1994 году.


В то время Apple была не единственной компанией, которая задумалась о голосовом помощнике. В 90-х годах Рич Майнер, один из соучредителей Android, выпустил утилиту под названием Wildfire, которая позднее была продана компании Orange. Достаточно было позвонить с любого телефона виртуальному помощнику Wildfire, дать ему несколько голосовых команд, и он вам отвечал приятным женским голосом. Вы могли бы попросить его проверить ваши сообщения, звонки или сказать, что хотите позвонить домой или в офис. Wildfire мог ответить вместо вас на телефонный звонок, и прознести имя звонящего человека. Пользователи, заплатившие за эту утилиту, были ее большими поклонниками, но недостаточно многочисленными, чтобы сохранить ее до наших дней.

Фальсификация и консолидация: как мы пришли к нынешней системе распознавания голоса?


В 1997 году Kurzweil была продана бельгийской компании программного обеспечения Lernout & Hauspie (которая в то время работала на Microsoft и Dictaphone), а в 1999 году Microsoft купила Entropic, которая, как считалось, обладала самыми точными технологиями распознавания речи. В 2000 году L&H приобрела Dragon Systems, но затем у компании возникли финансовые трудности, и в 2001 ее руководителей арестовали за мошенничество (в 2010 году, наконец, состоялся суд и они были осуждены). Scansoft, компания, которая ранее принадлежала Kurzweil, покупает технологию распознавания голоса у L&H (появившуюся вместе с Office 2003). Затем приобретает другие специализированные компании, в 2003 году возобновляет работу ViaVoice производства компании IBM. А в 2005 переименовывается в Nuance после покупки компании с одноименным названием, принадлежащей ранее SRI International's Speech Technology and Research (STAR) Laboratory (Siri использует технологию Nuance).

Бесплатная под Windows: программа распознавания речи Windows XP.


Являясь частью программного обеспечения, которое было еще не особо точным, но стоило тысячи долларов и было предназначено только для профессиональных пользователей, программа распознавания речи в 2001 году стала доступна для пользователей Windows. Windows Speech Recognition под XP требует некоторой подготовки в той комнате, где вы собираетесь ее использовать. Вы можете прибегнуть к этой программе, например, для голосового набора текста. Она присутствует не во всех версиях Windows XP, а только в Microsoft Windows Tablet PC Edition. Идея заключается в том, что без помощи клавиатуры распознавание речи становится еще более значимым (сейчас программа доступна во всех версиях, начиная с Vista). С тех пор основной линией эволюции в этой области на PC стало сокращение время настройки и повышение точности распознавания.

Помощник для адвокатов и врачей.


Dragon и IBM MedSpeak стали тем же, чем программа ViaVoice для обычных пользователей. Эти две новые технологии были специально разработаны для адвокатов и врачей. Для них в программном обеспечении присутствовал более ограниченный и специализированный словарь с целью более точного распознавания.

Поговорите с вашим телефоном.


В голосовом наборе нет ничего нового, в 2000 году в телефонах уже присутствовала эта функция. Первое время нужно было называть цифру за цифрой номера телефона, но последующие модели уже были способны распознавать имена. Однако в большинстве случаев они могли запомнить около десяти имен, а не всю записную книжку. И эти имена нужно было записывать по три раза для того, чтобы они были распознаны. В 2005 году Samsung добавляет голосовой набор сообщений и номеров телефона в модели SCH-p-207.

Поговорите с истребителем.


Если вы пилот истребителя, несущийся на Mach 1.8 и испытываете на себе перегрузку в 6g, поворачиваете постоянно руль и управляете переключателями, что-то может отвлечь вас и стать фатальным. С конца 90-х годов Министерство обороны попыталось реализовать программу распознавание голоса. Экспериментальные системы голосового контроля были протестированы на истребителях F-16 и Harrier AV-8B. В первых системах было около 25 задач, включая вторичные, которые не позволяют взлететь, например, выбор радиоволны. Самая продвинутая система, предназначенная для F-35 Lightning II, позволяет контролировать поступающие сообщения и воздушную навигацию при помощи микрофона, расположенного в кислородной маске пилота, и экрана внутри шлема, это все было разработано SRI International. Эта исследователькая лаборатория также занималась разработкой Siri.

Phraselator: военный перевод с 1999 года.


Если компьютер способен вас слышать и отвечать, почему он не может и переводить для вас? В 1999 году VoxTec производит для DARPA переводчики размером с компьютер, но уже в 2003 их размер сокращается до карманной книги, содержащей почти 3500 выражений. Последний Phraselator использует систему распознавания речи DynaSpeak компании SRI и то же голосовое управление, что и в самолете F-35. Разница состоит лишь в том, что вместо синтеза голоса используются записанные MP3 (в среднем 12000 выражений на нескольких языках). Следующей целью является перевод в обоих направлениях.

Интернет учится говорить: начало 2000 года.


В 1999 году появилась программа VoiceXML, HTML версия для автоматического создания голосового сервиса, по аналогии с созданием web-страниц. В настоящее время большинство телефонных сервисов, которые позволяют получить какую-либо справочную информацию по телефону, в действительности являются web-страницами, реализованными по этой технологии.

Google и Microsoft создают бесплатный телефонный справочник.


Большинство звонков на горячую линию сейчас используют распознавание и синтез речи. В 2007 году в США компании AT&T и Verizon заставляли платить 2 или 3 доллара за звонок до того, как Google и Microsoft запустили бесплатную программу 411. Компания Google закрыла свой бесплатный сервис в 2010 году, когда собрала достаточное количество образцов голоса для программы распознавания речи, которую сейчас используют в Android. В США Microsoft покупает TellMe, обладающую лучшим синтезом речи, и Bing 411 остается бесплатным. Эта система позволяет американцам получать информацию о движении на дорогах, маршрутах, погоде, а также о биржевых котировках.

Прослушать Bing 411

Начало мобильного голосового поиска.



Поиск со своего мобильного телефона при помощи Siri, Bing или Google не является чем-то новым. В 2008 году Yahoo и Microsoft уже делали инструменты голосового поиска на смартфоне. Yahoo OneSearch включает в себя письменный и голосовой поиск, выдает полезную информацию и интернет ссылки. Приложение TellMe от Microsoft имеет только голосовой поиск. Оно использует GPS для определение вашего местонахождения и показывает результаты поиска, основываясь на этой информации . Вы можете запустить его, нажав на зеленую кнопку вызова, что упрощает использование в машине, из которой в прошлом году совершили 95% звонков в телефонные службы поддержки с мобильного телефона.

Голосовые сообщения, которые вы можете читать.


Когда компания Apple выпустила Visual Voicemail вместе с iPhone в 2007 году, речь шла об удобном способе видеть голосовые сообщения по аналогии с текстовыми, но в то же время распознавание речи туда не входило. SpinVox (другая компания, приобретенная Nuance) предложила в 2003 году систему распознавания для голосовых сообщений, оставленных на вашем мобильном, рабочем телефоне или даже в Skype. Приложение также позволяло сделать пост и отправить его в свой блог с мобильного телефона. Jott предлагает тот же сервис в 2006 году. В 2010 Microsoft добавляет письменную транскрипцию голосовых сообщений в Exchange.

Альтернатива Siri.


Существует не только программа Siri, которая использует сочетание распознавания речи, созданного Nuance, юмора, встроенного в систему, и проекта искусственного интеллекта CALO (Cognitive Assistant that Learn and Organizes), финансируемого DARPA. Все это позволяет программе понимать фразы и слова. У других телефонов есть такая же возможность записи сообщений при помощи голоса, но для этого нужно использовать специальные приложения. Nuance предлагает Dragon Dictation для iPhone и Dragon для Email Blackberry ; а для Windows Phone есть Ziggy. Windows Phone позволяет вам совершить поиск при помощи Bing, диктовать и отправлять смс, а у Android есть Voice Search и Voice Actions.

Разговаривать с Kinect.


В Kinect наряду с инфракрасным сенсором, улавливающим движения, есть ряд микрофонов, которые подавляют эхо (и убирают звук игры или фильма, любой механический шум вентилятора Xbox, и все для того, чтобы улучшить распознавание речи). Голосовое управление позволяет открыть приложения, осуществить поиск вместе с Bing и прочитать DVD. Не все игры Xbox работают с распознаванием речи, но, например, у “Kinect Sports : Saison 2” есть 300 дополнительных голосовых команд.

Компьютеры учатся угадывать наши эмоции.


Сейчас в телефонных центрах распознавание речи не ограничивается только расшифровкой слов. Некоторые системы также могут улавливать ваши эмоции, если вы рассержены, расстроены или разочарованы, они могут быстрее вас переключить на оператора. Синтезированный голос редко бывает эмоциональным, даже если речь идет о лучших системах синтеза речи, которые используют для аудиокниг и в плеерах для невидящих людей, где изменяют ритм и тон слов. Проблема заключается в том, что предварительно записанные отрывки, восстановленные при помощи программного обеспечения чаще всего звучат нейтрально. Некоторые проекты пытаются придать эмоциональности синтезированной речи. VivoText и emoSyn синтезируют слова с тоном, который позволяет передать эмоции.

Прослушать радостную emoSyn

Прослушать счастливую VivoText

Прослушать грустную VivoText

Компьютеры учатся петь.


При помощи программного обеспечения Vocaloid от Yamaha синтезированные песни кажутся более естественными, чем у многих других синтезаторов речи, и их трудно отличить от настоящего пения. И все потому, что Yamaha записала не только фонемы, но и другие элементы, такие как вибрато, изменение высоты тона или атаку, что позволяет сделать голос более эмоциональным и выразительным. Vocaloid очень распространен в японской поп-музыке, но его также можно услышать в записях Supercell и Mike Oldfield.

Прослушать запись

Компьютеры учатся слушать, используя принцип работы человеческого мозга.


Программа распознавания речи не слушает и не воспроизводит звук так же, как человек. Она способна распознать произнесенные слова, но человек может еще и отличать фоновые шумы и слышать другие реплики (например, во время шумного обсуждения), используя различные сигналы такие, как звуки, частота, интенсивность, начало, место и продолжительность. Процессор earSmart от Audience использует тот же принцип, что и человеческий мозг для подавления шума и эха, и может записывать с двух микрофонов одновременно. Эту разработку вы найдете в Nexus One, HTC Titan и Vivid, Samsung Galaxy S II, планшете Sony S (и во многих других устройствах).

Планы на будущее.


Генеральному директору Nuance, Полу Риччи, был задан вопрос: что нас ожидает в будущем касательно распознавания речи,- на что он, не колеблясь, ответил: “Понимать то, чего вы желаете, и то, что вы хотите сказать. Проблема распознавания слов - это проблема понимания слов. Например, что я намереваюсь сделать, когда говорю: “я хочу зарезервировать столик в ресторане”. А что же Siri? “Мы хотим обладать большей информацией. Могут присутствовать другие элементы, касающиеся истории ресторанов, которые вы предпочитаете, или которые будут учитывать то, о чем вы просили раньше, как действовали, ориентироваться на информацию в вашем календаре или на страничке социальной сети. Мы опережаем время, выпуская такие приложения, как Siri, но все меняется очень быстро, и это станет стандартом для всех смартфонов.”