Способ голосового управления, носимое устройство и терминал

Авторы патента:

ЧЖАН, Лун (CN)

ЛИ, Чуньцзянь (CN)

ЦЮ, Цуньшоу (CN)

ЧАН, Цин (CN)

G10L17/22 - Установление или подтверждение личности говорящего

G06F21/32 - Обработка цифровых данных с помощью электрических устройств (вычислительные машины, в которых часть вычислений осуществляется гидравлическими или пневматическими устройствами G06D; оптическими средствами G06E; автономные внешние вводные и выводные устройства G06K; компьютерные системы, основанные на специфических вычислительных моделях G06N; цепи полного /активного и реактивного/ сопротивления H03H)

Владельцы патента RU 2763392:

ХУАВЭЙ ТЕКНОЛОДЖИЗ КО., ЛТД. (CN)

Изобретение относится к области вычислительной техники для аутентификации пользователя. Технический результат заключается в повышении точности и безопасности распознавания голосового отпечатка, когда пользователь использует терминал голосового управления. Технический результат достигается за счет того, что перед выполнением посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, выполняют этапы, на которых: получают посредством терминала первый результат распознавания голосового отпечатка и второй результат распознавания голосового отпечатка от носимого устройства, при этом первый результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для первого голосового компонента, а второй результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для второго голосового компонента. 3 н. и 16 з.п. ф-лы, 11 ил.

Область техники, к которой относится изобретение

[0001] Данная заявка относится к области терминалов и, в частности, к способу голосового управления, носимому устройству и терминалу.

Уровень техники

[0002] Голосовой отпечаток (voiceprint) представляет собой спектр звуковых волн, несущий голосовую информацию, когда пользователь издает звук, и может отражать звуковую характеристику пользователя. Поскольку голосовые органы (например, язык, зубы, гортань, легкие и носовая полость), используемые разными людьми во время разговора, различаются по размеру и форме, спектры звуковых волн любых двух людей обычно различны. Таким образом, один или более типов голосовой информации могут анализироваться посредством распознавания голосового отпечатка (распознавание говорящего, SR) для различения неизвестных голосов.

[0003] В настоящее время в обычном способе распознавания голосового отпечатка используется главным образом обычный микрофон для получения голосового сигнала говорящего, распространяемого по воздуху, и далее личность говорящего идентифицируется на основании полученного голосового сигнала говорящего. Однако, если говорящий находится в шумном окружении, полученный голосовой сигнал говорящего содержит много шума, который легко влияет на точность распознавания голосового отпечатка. Кроме того, если кто-то злонамеренно использует запись говорящего для имитации голосового сигнала говорящего, риск безопасности для терминала, такого как мобильный телефон, может возрасти, поскольку терминал не может точно идентифицировать голосовой сигнал.

Раскрытие изобретения

[0004] В данной заявке предложен способ голосового управления, носимое устройство и терминал для повышения точности и безопасности распознавания голосового отпечатка, когда пользователь использует терминал голосового управления.

[0005] Для решения вышеуказанных задач в данной заявке используются следующие технические решения.

[0006] Согласно первому аспекту в данной заявке предложен способ голосового управления, включающий в себя: установление посредством терминала соединения связи с носимым устройством; когда осуществляющий голосовой ввод пользователь вводит голосовую информацию в носимое устройство, выполнение посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка второго голосового компонента в голосовой информации, причём первый голосовой компонент получается первым голосовым датчиком носимого устройства, а второй голосовой компонент получается вторым голосовым датчиком носимого устройства; и если результат аутентификации личности, выполненной терминалом для голосового пользователя, состоит в том, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, выполнение посредством терминала управляющей команды, соответствующей голосовой информации.

[0007] Можно узнать, что при получении голосовой информации осуществляющего голосовой ввод пользователя носимое устройство получает два элемента голосовой информации (то есть первый голосовой компонент и второй голосовой компонент) посредством использования двух голосовых датчиков. Таким образом, терминал может отдельно выполнять распознавание голосовых отпечатков для двух элементов голосовой информации. Если результаты распознавания обоих из двух элементов голосовой информации соответствуют результатам для авторизованного пользователя, может быть определено, что текущий осуществляющий голосовой ввод пользователь является авторизованным пользователем. Очевидно, что по сравнению с процессом распознавания голосового отпечатка для одного элемента голосовой информации, процесс двойного распознавания голосового отпечатка для двух элементов голосовой информации может значительно повысить точность и безопасность при аутентификации личности пользователя.

[0008] Кроме того, если второй голосовой компонент получается микрофоном с костной проводимостью носимого устройства, это указывает на то, что при издании звука пользователь носит носимое устройство. Это позволяет избежать случая, когда неавторизованный пользователь злонамеренно управляет терминалом авторизованного пользователя, путём использования записи авторизованного пользователя.

[0009] В возможном варианте осуществления перед выполнением посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка второго голосового компонента в голосовой информации, способ дополнительно включает в себя: получение посредством терминала первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка от носимого устройства, причем первый результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для первого голосового компонента, и второй результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для второго голосового компонента. Другими словами, после получения первого голосового компонента и второго голосового компонента в голосовой информации осуществляющего голосовой ввод пользователя носимое устройство может локально выполнять распознавание голосового отпечатка для двух голосовых компонентов по отдельности и дополнительно отправлять результаты распознавания на терминал. Это может снизить сложность реализации голосового управления терминалом.

[0010] В возможном варианте осуществления перед выполнением терминалом аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, способ дополнительно включает в себя: получение посредством терминала первого голосового компонента и второго голосового компонента от носимого устройства; и выполнение посредством терминала терминалом по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента для получения первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту. Другими словами, после получения первого голосового компонента и второго голосового компонента в голосовой информации от осуществляющего голосовой ввод пользователя носимое устройство может отправить эти два голосовых компонента в терминал для распознавания голосовых отпечатков. Это снижает энергопотребление и упрощает реализацию носимого устройства.

[0011] В возможном варианте осуществления выполнение посредством терминала по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента включает в себя: выполнение посредством терминала распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если голосовая информация включает заранее установленное ключевое слово; или выполнение посредством терминала распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если принята заранее установленная операция, введенная пользователем. В противном случае это указывает на то, что пользователю в этот раз не нужно выполнять распознавание голосового отпечатка, и терминалу не нужно включать функцию распознавания голосового отпечатка. Это снижает энергопотребление терминала.

[0012] В возможном варианте осуществления выполнение посредством терминала по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента включает в себя: определение посредством терминала, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, причём первая модель голосового отпечатка используется для отражения звуковой характеристики авторизованного пользователя, полученной первым голосовым датчиком; и определение посредством терминала, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, причём вторая модель голосового отпечатка используется для отражения звуковой характеристики авторизованного пользователя, полученной вторым голосовым датчиком.

[0013] В этом случае выполнение посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации включает в себя: если первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя, а второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя, определение посредством терминала, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, или в противном случае определение посредством терминала, что осуществляющий голосовой ввод пользователь является неавторизованным пользователем.

[0014] В возможном варианте осуществления определение посредством терминала, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, включает в себя: вычисление посредством терминала первой степени соответствия между первым голосовым компонентом и первой моделью голосового отпечатка авторизованного пользователя; и если первая степень соответствия больше первой пороговой величины, определение посредством терминала, что первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя; и определение посредством терминала, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, включает в себя: вычисление посредством терминала второй степени соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка авторизованного пользователя; и если вторая степень соответствия больше второй пороговой величины, определение посредством терминала, что второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя.

[0015] В возможном варианте осуществления перед выполнением посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, способ дополнительно включает в себя: получение посредством терминала команды активации, отправленной носимым устройством, при этом команда активации формируется носимым устройством в ответ на активирующий голосовой ввод, введенный пользователем; и активацию посредством терминала функции распознавания голосового отпечатка в ответ на команду активации.

[0016] В возможном варианте осуществления после получения посредством терминала первого голосового компонента и второго голосового компонента от носимого устройства способ дополнительно включает в себя: определение посредством терминала на основании первого голосового компонента и второго голосового компонента, включает ли в себя голосовая информация заранее установленное слово для активации; и активацию посредством терминала функции распознавания голосового отпечатка, если голосовая информация включает в себя заранее установленное слово активации.

[0017] Другими словами, произнеся слово активации, пользователь может запустить терминал, чтобы активировать функцию распознавания голосового отпечатка, а иначе это указывает, что пользователю в этот раз не нужно выполнять распознавание голосового отпечатка, и терминалу не нужно активировать функцию распознавания голоса. Это снижает энергопотребление терминала.

[0018] В возможном варианте осуществления, если осуществляющий голосовой ввод пользователь является авторизованным пользователем, способ дополнительно включает в себя: автоматическое выполнение посредством терминала операции разблокировки. Таким образом, пользователю нужно ввести голосовую информацию только один раз, чтобы выполнить ряд операций, таких как аутентификация пользователя, разблокировка мобильного телефона и активация функции мобильного телефона. Это значительно повышает эффективность управления мобильным телефоном для пользователя и удобство работы с ним.

[0019] В возможном варианте осуществления перед выполнением посредством терминала управляющей команды, соответствующей голосовой информации, способ дополнительно включает в себя: получение посредством терминала идентификатора носимого устройства; и выполнение посредством терминала управляющей команды, соответствующей голосовой информации, включает в себя: если идентификатор устройства для носимого устройства является заранее установленным авторизованным идентификатором устройства, выполнение посредством терминала управляющей команды, соответствующей голосовой информации. Таким образом, терминал может принимать и выполнять соответствующую управляющую команду, отправленную авторизованным устройством Bluetooth, и когда неавторизованное устройство Bluetooth отправляет управляющую команду на терминал, терминал может отбросить управляющую команду для повышения безопасности.

[0020] Согласно второму аспекту в данной заявке предложен способ голосового управления, включающий в себя: установление посредством носимого устройства соединения связи с терминалом; получение посредством носимого устройства первого голосового компонента в голосовой информации с использованием первого голосового датчика; получение посредством носимого устройства второго голосового компонента в голосовой информации с использованием второго голосового датчика; и выполнение посредством носимого устройства по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента для выполнения аутентификации личности для осуществляющего голосовой ввод пользователя.

[0021] Обращаясь ко второму аспекту, в первом возможном варианте осуществления второго аспекта первый голосовой датчик расположен на стороне носимого устройства и не находится в контакте с пользователем, а второй голосовой датчик расположен на стороне носимого устройства, находящейся в контакте с пользователем. Например, первый голосовой датчик представляет собой микрофон с воздушной проводимостью, а второй голосовой датчик представляет собой микрофон с костной проводимостью.

[0022] Обращаясь к первому возможному варианту осуществления второму аспекту, во втором возможном варианте осуществления второго аспекта, перед получением посредством носимого устройства первого голосового компонента в голосовой информации с использованием первого голосового датчика, способ дополнительно включает в себя: обнаружение интенсивности окружающего света посредством оптического датчика приближения на носимом устройстве; обнаружение значения ускорения посредством датчика ускорения на носимом устройстве; и если интенсивность окружающего света меньше заранее установленной пороговой величины интенсивности света, или значение ускорения больше заранее установленной пороговой величины ускорения, или интенсивность окружающего света меньше заранее установленной пороговой величины интенсивности света, и значение ускорения больше заранее установленной пороговой величины ускорения, определение, что носимое устройство находится в носимом состоянии.

[0023] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в третьем возможном варианте осуществления второго аспекта, после получения посредством носимого устройства второго голосового компонента в голосовой информации с использованием второго голосового датчика, способ дополнительно включает в себя: выполнение посредством носимого устройства обнаружения голосовой активности (VAD) для первого голосового компонента для получения первого значения VAD; и выполнение посредством носимого устройства VAD для второго голосового компонента для получения второго значения VAD; и выполнение посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента включает в себя: выполнение распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если каждое из первого значения VAD и второго значения VAD соответствует заранее установленному условию.

[0024] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в четвертом возможном варианте осуществления второго аспекта выполнение посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента включает в себя: выполнение посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если голосовая информация включает в себя заранее заданное ключевое слово; или выполнение посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента при приеме заранее установленной операции, введенной пользователем.

[0025] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в пятом возможном варианте осуществления второго аспекта выполнение посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента включает в себя: определение посредством носимого устройства, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, причём первая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и получаемой первым голосовым датчиком; и определение посредством носимого устройства, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, причём вторая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и получаемой вторым голосовым датчиком; и

после выполнения посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента способ дополнительно включает в себя: если первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя, а второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя, определяют посредством носимого устройства, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, или в противном случае определение посредством носимого устройства, что осуществляющий голосовой ввод пользователь является неавторизованным пользователем.

[0026] Обращаясь к любому из пятого возможного варианта осуществления второго аспекта, в шестом возможном варианте осуществления второго аспекта способ дополнительно включает в себя: получение посредством носимого устройства путём использования первого голосового датчика первого регистрационного компонента в регистрационном голосе, вводимом авторизованным пользователем, для установления первой модели голосового отпечатка авторизованного пользователя; и получение посредством носимого устройства путём использования второго голосового датчика второго регистрационного компонента в регистрационном голосе, вводимом авторизованным пользователем, для установления второй модели голосового отпечатка авторизованного пользователя.

[0027] Обращаясь к любому из пятого или шестого возможного варианта осуществления второго аспекта, в седьмом возможном варианте осуществления второго аспекта определение посредством носимого устройства, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, включает в себя: вычисление посредством носимого устройства первой степени соответствия между первым голосовым компонентом и первой моделью голосового отпечатка авторизованного пользователя; и если первая степень соответствия больше первой пороговой величины, определение посредством носимого устройства, что первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя; и определение посредством носимого устройства, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, включает в себя: вычисление посредством носимого устройства второй степени соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка авторизованного пользователя; и если вторая степень соответствия больше второй пороговой величины, определение посредством носимого устройства, что второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя.

[0028] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в восьмом возможном варианте осуществления второго аспекта, после выполнения посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента способ дополнительно включает в себя: отправку посредством носимого устройства сообщения об успешной аутентификации или команды разблокировки на терминал, если осуществляющий голосовой ввод пользователь является авторизованным пользователем.

[0029] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в девятом возможном варианте осуществления второго аспекта после выполнения посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, способ дополнительно включает в себя: если осуществляющий голосовой ввод пользователь является авторизованным пользователем, отправку посредством носимого устройства управляющей команды, соответствующей голосовой информации, на терминал.

[0030] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в десятом возможном варианте осуществления второго аспекта перед выполнением посредством носимого устройства распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, способ дополнительно включает в себя: выполнение посредством носимого устройства обработки по шумоподавлению для первого голосового компонента и второго голосового компонента; и/или подавление посредством носимого устройства эхо-сигнала в каждом из первого голосового компонента и второго голосового компонента путём использования алгоритма эхоподавления.

[0031] Обращаясь к любому из второго аспекта и возможных вариантов осуществления второго аспекта, в одиннадцатом возможном варианте осуществления второго аспекта перед получением посредством носимого устройства первого голосового компонента в голосовой информации с использованием первого голосового датчика способ дополнительно включает в себя: прием посредством носимого устройства активирующего голосового ввода, вводимого пользователем, причём активирующий голосовой ввод включает в себя заранее установленное слово активации; и отправку посредством носимого устройства команды активации на терминал в ответ на активирующий голосовой ввод, причём команда активации используется для предписания терминалу активировать функцию распознавания голосового отпечатка.

[0032] Согласно третьему аспекту в данной заявке предложен терминал, включающий в себя блок соединения, блок получения, блок распознавания, блок аутентификации и исполнительный блок. Блок соединения выполнен с возможностью установления соединения связи с носимым устройством. Блок аутентификации выполнен с возможностью: когда осуществляющий голосовой ввод пользователь вводит голосовую информацию в носимое устройство, выполнения аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка второго голосового компонента в голосовой информации, причём первый голосовой компонент получается первым голосовым датчиком носимого устройства, а второй голосовой компонент получается вторым голосовым датчиком носимого устройства. Блок выполнения выполнен с возможностью: если результатом аутентификации личности, выполненной терминалом для осуществляющего голосовой ввод пользователя, является то, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, выполнения управляющей команды, соответствующей голосовой информации.

[0033] В возможном варианте осуществления блок получения выполнен с возможностью получения первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка от носимого устройства, причём первый результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для первого голосового компонента, и второй результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для второго голосового компонента.

[0034] В возможном варианте осуществления блок получения выполнен с возможностью получения первого голосового компонента и второго голосового компонента от носимого устройства, и блок распознавания выполнен с возможностью выполнения распознавания по отдельности голосового отпечатка для первого голосового компонента и второго голосового компонента для получения первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту.

[0035] В возможном варианте осуществления блок распознавания конкретно выполнен с возможностью: выполнения распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если голосовая информация включает в себя заранее установленное ключевое слово; или выполнения распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если принята заранее установленная операция, введенная пользователем.

[0036] В возможном варианте осуществления блок распознавания конкретно выполнен с возможностью: определения, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, причём первая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и получаемой первым голосовым датчиком; и определения, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, причём вторая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и получаемой вторым голосовым датчиком; и блок аутентификации конкретно выполнен с возможностью: если первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя, а второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя, определения, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, или в противном случае определения, что осуществляющий голосовой ввод пользователь является неавторизованным пользователем.

[0037] В возможном варианте осуществления блок распознавания конкретно выполнен с возможностью: вычисления первой степени соответствия между первым голосовым компонентом и первой моделью голосового отпечатка авторизованного пользователя; если первая степень соответствия больше первой пороговой величины, определения, что первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя; вычисления второй степени соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка авторизованного пользователя; и если вторая степень соответствия больше второй пороговой величины, определения, что второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя.

[0038] В возможном варианте осуществления блок получения дополнительно выполнен с возможностью получения команды активации, отправленной носимым устройством, причём команда активации формируется носимым устройством в ответ на активирующий голосовой ввод, введенный пользователем, и блок выполнения дополнительно выполнен с возможностью активации функции распознавания голосового отпечатка в ответ на команду активации.

[0039] В возможном варианте осуществления блок распознавания дополнительно выполнен с возможностью определения на основании первого голосового компонента и второго голосового компонента, включает ли в себя голосовая информация заранее установленное слово активации, и исполнительный блок дополнительно выполнен с возможностью активации функции распознавания голосового отпечатка, если голосовая информация содержит заранее установленное слово активации.

[0040] В возможном варианте осуществления исполнительный блок дополнительно выполнен с возможностью автоматического выполнения операции разблокировки, если осуществляющий голосовой ввод пользователь является авторизованным пользователем.

[0041] В возможном варианте осуществления блок получения дополнительно выполнен с возможностью получения идентификатора носимого устройства, и исполнительный блок конкретно выполнен с возможностью: если идентификатор носимого устройства является заранее установленным идентификатором авторизованного устройства, выполнения управляющей команды, соответствующий голосовой информации.

[0042] Согласно четвертому аспекту в данной заявке предложено носимое устройство, включающее в себя блок соединения, блок обнаружения, блок распознавания, блок аутентификации и блок отправки. Блок соединения выполнен с возможностью установления соединения связи с терминалом. Блок обнаружения выполнен с возможностью получения первого голосового компонента в голосовой информации с использованием первого голосового датчика, и носимое устройство получает второй голосовой компонент в голосовой информации путём использования второго голосового датчика. Блок распознавания выполнен с возможностью выполнения распознавания по отдельности голосового отпечатка для первого голосового компонента и второго голосового компонента.

[0043] В возможном варианте осуществления блок обнаружения дополнительно выполнен с возможностью: обнаружения интенсивности окружающего света путём использования оптического датчика приближения в носимом устройстве; обнаружения значения ускорения с помощью датчика ускорения в носимом устройстве; и если интенсивность окружающего света меньше заранее установленной пороговой величины интенсивности света, или значение ускорения больше заранее установленной пороговой величины ускорения, или интенсивность окружающего света меньше заранее установленной пороговой величины интенсивности света, и значение ускорения больше заранее установленной пороговой величины ускорения, определения, что носимое устройство находится в носимом состоянии.

[0044] В возможном варианте осуществления блок обнаружения дополнительно выполнен с возможностью: выполнения обнаружения голосовой активности (VAD) для первого голосового компонента для получения первого значения VAD; и выполнения VAD для второго голосового компонента для получения второго значения VAD; и блок распознавания конкретно выполнен с возможностью выполнения распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если каждое из первого значения VAD и второго значения VAD соответствует заранее заданному условию.

[0045] В возможном варианте осуществления блок распознавания конкретно выполнен с возможностью: выполнения распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если голосовая информация включает в себя заранее заданное ключевое слово; или выполнения распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если принята заранее установленная операция, введенная пользователем.

[0046] В возможном варианте осуществления блок распознавания конкретно выполнен с возможностью: определения, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, причём первая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и получаемой первым голосовым датчиком; и определения, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, причём вторая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и получаемой вторым голосовым датчиком; и блок аутентификации конкретно выполнен с возможностью: если первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя и второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя, определения, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, или в противном случае определения, что осуществляющий голосовой ввод пользователь является неавторизованным пользователем.

[0047] В возможном варианте осуществления блок распознавания конкретно выполнен с возможностью: вычисления первой степени соответствия между первым голосовым компонентом и первой моделью голосового отпечатка авторизованного пользователя; если первая степень соответствия больше первой пороговой величины, определения, что первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя; вычисления второй степени соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка авторизованного пользователя; и если вторая степень соответствия больше второй пороговой величины, определения, что второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя.

[0048] В возможном варианте осуществления блок отправки дополнительно выполнен с возможностью отправки на терминал сообщения об успешной аутентификации или команды разблокировки, если осуществляющий голосовой ввод пользователь является авторизованным пользователем.

[0049] В возможном варианте осуществления блок отправки дополнительно выполнен с возможностью: если осуществляющий голосовой ввод пользователь является авторизованным пользователем, отправки на терминал управляющей команды, соответствующей голосовой информации.

[0050] В возможном варианте осуществления блок обнаружения дополнительно выполнен с возможностью обнаружения активирующего голосового ввода, вводимого пользователем, причём активирующий голосовой ввод включает в себя заранее установленное слово активации, и блок отправки дополнительно выполнен с возможностью отправки терминалу команды активации , причём команда активации используется для предписания терминалу активировать функцию распознавания голосового отпечатка.

[0051] Согласно пятому аспекту в данной заявке предложен терминал, включающий в себя сенсорный экран, один или более процессоров, память и одну или более программ. Процессор соединён с памятью, и одна или более программ сохранены в памяти. Когда терминал работает, процессор выполняет одну или более программ, сохранённых в памяти, таким образом, что терминал выполняет любой из вышеупомянутых способов голосового управления.

[0052] Согласно шестому аспекту в данной заявке предложено носимое устройство, включающее в себя первый голосовой датчик, расположенный вне носимого устройства, и второй голосовой датчик, расположенный внутри носимого устройства, один или более процессоров, память и одну или более программ. Процессор соединён с памятью, и одна или более программ сохранены в памяти. Когда носимое устройство работает, процессор выполняет одну или более программ, сохранённых в памяти таким образом, что носимое устройство выполняет любой из вышеупомянутых способов голосового управления.

[0053] Согласно седьмому аспекту в данной заявке предложен компьютерный носитель данных, включающий в себя компьютерную команду. Когда компьютерная команда выполняется на терминале, терминал или носимое устройство получает возможность выполнять способ голосового управления в соответствии с любым из вышеупомянутых вариантов осуществления.

[0054] Согласно восьмому аспекту в данной заявке предложен компьютерный программный продукт. Когда компьютерный программный продукт выполняется на компьютере, компьютер получает возможность выполнять способ голосового управления согласно любому из первого аспекта или возможных вариантов реализации первого аспекта.

[0055] Можно понять, что все из терминала в соответствии с третьим аспектом и пятым аспектом, носимого устройства в соответствии с четвертым аспектом и шестым аспектом, компьютерного носителя данных в соответствии с седьмым аспектом и компьютерного программного продукта в соответствии с восьмым аспектом используются для выполнения соответствующего способа, указанного выше. Следовательно, для получения полезных эффектов, которые могут быть достигнуты терминалом, носимым устройством, компьютерным запоминающим устройством и компьютерным программным продуктом, следует обратиться к полезным эффектам соответствующих способов, представленных выше. Подробности здесь не описаны.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0056] Фиг. 1 - схема 1 архитектуры сценария способа голосового управления согласно варианту осуществления данной заявки;

[0057] Фиг. 2 - принципиальная структурная схема 1 носимого устройства согласно варианту осуществления данной заявки;

[0058] Фиг. 3 - принципиальная структурная схема 1 терминала согласно варианту осуществления данной заявки;

[0059] Фиг. 4 - принципиальная схема 1 взаимодействий в способе голосового управления согласно варианту осуществления данной заявки;

[0060] Фиг. 5 - схема 2 архитектуры сценария способа голосового управления согласно варианту осуществления данной заявки;

[0061] Фиг. 6 - принципиальная схема 2 взаимодействий в способе голосового управления согласно варианту осуществления данной заявки;

[0062] Фиг. 7 (а) и Фиг. 7 (b) - схема 3 архитектуры сценария способа голосового управления согласно варианту осуществления данной заявки;

[0063] Фиг. 8 - принципиальная структурная схема 2 терминала согласно варианту осуществления данной заявки;

[0064] Фиг. 9 - принципиальная структурная схема 2 носимого устройства согласно варианту осуществления данной заявки; и

[0065] Фиг. 10 является структурной схемой терминала в соответствии с вариантом осуществления настоящей заявки.

Осуществление изобретения

[0066] Ниже подробно описаны реализации вариантов осуществления данной заявки с обращением к сопровождающим чертежам.

[0067] Как показано на Фиг. 1, способ голосового управления, предусмотренный в варианте осуществления данной заявки, может применяться в системе голосового управления, включающей в себя носимое устройство 11 и терминал 12.

[0068] Носимое устройство 11 может быть устройством, которое имеет функцию получения голоса, таким как беспроводная гарнитура, проводная гарнитура, интеллектуальные очки, интеллектуальный шлем или интеллектуальные наручные часы. Терминал 12 может быть устройством, таким как мобильный телефон, планшетный компьютер, портативный компьютер, ультрамобильный персональный компьютер (UMPC) или карманный персональный компьютер (PDA). В вариантах осуществления данной заявки это не ограничено.

[0069] Как показано на Фиг. 2, носимое устройство 11 может, в частности, включать в себя первый голосовой датчик 201, расположенный снаружи носимого устройства 11, и второй голосовой датчик 202, расположенный внутри носимого устройства 11. Внутренняя сторона носимого устройства 11 относится к стороне, которая находится в непосредственном контакте с пользователем, когда пользователь использует носимое устройство 11, а внешняя сторона носимого устройства 11 относится к стороне, которая не находится в непосредственном контакте с пользователем. Например, первый голосовой датчик 201 может быть микрофоном с воздушной проводимостью, а второй голосовой датчик 202 может быть датчиком, способным получать вибрационный сигнал, формируемый, когда пользователь издает звук, таким как микрофон с костной проводимостью, оптический датчик вибрации, датчик ускорения или микрофон с воздушной проводимостью. Способ получения голосовой информации микрофоном с воздушной проводимостью состоит в передаче вибрационного сигнала с вокализацией на микрофон с использованием воздуха. Способ получения голосовой информации микрофоном с костной проводимостью заключается в передаче вибрационного сигнала с вокализацией на микрофон с использованием кости.

[0070] Например, первый голосовой датчик 201 представляет собой микрофон с воздушной проводимостью, а второй голосовой датчик 202 представляет собой микрофон с костной проводимостью. В этом варианте осуществления данной заявки, когда пользователь, носящий носимое устройство 11, говорит, носимое устройство 11 может получать голосовую информацию, отправленную пользователем, после распространения по воздуху, путём использования первого голосового датчика 201, а также может получать голосовую информацию, отправляемую пользователем, после распространения по кости, путём использования второго голосового датчика 202.

[0071] Кроме того, на носимом устройстве 11 может быть множество первых голосовых датчиков 201. Например, первый голосовой датчик 201 представляет собой микрофон с воздушной проводимостью. Снаружи носимого устройства 11 могут быть расположены два микрофона с воздушной проводимостью, и упомянутые два микрофона с воздушной проводимостью совместно получают голосовую информацию, отправляемую пользователем, после распространения по воздуху, для получения первого голосового компонента в голосовой информации. Кроме того, микрофон с костной проводимостью может собирать голосовую информацию, отправляемую пользователем, после распространения по костей, для получения второго голосового компонента в голосовой информации.

[0072] Тем не менее, как показано на Фиг. 2, носимое устройство 11 может дополнительно включать в себя такие компоненты, как датчик 203 ускорения (причём датчик 203 ускорения может также использоваться в качестве второго голосового датчика 202), оптический датчик 204 приближения, модуль 205 связи, громкоговоритель 206, вычислительный модуль 207, модуль 208 хранения и источник 209 питания. Можно понять, что носимое устройство 11 может иметь большее или меньшее число компонентов, чем показано на Фиг. 2, может объединять два или более компонентов или может иметь различные конфигурации компонентов. Различные компоненты, показанные на Фиг. 2, могут быть реализованы в виде аппаратных средств, программного обеспечения или сочетания аппаратного и программного обеспечения, которое включает в себя одну или более интегральных схем для обработки сигналов или специализированных интегральных схем.

[0073] Как показано на Фиг. 3, терминал 12 в системе голосового управления может быть, в частности, мобильным телефоном 100. Как показано на Фиг. 3, мобильный телефон 100 может, в частности, включать в себя такие компоненты, как процессор 101, радиочастотную (RF) схему 102, память 103, сенсорный экран 104, устройство 105 Bluetooth, один или более датчиков 106, устройство 107 Wi-Fi, устройство 108 позиционирования, аудиосхему 109, периферийный интерфейс 110 и устройство 111 подачи питания. Эти компоненты могут взаимодействовать путём использования одной или более шин связи или сигнальных кабелей (не показаны на Фиг. 3). Специалисту в данной области техники может быть понятно, что аппаратная структура, показанная на Фиг. 3, не составляет ограничение для мобильного телефона 100. Мобильный телефон 100 может включать в себя большее или меньшее число компонентов, чем показано на чертеже, или объединять некоторые компоненты, или иметь другую конфигурацию компонентов.

[0074] Ниже подробно описаны компоненты мобильного телефона 100 с обращением к Фиг. 3.

[0075] Процессор 101 является центром управления мобильного телефона 100. Процессор 101 соединён с частями мобильного телефона 100 путём использования различных интерфейсов и кабелей, выполняет или исполняет прикладную программу, сохранённую в памяти 103, и вызывает данные и команду, сохранённые в памяти 103, для выполнения различных функций мобильного телефона 100 и обработки данных. В некоторых вариантах осуществления процессор 101 может включать в себя один или более процессоров. Процессор 101 может дополнительно включать в себя процессор приложений и процессор модема. Процессор приложений в основном обрабатывает операционную систему, пользовательский интерфейс, прикладную программу и т.п. Процессор модема в основном обрабатывает беспроводную связь. Можно понять, что, в качестве альтернативы, процессор модема может не быть интегрирован в процессор 101. Например, процессор 101 может быть многоядерным процессором Kirin 960, производимым Huawei Technologies Co., Ltd.

[0076] Радиочастотная схема 102 может быть выполнена с возможностью приема и отправки радиосигнала в процессе приема и отправки информации или в процессе вызова. В частности, после приема данных нисходящей линии связи от базовой станции радиочастотная схема 102 может отправлять данные нисходящей линии связи процессору 101 для обработки и отправлять соответствующие данные восходящей линии связи в базовую станцию. Обычно радиочастотная схема включает в себя, не ограничиваясь, антенну, по меньшей мере один усилитель, приемопередатчик, соединитель, малошумный усилитель, дуплексор и тому подобное. Кроме того, радиочастотная схема 102 может дополнительно осуществлять связь с другим устройством посредством беспроводной связи. Беспроводная связь может использовать любой стандарт или протокол связи, включая, помимо прочего, глобальную систему мобильной связи, общую службу пакетной радиосвязи, множественный доступ с кодовым разделением, широкополосный множественный доступ с кодовым разделением, долгосрочное развитие, электронную почту, службу обмена сообщениями и тому подобное.

[0077] Память 103 выполнена с возможностью хранения прикладной программы и данных. Процессор 101 выполняет прикладную программу и данные, сохранённые в памяти 103, для выполнения различных функций мобильного телефона 100 и обработки данных. Память 103 в основном включает в себя область хранения программ и область хранения данных. В области хранения программ может храниться операционная система и прикладная программа, необходимая по меньшей мере для одной функции (например, функции воспроизведения звука или функции воспроизведения изображения). В области хранения данных могут храниться данные (например, аудиоданные или телефонная книга), созданные на основе использования мобильного телефона 100. Кроме того, память 103 может включать в себя высокоскоростную память с произвольным доступом и может дополнительно включать в себя энергонезависимую память, такую как запоминающее устройство на магнитном диске, устройство флэш-памяти или другое энергозависимое твердотельное запоминающее устройство. В памяти 103 могут храниться различные операционные системы, такие как операционная система IOS®, разработанная Apple, и операционная система ANDROID®, разработанная Google.

[0078] Сенсорный экран 104 может включать в себя чувствительную к прикосновениям поверхность 104-1 и дисплей 104-2.

[0079] Чувствительная к прикосновениям поверхность 104-1 (например, сенсорная панель) может получать событие прикосновения, выполненного пользователем мобильного телефона 100, на чувствительной к прикосновениям поверхности 104-1 или рядом с ней (например, операции, выполняемой пользователем на чувствительной к прикосновениям поверхности 104-1 или рядом с чувствительной к прикосновениям поверхностью 104-1 посредством любого подходящего объекта, такого как палец или стилус), и отправлять собранную информацию о прикосновении другому компоненту, например процессору 101. Событие прикосновения, выполняемое пользователем рядом с чувствительной к прикосновениям поверхностью 104-1, может называться плавающим прикосновение. Плавающее прикосновение может означать, что пользователю не нужно прикасаться непосредственно к сенсорной панели для выбора, перемещения или перетаскивания объекта (например, пиктограммы), и пользователю нужно лишь находиться рядом с терминалом, чтобы выполнить желаемую функцию. В сценарии применения плавающего прикосновения такие понятия, как «прикосновение» и «контакт», подразумевают не прямой контакт с сенсорным экраном, а контакт рядом с сенсорным экраном или вблизи него. Чувствительная к прикосновениям поверхность 104-1, на которой может выполняться плавающее прикосновение, может быть реализована в виде поверхности емкостного типа, чувствительной к инфракрасному свету, к ультразвуковым волнам или тому подобного. Чувствительная к прикосновениям поверхность 104-1 может включать в себя две части: устройство обнаружения прикосновений и контроллер прикосновений. Устройство обнаружения прикосновений определяет ориентацию прикосновения пользователя, обнаруживает сигнал, формируемый операцией прикосновения, и передает сигнал в контроллер прикосновений. Контроллер прикосновений принимает информацию прикосновения от устройства обнаружения прикосновений, преобразует информацию прикосновения в координаты точки прикосновения и отправляет координаты точки прикосновения в процессор 101. Контроллер прикосновений может дополнительно принимать команду, отправленную процессором 101, и выполнять команду. Кроме того, чувствительная к прикосновениям поверхность 104-1 может быть реализована во множестве типов, таких как резистивный тип, емкостной тип, инфракрасный тип и тип поверхностной акустической волны.

[0080] Дисплей (также называемый экраном дисплея) 104-2 может быть выполнен с возможностью отображения информации, вводимой пользователем, или информации, выдаваемой пользователю, и различных меню мобильного телефона 100. Дисплей 104-2 может иметь такую форму, как жидкокристаллический дисплей или дисплей на основе органического светоизлучающего диода. Чувствительная к прикосновениям поверхность 104-1 может покрывать дисплей 104-2. После обнаружения события прикосновения на чувствительной к прикосновениям поверхности 104-1 или рядом с ней чувствительная к прикосновениям поверхность 104-1 передает событие прикосновения в процессор 101 для определения типа события прикосновения. Затем процессор 101 может обеспечить соответствующий визуальный вывод на дисплее 104-2 на основании типа события прикосновения. Хотя на Фиг. 3, чувствительная к прикосновениям поверхность 104-1 и экран 104-2 дисплея используются в качестве двух независимых частей для реализации функций ввода и вывода мобильного телефона 100, в некоторых вариантах осуществления чувствительная к прикосновениям поверхность 104-1 и экран 104-2 дисплея могут быть объединены для реализации функций ввода и вывода мобильного телефона 100. Можно понять, что сенсорный экран 104 сформирован путем наложения множества слоев материалов. В вариантах осуществления данной заявки представлены только чувствительная к прикосновениям поверхность (слой) и экран дисплея (слой), а другие слои не описаны в вариантах осуществления данной заявки. Кроме того, в некоторых других вариантах осуществления данной заявки чувствительная к прикосновениям поверхность 104-1 может покрывать дисплей 104-2, а размер чувствительной к прикосновениям поверхности 104-1 больше, чем размер экрана 104-2 дисплея.. Следовательно, экран 104-2 дисплея полностью покрыт чувствительной к прикосновениям поверхностью 104-1. В качестве альтернативы, чувствительная к прикосновениям поверхность 104-1 может быть выполнена на передней поверхности мобильного телефона 100 в виде полной панели, другими словами, любое прикосновение к передней панели мобильного телефона 100, выполняемое пользователем, может быть обнаружено мобильным телефоном. Таким образом можно реализовать возможность полного сенсорного управления на передней панели мобильного телефона. В некоторых других вариантах осуществления чувствительная к прикосновениям поверхность 104-1 выполнена на передней поверхности мобильного телефона 100 в виде полной панели, и экран 104-2 дисплея также может быть выполнен на передней поверхности мобильного телефона 100 в виде полной панели. Таким образом на передней панели мобильного телефона может быть реализована безрамочная конструкция. В некоторых других вариантах осуществления данной заявки сенсорный экран 104 может дополнительно включать в себя одну или более групп массивов датчиков, так что сенсорный экран 104 может также воспринимать давление и тому подобное, прикладываемые пользователем к сенсорному экрану 104, при обнаружении события прикосновения к сенсорному экрану 104, выполняемого пользователем.

[0081] Мобильный телефон 100 может дополнительно включать в себя устройство 105 Bluetooth, выполненное с возможностью реализации обмена данными между мобильным телефоном 100 и другим терминалом ближнего действия (например, носимым устройством 11). В вариантах осуществления данной заявки устройство Bluetooth может быть интегральной схемой, микросхемой Bluetooth и тому подобным.

[0082] Мобильный телефон 100 может дополнительно включать в себя по меньшей мере один тип датчика 106, такой как датчик света, датчик движения и другой датчик. Более конкретно, оптический датчик может включать в себя датчик окружающего света и датчик приближения. Датчик окружающего света может регулировать яркость дисплея сенсорного экрана 104 на основании яркости окружающего света, а датчик приближения может отключать дисплей, когда мобильный телефон 100 приближается к уху. В качестве одного из типов датчиков движения, датчик акселерометра может определять значения ускорения в различных направлениях (обычно по трем осям). Датчик акселерометра может определять значение и направление силы тяжести, когда датчик акселерометра неподвижен, и может применяться в приложении для распознавания положения мобильного телефона (например, переключение между пейзажным режимом и портретным режимом, соответствующая игра и калибровка положения магнитометра), функция, относящаяся к распознаванию вибрации (например, шагомер и датчик удара) и тому подобное. Другие датчики, такие как компонент распознавания отпечатков пальцев, гироскоп, барометр, гигрометр, термометр и инфракрасный датчик, могут быть дополнительно выполнен в мобильном телефоне 100. Подробности здесь не описаны.

[0083] Устройство 107 Wi-Fi выполнено с возможностью обеспечения мобильному телефону 100 доступа к сети, который соответствует стандартному протоколу, относящемуся к Wi-Fi. Мобильный телефон 100 может получать доступ к точке доступа Wi-Fi путём использования устройства 107 Wi-Fi, чтобы помочь пользователю принимать и отправлять электронную почту, просматривать веб-страницу, осуществлять доступ к потоковым мультимедиа и тому подобное. Устройство 107 Wi-Fi обеспечивает пользователю беспроводной широкополосный доступ в Интернет. В некоторых других вариантах осуществления устройство 107 Wi-Fi может использоваться в качестве беспроводной точки доступа Wi-Fi и может обеспечивать доступ к сети Wi-Fi другому терминалу.

[0084] Устройство 108 позиционирования выполнено с возможностью обеспечения географического местоположения для мобильного телефона 100. Можно понять, что устройство 108 позиционирования может быть, в частности, приемником системы позиционирования, такой как глобальная система позиционирования (GPS) или спутниковая навигационная система BeiDou. После приема географического местоположения, отправленного системой определения местоположения, устройство 108 позиционирования отправляет информацию процессору 101 для обработки или отправляет информацию в память 103 для сохранения. В некоторых других вариантах осуществления устройство 108 позиционирования может быть приемником системы глобального позиционирования с поддержкой (AGPS). AGPS работает таким образом, что определение местоположения по GPS выполняется с определенной поддержкой. Используя сигнал базовой станции вместе со спутниковым сигналом GPS, AGPS может обеспечить более высокую скорость определения местоположения мобильного телефона 100. В системе AGPS устройство 108 позиционирования может получать помощь в позиционировании посредством связи с сервером позиционирования с помощью (например, сервером позиционирования мобильного телефона). Система AGPS используется в качестве сервера с поддержкой для поддержки устройства 108 позиционирования в реализации служб определения дальности и позиционирования. В этом случае сервер вспомогательного позиционирования обеспечивает помощь в позиционировании посредством связи с терминалом, таким как устройство 108 позиционирования (приемник GPS) мобильного телефона 100, с использованием сети беспроводной связи.

[0085] Аудиосхема 109, громкоговоритель 113 и микрофон 114 могут обеспечивать аудиоинтерфейс между пользователем и мобильным телефоном 100. Аудиосхема 109 может преобразовывать принятые аудиоданные в электрический сигнал и затем передавать электрический сигнал на громкоговоритель 113, а громкоговоритель 113 преобразует электрический сигнал в звуковой сигнал для вывода. Кроме того, микрофон 114 преобразует полученный звуковой сигнал в электрический сигнал. Аудиосхема 109 принимает электрический сигнал, преобразует электрический сигнал в аудиоданные, а затем выводит аудиоданные на схему 102 RF для отправки аудиоданных, например, на другой мобильный телефон, или выводит аудиоданные в память 103 для дальнейшей обработки.

[0086] Периферийный интерфейс 110 выполнен с возможностью обеспечения различных интерфейсов для внешнего устройства ввода/вывода (например, клавиатуры, мыши, внешнего дисплея, внешней памяти или карты модуля идентификации абонента). Например, мобильный телефон 100 соединён с мышью путём использования интерфейса универсальной последовательной шины и электрически соединён путём использования металлического контакта в гнезде для карты модуля идентификации абонента с картой модуля идентификации абонента (SIM), выданной оператором связи. Периферийный интерфейс 110 может быть выполнен с возможностью соединения внешнего периферийного устройства ввода/вывода с процессором 101 и памятью 103.

[0087] Мобильный телефон 100 может дополнительно включать в себя устройство 111 подачи питания (например, аккумулятор и микросхему управления подачей питания), которое подает питание на компоненты. Аккумулятор может быть логически соединён с процессором 101 путём использования микросхемы управления источником питания, так что такие функции, как зарядка, разрядка и управление энергопотреблением, реализуются путём использования устройства 111 подачи питания.

[0088] Хотя это не показано на Фиг. 3, мобильный телефон 100 может дополнительно включать в себя камеру, вспышку, проекционное микроустройство, устройство связи ближнего поля (NFC) и тому подобное. Подробности здесь не описаны.

[0089] Обращаясь к Фиг. 1 - Фиг. 3, например, носимое устройство 11 представляет собой гарнитуру Bluetooth, а терминал 12 - мобильный телефон. Гарнитура Bluetooth и мобильный телефон могут осуществлять связь друг с другом путём использования соединения Bluetooth. В этом варианте осуществления данной заявки пользователь может вводить голосовую информацию в гарнитуру Bluetooth при ношении гарнитуры Bluetooth. В этом случае гарнитура Bluetooth может отдельно получать голосовую информацию путём использования расположенного снаружи первого голосового датчика 201 и расположенного внутри второго голосового датчика 202. Например, голосовая информация, полученная первым голосовым датчиком 201, является первым голосовым компонентом, а голосовая информация, полученная вторым голосовым датчиком 202, является вторым голосовым компонентом.

[0090] Таким образом, гарнитура Bluetooth может выполнять распознавание голосового отпечатка по отдельности для первого голосового компонента и второго голосового компонента для получения первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту. Например, гарнитура Bluetooth может предварительно сохранить первую модель голосового отпечатка и вторую модель голосового отпечатка авторизованного пользователя. Первая модель голосового отпечатка формируется на основании регистрационного голосового ввода, который авторизованный пользователь заранее вводит в первый голосовой датчик 201. Вторая модель голосового отпечатка формируется на основании регистрационного голосового ввода, который авторизованный пользователь заранее вводит во второй голосовой датчик 202. В этом случае гарнитура Bluetooth может сопоставить первую модель голосового отпечатка с полученным первым голосовым компонентом и сопоставить вторую модель голосового отпечатка с полученным вторым голосовым компонентом.

[0091] Если первый голосовой компонент соответствует первой модели голосового отпечатка, а второй голосовой компонент соответствует второй модели голосового отпечатка, это означает, что голосовая информация, полученная гарнитурой Bluetooth в данный момент, вводится авторизованным пользователем. Например, гарнитура Bluetooth может вычислить путём использования определенного алгоритма, первую степень соответствия между первым голосовым компонентом и первой моделью голосового отпечатка и вторую степень соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка. Более высокая степень соответствия указывает на большее сходство между голосовым компонентом и соответствующей моделью голосового отпечатка и на более высокую вероятность того, что осуществляющий голосовой ввод пользователь является авторизованным пользователем. Например, если среднее значение первой степени соответствия и второй степени соответствия превышает 80 баллов, гарнитура Bluetooth может определить, что первый голосовой компонент соответствует первой модели голосового отпечатка, а второй голосовой компонент соответствует второй модели голосового отпечатка. В качестве альтернативы, если каждая из первой степени соответствия и второй степени соответствия больше 85 баллов, гарнитура Bluetooth может определить, что первый голосовой компонент соответствует первой модели голосового отпечатка, а второй голосовой компонент соответствует второй модели голосового отпечатка. Далее гарнитура Bluetooth может отправлять на мобильный телефон управляющую команду, соответствующую голосовой информации, например команду разблокировки, команду выключения или команду для вызова определенного контакта. Таким образом мобильный телефон может выполнять соответствующую операцию на основании управляющей команды, так что пользователь может управлять мобильным телефоном путём использования голоса.

[0092] Конечно, гарнитура Bluetooth может, в качестве альтернативы, отправлять полученный первый голосовой компонент и полученный второй голосовой компонент на мобильный телефон. Мобильный телефон выполняет распознавание по отдельности голосового отпечатка для первого голосового компонента и второго голосового компонента и определяет на основании результатов распознавания, является ли пользователь, вводящий голосовую информацию, авторизованным пользователем. Если пользователь является авторизованным пользователем, мобильный телефон может выполнять управляющую команду, соответствующую упомянутой голосовой информации.

[0093] Авторизованный пользователь - это пользователь, который может пройти меру аутентификации личности, заранее установленную мобильным телефоном. Например, если мера аутентификации личности, заранее установленная терминалом, включает в себя ввод пароля, распознавание отпечатка пальца и распознавание голосового отпечатка, пользователь, который вводит пароль или заранее вводит в терминал информацию об отпечатке пальца и модель голосового отпечатка, на основании которой выполняется аутентификация личности пользователя, может рассматриваться как авторизованный пользователь терминала. Конечно, у одного терминала может быть один или более авторизованных пользователей, и любой пользователь кроме авторизованного пользователя может рассматриваться как неавторизованный пользователь терминала. После прохождения определенной меры аутентификации личности неавторизованный пользователь также может считаться авторизованным пользователем. В вариантах осуществления настоящей заявки это не ограничено.

[0094] Можно узнать, что в этом варианте осуществления данной заявки, если пользователь вводит голосовую информацию в носимое устройство 11 для управления терминалом 12, носимое устройство 11 может собирать голосовую информацию, формируемую в слуховом канале, и голосовую информацию, формируемую вне слухового канала, когда пользователь издает звук. В этом случае носимое устройство 11 формирует два элемента голосовой информации (то есть первый голосовой компонент и второй голосовой компонент). Следовательно, носимое устройство 11 (или терминал 12) может выполнять распознавание по отдельности голосового отпечатка для двух элементов голосовой информации. Если результаты распознавания голосового отпечатка для двух элементов голосовой информации соответствуют модели голосового отпечатка авторизованного пользователя, может быть определено, что пользователь, вводящий голосовую информацию в данный момент, является авторизованным пользователем. Очевидно, что по сравнению с процессом распознавания голосового отпечатка для одного элемента голосовой информации двойной процесс распознавания голосового отпечатка для двух элементов голосовой информации может значительно повысить точность и безопасность при аутентификации личности пользователя.

[0095] Кроме того, поскольку носимое устройство 11 может получать таким способом на основе костной проводимости голосовую информацию, введенную пользователем, только после того, как пользователь наденет носимое устройство 11, если голосовая информация, полученная носимым устройством 11 таким способом на основе костной проводимости может пройти распознавание голосового отпечатка, также следует отметить, что упомянутая голосовая информация формируется, когда авторизованный пользователь, носящий носимое устройство 11, издает звук. Это позволяет избежать случая, когда неавторизованный пользователь злонамеренно управляет терминалом авторизованного пользователя, используя запись авторизованного пользователя.

[0096] Для простоты понимания, ниже с обращением к сопровождающим чертежам конкретно описан способ голосового управления, предложенный в вариантах осуществления данной заявки. В следующих вариантах осуществления в качестве терминала используется, например, мобильный телефон, а в качестве носимого устройства используется гарнитура Bluetooth.

[0097] Фиг. 4 - принципиальная блок-схема способа голосового управления согласно варианту осуществления данной заявки. Как показано на Фиг. 4, способ голосового управления может включать в себя следующие этапы.

[0098] S401: Мобильный телефон устанавливает соединение Bluetooth с гарнитурой Bluetooth.

[0099] Пользователь может активировать функцию Bluetooth на гарнитуре Bluetooth при желании использовать гарнитуру Bluetooth. В этом случае гарнитура Bluetooth может рассылать вовне широковещательные сообщения сопряжения. Если на мобильном телефоне активирована функция Bluetooth, мобильный телефон может принимать широковещательное сообщение сопряжения и уведомлять пользователя о том, что сканируется соответствующее устройство Bluetooth. После того, как пользователь выберет на мобильном телефоне гарнитуру Bluetooth, мобильный телефон может выполнить сопряжение с гарнитурой Bluetooth и установить соединение Bluetooth. Впоследствии мобильный телефон и гарнитура Bluetooth могут осуществлять связь друг с другом путём использования соединения Bluetooth. Конечно, если мобильный телефон и гарнитура Bluetooth успешно сопряжены до того, как установлено текущее соединение Bluetooth, мобильный телефон может автоматически установить соединение Bluetooth с гарнитурой Bluetooth, обнаруженной путем сканирования.

[0100] Кроме того, если пользователь ожидает, что используемая гарнитура имеет функцию Wi-Fi, пользователь может использовать мобильный телефон для установления с гарнитурой соединения Wi-Fi. В качестве альтернативы, если пользователь ожидает, что используемая гарнитура является проводной гарнитурой, пользователь вставляет штепсель кабеля гарнитуры в соответствующий интерфейс гарнитуры мобильного телефона, чтобы установить проводное соединение. В вариантах осуществления данной заявки это не ограничено.

[0101] S402 (при необходимости): Гарнитура Bluetooth определяет, находится ли гарнитура Bluetooth в носимом состоянии.

[0102] Как показано на Фиг. 2, в гарнитуре Bluetooth могут быть размещены оптический датчик приближения и датчик ускорения. Оптический датчик приближения размещён на стороне, контактирующей с пользователем, когда пользователь носит гарнитуру Bluetooth. Оптический датчик приближения и датчик ускорения могут периодически активироваться для получения обнаруженного в данный момент значения измерения.

[0103] После надевания гарнитуры Bluetooth пользователь блокирует свет, излучаемый оптическим датчиком приближения. Следовательно, если интенсивность света, обнаруженная оптическим датчиком приближения, меньше заранее установленной пороговой величины интенсивности света, гарнитура Bluetooth может определить, что гарнитура Bluetooth в данный момент находится в носимом состоянии. Кроме того, после того, как пользователь наденет гарнитуру Bluetooth, она может перемещаться вместе с пользователем. Следовательно, когда значение ускорения, обнаруженное датчиком ускорения, превышает заранее установленную пороговую величину ускорения, гарнитура Bluetooth может определить, что гарнитура Bluetooth в данный момент находится в носимом состоянии. В качестве альтернативы, если интенсивность света, обнаруженная оптическим датчиком приближения, меньше заранее установленной пороговой величины интенсивности света, если обнаружено, что значение ускорения, обнаруженное датчиком ускорения в данный момент, превышает заранее установленную пороговую величину ускорения, гарнитура Bluetooth может определить, что гарнитура Bluetooth в данный момент находится в носимом состоянии.

[0104] Кроме того, поскольку второй голосовой датчик (например, микрофон с костной проводимостью или оптический датчик вибрации), получающий голосовую информацию с использованием костной проводимости, дополнительно размещён на гарнитуре Bluetooth, гарнитура Bluetooth может дополнительно получать путём использования второго голосового датчика сигнал вибрации, формируемый в текущем окружении. Гарнитура Bluetooth находится в прямом контакте с пользователем, когда она находится в носимом состоянии. Следовательно, сигнал вибрации, получаемый вторым голосовым датчиком, сильнее, чем сигнал, получаемый вторым голосовым датчиком в неносимом состоянии. В этом случае, если энергия сигнала вибрации, получаемого вторым голосовым датчиком, превышает пороговую величину энергии, гарнитура Bluetooth может определить, что гарнитура Bluetooth находится в носимом состоянии. В качестве альтернативы, поскольку спектральная характеристика, такая как гармоника и резонанс, которые присутствуют в сигнале вибрации, получаемом, когда пользователь носит гарнитуру Bluetooth, значительно отличается от сигнала, получаемого, когда гарнитура Bluetooth не надета, если сигнал вибрации, полученный вторым голосовым датчиком, соответствует заданному спектру, гарнитура Bluetooth может определить, что гарнитура Bluetooth находится в носимом состоянии. Это может снизить вероятность того, что гарнитура Bluetooth не сможет точно определить состояние ношения путём использования оптического датчика приближения или датчика ускорения в сценарии, в котором пользователь кладет гарнитуру Bluetooth в карман и т.п.

[0105] Пороговая величина энергии или заранее установленная спектральная характеристика могут быть получены путем сбора статистики после захвата различных вибрационных сигналов, формируемых захватываемыми звуками, движением и тому подобным, после того, как большое количество пользователей носили гарнитуру Bluetooth, и она является весьма отличной от энергии или спектральной характеристики голосового сигнала, обнаруженного вторым голосовым датчиком, когда пользователь не носит гарнитуру Bluetooth. Кроме того, поскольку энергопотребление первого голосового датчика (например, микрофона с воздушной проводимостью) снаружи гарнитуры Bluetooth обычно относительно велико, первый голосовой датчик не нужно активировать до того, как гарнитура Bluetooth обнаружит, что гарнитура Bluetooth в настоящее время находится в носимом состоянии. После обнаружения того, что гарнитура Bluetooth в настоящее время находится в носимом состоянии, гарнитура Bluetooth может активировать первый голосовой датчик для получения голосовой информации, формируемой, когда пользователь издает звук, чтобы снизить энергопотребление гарнитуры Bluetooth.

[0106] После обнаружения того, что гарнитура Bluetooth в настоящее время находится в носимом состоянии, гарнитура Bluetooth может продолжить выполнение следующих этапов S403 - S407, или, в противном случае, гарнитура Bluetooth может перейти в неактивное состояние и продолжить выполнение следующих этапов S403 - S407 после обнаружения, что гарнитура Bluetooth в настоящее время находится в носимом состоянии. Другими словами, гарнитура Bluetooth может инициировать, только когда гарнитура Bluetooth обнаруживает, что пользователь носит гарнитуру Bluetooth, то есть пользователь намеревается использовать гарнитуру Bluetooth, процесс, в котором гарнитура Bluetooth получает вводимую пользователем голосовую информацию и выполняет распознавание голоса и тому подобное. Это снижает энергопотребление гарнитуры Bluetooth. Конечно, этап S402 является факультативным. В частности, независимо от того, носит ли пользователь гарнитуру Bluetooth, гарнитура Bluetooth может продолжать выполнять следующие этапы S403 - S407. В вариантах осуществления настоящей заявки это не ограничено.

[0107] S403: Находясь в носимом состоянии, гарнитура Bluetooth получает путём использования первого голосового датчика первый голосовой компонент в голосовой информации, введенной пользователем, и получает второй голосовой компонент в голосовой информации путём использования второго голосового датчика.

[0108] При определении, что гарнитура Bluetooth находится в носимом состоянии, гарнитура Bluetooth может активировать модуль обнаружения голоса для получения по отдельности, путём использования первого голосового датчика и второго голосового датчика, голосовой информации, введенной пользователем, для получения первого голосового компонента и второго голосового компонента в голосовой информации. Например, первый голосовой датчик представляет собой микрофон с воздушной проводимостью, а второй голосовой датчик представляет собой микрофон с костной проводимостью. В процессе использования Bluetooth-гарнитуры пользователь может ввести голосовую информацию «Xiao E, оплатить с помощью WeChat». В этом случае, поскольку микрофон с воздушной проводимостью находится в воздухе, гарнитура Bluetooth может принимать вибрационный сигнал (другими словами, первый голосовой компонент в голосовой информации), формируемый вибрацией воздуха после того, как пользователь издает звук, путём использования микрофона с воздушной проводимостью. Кроме того, поскольку микрофон с костной проводимостью может контактировать со слуховой косточкой пользователя через кожу, гарнитура Bluetooth может принимать вибрационный сигнал (другими словами, второй голосовой компонент в голосовой информации), формируемый вибрацией уха и кожи после того, как пользователь издаёт звук, путём использования микрофона с костной проводимостью.

[0109] В некоторых вариантах осуществления данной заявки после обнаружения голосовой информации, введенной пользователем, гарнитура Bluetooth может дополнительно различать голосовой сигнал и фоновый шум в голосовой информации с помощью алгоритма VAD (обнаружение голосовой активности). В частности, гарнитура Bluetooth может по отдельности вводить первый голосовой компонент и второй голосовой компонент в голосовой информации в соответствующий алгоритм VAD для получения первого значения VAD, соответствующего первому голосовому компоненту, и второго значения VAD, соответствующего второму голосовому компоненту. Значение VAD может использоваться для отражения того, является ли голосовая информация нормальным голосовым сигналом говорящего или шумовым сигналом. Например, значение VAD может быть установлено в диапазоне от 0 до 100. Если значение VAD больше пороговой величины VAD, это указывает, что голосовая информация является нормальным голосовым сигналом говорящего, или, если значение VAD меньше пороговой величины VAD, это указывает, что голосовая информация является шумовым сигналом. В другом примере значение VAD может быть установлено на 0 или 1. Если значение VAD равно 1, это указывает, что голосовая информация является нормальным голосовым сигналом говорящего, или, если значение VAD равно 0, это указывает, что голосовая информация является шумовым сигналом.

[0110] В этом случае гарнитура Bluetooth может определить на основании двух значений VAD: первого значения VAD и второго значения VAD, является ли голосовая информация шумовым сигналом. Например, если и первое значение VAD, и второе значение VAD равны 1, гарнитура Bluetooth может определить, что голосовая информация не является шумовым сигналом, а является нормальным голосовым сигналом говорящего. В качестве другого примера, если каждое из первого значения VAD и второго значения VAD больше заранее установленного значения, гарнитура Bluetooth может определить, что голосовая информация не является шумовым сигналом, а является нормальным голосовым сигналом говорящего.

[0111] Кроме того, если второе значение VAD равно 1 или второе значение VAD больше заранее установленной величины, это может в некоторой степени указывать на то, что голосовая информация, полученная в данный момент, отправляется живым пользователем. Следовательно, гарнитура Bluetooth также может определять, является ли голосовая информация шумовым сигналом, на основании только второго значения VAD.

[0112] Обнаружение голосовой активности выполняется по отдельности для первого голосового компонента и второго голосового компонента. Если гарнитура Bluetooth определяет, что голосовая информация является шумовым сигналом, гарнитура Bluetooth может отбросить голосовую информацию. Если гарнитура Bluetooth определяет, что голосовая информация не является шумовым сигналом, гарнитура Bluetooth может продолжить выполнение следующих этапов S404 - S407. Другими словами, только если пользователь вводит в гарнитуру Bluetooth действительную голосовую информацию, гарнитура Bluetooth инициируется для выполнения последующего процесса, такого как идентификация голосового отпечатка. Это снижает энергопотребление гарнитуры Bluetooth.

[0113] Кроме того, после получения первого значения VAD и второго значения VAD, соответственно, соответствующих первому голосовому компоненту и второму голосовому компоненту, гарнитура Bluetooth может дополнительно измерить значение шума для голосовой информации с использованием алгоритма оценки шума (например, статистического алгоритма минимумов или алгоритма рекурсивного усреднения под контролем минимумов). Например, гарнитура Bluetooth может установить пространство для хранения, специально используемое для хранения значения шума и, после вычисления нового значения шума каждый раз, гарнитура Bluetooth может обновлять новое значение шума в пространстве для хранения. Другими словами, последнее вычисленное значение шума всегда сохраняется в пространстве для хранения.

[0114] Таким образом, после определения путём использования алгоритма VAD, что голосовая информация является действительной голосовой информацией, гарнитура Bluetooth может выполнять обработку шумоподавления по отдельности для первого голосового компонента и второго голосового компонента путём использования значения шума в пространстве для хранения таким образом, что результаты распознавания, полученные, когда последующая гарнитура Bluetooth (или мобильный телефон) по отдельности выполняет распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента, являются более точными.

[0115] S404: Гарнитура Bluetooth отправляет первый голосовой компонент и второй голосовой компонент на мобильный телефон путём использования соединения Bluetooth.

[0116] После получения первого голосового компонента и второго голосового компонента гарнитура Bluetooth может отправить первый голосовой компонент и второй голосовой компонент на мобильный телефон. Затем мобильный телефон выполняет следующие этапы S705 - S707 для реализации таких операций, как распознавание голосового отпечатка в голосовой информации, введенной пользователем, и аутентификация личности пользователя.

[0117] S405: Мобильный телефон выполняет по отдельности распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента для получения первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту.

[0118] Модели голосовых отпечатков одного или более авторизованных пользователей могут быть заранее сохранены на мобильном телефоне. У каждого авторизованного пользователя есть две модели голосового отпечатка, одна из которых является первой моделью голосового отпечатка, созданной на основании голосовой характеристики пользователя, полученной при работе микрофона с воздушной проводимостью (другими словами, первого голосового датчика), а другая является второй моделью голосового отпечатка, установленной на основании голосовой характеристики пользователя, полученной при работе микрофона с костной проводимостью (другими словами, второго голосового датчика).

[0119] Существует две фазы установления первой модели голосового отпечатка и второй модели голосового отпечатка. Первая фаза является фазой обучения фоновой модели. На первом этапе разработчик может получать голосовые данные для соответствующих текстов (например, «Привет, Xiao E»), формируемые, когда большое количество говорящих, носящих гарнитуру Bluetooth, издают звук. Далее, после выполнения фильтрации и уменьшения шума голосовых данных для соответствующих текстов, мобильный телефон может извлекать звуковые характеристики (например, график частотно-временного спектра шума или гамматоноподобную спектрограмму) в фоновом звуке, и фоновая модель распознавания голосового отпечатка создается путём использования алгоритма машинного обучения, такого как GMM (гауссовская смешанная модель), SVM (метод опорных векторов) или структура глубокой нейронной сети. Мобильный телефон или гарнитура Bluetooth может устанавливать на основании фоновой модели и регистрационного голосового ввода, введенного пользователем, первую модель голосового отпечатка и вторую модель голосового отпечатка, принадлежащие пользователю. Структура глубокой нейронной сети включает в себя, помимо прочего, алгоритм DNN (глубокая нейронная сеть), алгоритм RNN (рекуррентная нейронная сеть), алгоритм LSTM (долгая краткосрочная память) и тому подобное.

[0120] Вторая фаза является процессом, в котором, если пользователь впервые использует функцию голосового управления на мобильном телефоне, первая модель голосового отпечатка и вторая модель голосового отпечатка, принадлежащие пользователю, устанавливаются путем ввода регистрационного голосового ввода. Например, если авторизованный пользователь 1 впервые использует приложение голосового помощника, установленное на мобильном телефоне, приложение голосового помощника может предложить пользователю надеть гарнитуру Bluetooth и осуществить регистрационный голосовой ввод «Привет, Xiao E». Точно так же, поскольку гарнитура Bluetooth включает в себя микрофон с воздушной проводимостью и микрофон с костной проводимостью, гарнитура Bluetooth может получать первый регистрационный компонент, полученный путём использования микрофона с воздушной проводимостью, и второй регистрационный компонент, полученный путём использования микрофона с костной проводимостью, которые входят в состав регистрационного голосового ввода. Кроме того, после того, как гарнитура Bluetooth отправляет первый регистрационный компонент и второй регистрационный компонент в мобильный телефон, мобильный телефон может отдельно извлекать звуковую характеристику пользователя 1 в первом регистрационном компоненте и втором регистрационном компоненте и дополнительно вводить звуковую характеристику пользователя 1 в фоновую модель. Таким образом получается первую модель голосового отпечатка и вторая модель голосового отпечатка пользователя 1. Мобильный телефон может локально сохранять первую модель голосового отпечатка и вторую модель голосового отпечатка авторизованного пользователя 1 или может отправлять первую модель голосового отпечатка и вторую модель голосового отпечатка авторизованного пользователя 1 в гарнитуру Bluetooth для сохранения.

[0121] Кроме того, если первая модель голосового отпечатка и вторая модель голосового отпечатка авторизованного пользователя 1 установлены, мобильный телефон может далее использовать гарнитуру Bluetooth, соединённую в данный момент с мобильным телефоном, в качестве авторизованного устройства Bluetooth. Например, мобильный телефон может локально сохранять идентификатор (например, MAC-адрес гарнитуры Bluetooth) авторизованного устройства Bluetooth. Таким образом мобильный телефон может принимать и выполнять соответствующую управляющую команду, отправленную авторизованным устройством Bluetooth, и, если неавторизованное устройство Bluetooth отправляет на мобильный телефон управляющую команду, мобильный телефон может отбросить данную управляющую команду для повышения безопасности. Один мобильный телефон может управлять одним или более авторизованными устройствами Bluetooth. Как показано на Фиг. 7(а), пользователь может осуществить доступ к экрану 701 настройки функции распознавания голосового отпечатка из функции настройки, и после нажатия кнопки 705 настройки пользователь может осуществить доступ к экрану 706 управления авторизованным устройством, показанному на Фиг. 7(b). Пользователь может добавить или удалить авторизованное устройство Bluetooth на экране 806 управления авторизованным устройством.

[0122] На этапе S405 после получения первого голосового компонента и второго голосового компонента в голосовой информации мобильный телефон может отдельно извлекать звуковые характеристики из каждого из первого голосового компонента и второго голосового компонента, а затем сопоставлять первую модель голосового отпечатка авторизованного пользователя 1 со звуковой характеристикой первого голосового компонента и сопоставлять вторую модель голосового отпечатка авторизованного пользователя 1 со звуковой характеристикой второго голосового компонента. Например, путём использования определенного алгоритма мобильный телефон может вычислить первую степень соответствия (то есть первый результат распознавания голосового отпечатка) между первой моделью голосового отпечатка и первым голосовым компонентом и вторую степень соответствия (то есть результат распознавания второго голосового отпечатка) между второй моделью голосового отпечатка и вторым голосовым компонентом. Обычно более высокая степень соответствия указывает на большее сходство между звуковой характеристикой голосовой информации и звуковой характеристикой авторизованного пользователя 1 и на более высокую вероятность того, что пользователь, вводящий голосовую информацию, является авторизованным пользователем 1.

[0123] Если мобильный телефон сохраняет модели голосовых отпечатков для множества авторизованных пользователей, мобильный телефон может согласно вышеизложенному способу дополнительно вычислять одну за другой первую степень соответствия между первым голосовым компонентом и другим авторизованным пользователем (например, авторизованным пользователем 2 или авторизованным пользователем 3) и вторую степень соответствия между вторым голосовым компонентом и другим авторизованным пользователем. Кроме того, гарнитура Bluetooth может определять авторизованного пользователя (например, авторизованного пользователя A) с наивысшей степенью соответствия как текущего осуществляющего голосовой ввод пользователя.

[0124] Кроме того, перед выполнением распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента мобильный телефон может дополнительно предварительно определить, нужно ли выполнять распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента. Например, если гарнитура Bluetooth или мобильный телефон могут идентифицировать из голосовой информации, введенной пользователем, заранее установленное ключевое слово, например, ключевое слово, связанное с конфиденциальностью пользователя или финансовым поведением, такое как «перевод», «оплата», «** банк» или «запись чата», это указывает на то, что требования безопасности пользователя в отношении управления мобильным телефоном с помощью голоса в данный момент относительно высоки. Следовательно, мобильный телефон может выполнять этап S405, то есть выполнять распознавание голосового отпечатка. В качестве другого примера, если гарнитура Bluetooth получает заранее установленную операцию, выполняемую пользователем и используемую для активации функции распознавания голосового отпечатка, например операцию постукивания по гарнитуре Bluetooth или одновременного нажатия кнопки громкости + и кнопки громкости -, это указывает на то, что в данный момент пользователю необходимо подтвердить личность пользователя с помощью распознавания голосового отпечатка. Следовательно, гарнитура Bluetooth может дать мобильному телефону команду выполнить этап S405, то есть выполнить распознавание голосового отпечатка.

[0125] В качестве альтернативы, на мобильном телефоне могут быть заранее установлены ключевые слова, соответствующие разным уровням безопасности. Например, ключевое слово с самым высоким уровнем безопасности включает в себя «оплатить», «оплата» и тому подобное, ключевое слово с относительно высоким уровнем безопасности включает в себя «фотосъёмка», «вызов» и тому подобное, а ключевое слово с самым низким уровнем безопасности включает в себя «прослушивание песни», «навигацию» и тому подобное.

[0126] Таким образом, если обнаружено, что полученная голосовая информация включает ключевое слово с наивысшим уровнем безопасности, мобильный телефон может быть инициирован для выполнения распознавания голосового отпечатка по отдельности для первого голосового компонента и второго голосового компонента, другими словами для выполнения распознавания голосового отпечатка для обоих из двух полученных источников голосовых данных для повышения безопасности голосового управления мобильным телефоном. Если обнаружено, что полученная голосовая информация включает в себя ключевое слово с относительно высоким уровнем безопасности, поскольку требования безопасности для голосового управления мобильным телефоном посредством пользователя в настоящее время являются средними, мобильный телефон может инициироваться для выполнения распознавания голосового отпечатка только для первого голосового компонента или второго голосового компонента. Если обнаружено, что полученная голосовая информация включает в себя ключевое слово с самым низким уровнем безопасности, мобильному телефону не требуется выполнять распознавание голосовых отпечатков для первого голосового компонента и второго голосового компонента.

[0127] Конечно, если голосовая информация, полученная гарнитурой Bluetooth, не включает в себя ключевое слово, это указывает на то, что голосовая информация, полученная в данный момент, может быть только голосовой информацией, отправленной пользователем во время обычного разговора. Следовательно, мобильному телефону не нужно выполнять распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента. Это снижает энергопотребление мобильного телефона.

[0128] В качестве альтернативы, мобильный телефон может дополнительно установить одно или более слов активации, чтобы активировать мобильный телефон и активировать функцию распознавания голосовых отпечатков. Например, словом активации может быть «Привет, Xiao E». После того, как пользователь вводит голосовую информацию в гарнитуру Bluetooth, гарнитура Bluetooth или мобильный телефон могут определить, является ли голосовая информация активирующим голосовым вводом, включающим в себя слово активации. Например, гарнитура Bluetooth может отправлять на мобильный телефон первый голосовой компонент и второй голосовой компонент полученной голосовой информации. Если мобильный телефон далее идентифицирует, что голосовая информация включает в себя слово активации, мобильный телефон может активировать функцию распознавания голосовых отпечатков (например, активировать микросхему распознавания голосовых отпечатков). Впоследствии, если голосовая информация, полученная гарнитурой Bluetooth, включает в себя ключевое слово, мобильный телефон может выполнять распознавание голосовых отпечатков согласно способу на этапе S405 с использованием активированной функции распознавания голосовых отпечатков.

[0129] В качестве другого примера, после получения голосовой информации гарнитура Bluetooth может дополнительно определить, включает ли в себя голосовая информация слово активации. Если голосовая информация включает в себя слово активации, это указывает на то, что пользователю впоследствии может потребоваться использовать функцию идентификации голосового отпечатка. В этом случае гарнитура Bluetooth может отправить команду активации на мобильный телефон таким образом, чтобы мобильный телефон активировал функцию идентификации голосового отпечатка в ответ на команду активации.

[0130] S406: Мобильный телефон выполняет аутентификацию личности пользователя на основании первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка.

[0131] На этапе S706, после получения посредством распознавания голосового отпечатка первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту, мобильный телефон может выполнять на основании упомянутых двух результатов распознавания голосового отпечатка аутентификацию личности пользователя, вводящего голосовую информацию. Таким образом повышается точность и безопасность аутентификации пользователя.

[0132] Например, первая степень соответствия между первой моделью голосового отпечатка авторизованного пользователя и первым голосовым компонентом является первым результатом распознавания голосового отпечатка, а вторая степень соответствия между второй моделью голосового отпечатка авторизованного пользователя и вторым голосовым компонентом является вторым результатом распознавания голосового отпечатка. При аутентификации личности пользователя, если первая степень соответствия и вторая степень соответствия соответствуют заданной политике аутентификации, например, политика аутентификации такова, что, если первая степень соответствия больше первой пороговой величины, а вторая степень соответствия больше второй пороговой величины (вторая пороговая величина равна первой пороговой величине или отлична от неё), мобильный телефон определяет, что пользователь, отправляющий первый голосовой компонент и второй голосовой компонент, является авторизованным пользователем, или, в противном случае, мобильный телефон может определить, что пользователь, отправляющий первый голосовой компонент и второй голосовой компонент, является неавторизованным пользователем.

[0133] В другом примере мобильный телефон может вычислять среднее взвешенное значение первой степени соответствия и второй степени соответствия. Если среднее взвешенное значение превышает заранее установленную пороговую величину, мобильный телефон может определить, что пользователь, отправляющий первый голосовой компонент и второй голосовой компонент, является авторизованным пользователем, или, в противном случае, мобильный телефон может определить, что пользователь, отправляющий первый голосовой компонент и второй голосовой компонент, является неавторизованным пользователем.

[0134] В качестве альтернативы, мобильный телефон может использовать разные политики аутентификации в разных сценариях распознавания голосовых отпечатков. Например, если полученная голосовая информация включает в себя ключевое слово с наивысшим уровнем безопасности, мобильный телефон может установить как первую пороговую величину, так и вторую пороговую величину на 99 баллов. Таким образом, только если и первая степень соответствия, и вторая степень соответствия превышают 99 баллов, мобильный телефон определяет, что пользователь, осуществляющий текущий голосовой ввод, является авторизованным пользователем. Если полученная голосовая информация включает в себя ключевое слово с относительно низким уровнем безопасности, мобильный телефон может установить как первую пороговую величину, так и вторую пороговую величину на 85 баллов. Таким образом, если и первая степень соответствия, и вторая степень соответствия превышают 85 баллов, мобильный телефон может определить, что пользователь, осуществляющий текущий голосовой ввод, является авторизованным пользователем. Другими словами, для сценариев распознавания голосовых отпечатков с разными уровнями безопасности мобильный телефон может использовать для выполнения аутентификации личности пользователя политики аутентификации с разными уровнями безопасности.

[0135] Кроме того, если мобильный телефон сохраняет модели голосовых отпечатков множества авторизованных пользователей, например мобильный телефон сохраняет модели голосового отпечатка авторизованного пользователя A, авторизованного пользователя B и авторизованного пользователя C, модель голосового отпечатка каждого авторизованного пользователя включает в себя первую модель голосового отпечатка и вторую модель голосового отпечатка. В этом случае мобильный телефон может отдельно сопоставлять полученный первый голосовой компонент и полученный второй голосовой компонент с моделью голосового отпечатка для каждого авторизованного пользователя в соответствии с вышеизложенным способом. Кроме того, мобильный телефон может определять авторизованного пользователя (например, авторизованного пользователя A), который соответствует политике аутентификации и имеет наивысшую степень соответствия, как осуществляющего текущий голосовой ввод пользователя.

[0136] В некоторых других вариантах осуществления данной заявки модель голосового отпечатка, которая принадлежит авторизованному пользователю и которая сохранена на мобильном телефоне, в качестве альтернативы может быть установлена после того, как мобильный телефон объединяет первый регистрационный компонент и второй регистрационный компонент в регистрационном голосовом вводе. В этом случае каждый авторизованный пользователь имеет модель голосового отпечатка, и модель голосового отпечатка может отражать звуковую характеристику голоса авторизованного пользователя, когда голос передается по воздуху, а также может отражать звуковую характеристику голоса авторизованного пользователя, когда голос передается через кость.

[0137] Таким образом, после приема первого голосового компонента и второго голосового компонента в голосовой информации, отправленной гарнитурой Bluetooth, мобильный телефон может выполнять распознавание голосового отпечатка после объединения первого голосового компонента и второго голосового компонента, например мобильный телефон вычисляет степень соответствия между моделью голосового отпечатка авторизованного пользователя и сочетанием первого голосового компонента и второго голосового компонента. Далее мобильный телефон также может выполнять аутентификацию личности пользователя на основании степени соответствия. В соответствии с этим способом аутентификации личности модели голосового отпечатка авторизованного пользователя объединяются в одну модель голосового отпечатка. Следовательно, соответственно уменьшается сложность модели голосового отпечатка и необходимое пространство для хранения. Кроме того, поскольку используется информация о характеристике голосового отпечатка второго голосового компонента, также обеспечивается двойная верификация голосового отпечатка и функция обнаружения живого пользователя.

[0138] S407: Если пользователь является авторизованным пользователем, мобильный телефон выполняет управляющую команду, соответствующую голосовой информации.

[0139] Если посредством процесса аутентификации на этапе S406 мобильный телефон определяет, что осуществляющий голосовой ввод пользователь, вводящий голосовую информацию на этапе S402, является авторизованным пользователем, мобильный телефон может сформировать управляющую команду, соответствующую голосовой информации. Например, если голосовая информация - «Xiao E, оплата с помощью WeChat», управляющая команда, соответствующая голосовой информации, отображает экран оплаты приложения WeChat. Таким образом, после формирования команды на отображение экрана оплаты в приложении WeChat мобильный телефон может автоматически активировать приложение WeChat и отобразить экран оплаты в приложении WeChat.

[0140] Кроме того, поскольку мобильный телефон определяет, что пользователь является авторизованным пользователем, как показано на Фиг. 5, если мобильный телефон в данный момент находится в заблокированном состоянии, мобильный телефон может далее сначала разблокировать экран, а затем выполнить управляющую команду для отображения экрана оплаты в приложении WeChat, чтобы отобразить экран 501 оплаты в приложении WeChat.

[0141] Например, способ голосового управления, предложенный на этапах с S401 по S407, может представлять собой функцию, реализуемую приложением голосового помощника. Когда гарнитура Bluetooth взаимодействует с мобильным телефоном, если посредством распознавания голосовых отпечатков определено, что текущий осуществляющий голосовой ввод пользователь является авторизованным пользователем, мобильный телефон может отправлять данные, такие как сформированные управляющие команды или голосовая информация, в приложение голосового помощника, работающее на уровне приложений. Кроме того, приложение голосового помощника вызывает связанный интерфейс или службу на уровне инфраструктуры приложений для выполнения управляющей команды, соответствующей голосовой информации.

[0142] Можно узнать, что согласно способу голосового управления, предложенному в этом варианте осуществления данной заявки, мобильный телефон может быть разблокирован и может выполнить управляющую команду, соответствующую голосовой информации, при идентификации личности пользователя путём использования голосового отпечатка. Другими словами, пользователю нужно ввести голосовую информацию только один раз, чтобы выполнить ряд операций, таких как аутентификация пользователя, разблокировка мобильного телефона и активация функции мобильного телефона. Это значительно повышает эффективность пользовательского управления мобильным телефоном и удобство работы с ним.

[0143] На этапах S401 - S407 мобильный телефон используется в качестве исполнительного органа для выполнения таких операций, как распознавание голосового отпечатка и аутентификация личности пользователя. Можно понять, что некоторые или все из этапов S401 - S407 также могут быть выполнены гарнитурой Bluetooth. Это может снизить сложность реализации мобильного телефона и снизить энергопотребление мобильного телефона. Как показано на Фиг. 6, способ голосового управления может включать в себя следующие этапы.

[0144] S601: Мобильный телефон устанавливает соединение Bluetooth с гарнитурой Bluetooth.

[0145] S602 (при необходимости): Гарнитура Bluetooth определяет, надета ли гарнитура Bluetooth.

[0146] S603: Находясь в носимом состоянии, гарнитура Bluetooth получает первый голосовой компонент в голосовой информации, введенной пользователем, путём использования первого голосового датчика, и получает второй голосовой компонент в голосовой информации путём использования второго голосового датчика.

[0147] Для получения информации о конкретных способах этапов S601-S603 по установлению соединения Bluetooth между гарнитурой Bluetooth и мобильным телефоном, определению, находится ли гарнитура Bluetooth в носимом состоянии, и обнаружению первого голосового компонента и второго голосового компонента в голосовой информации, следует обратиться к соответствующему описанию этапов S401 - S403. Подробности здесь не описаны.

[0148] Следует отметить, что после получения первого голосового компонента и второго голосового компонента гарнитура Bluetooth может дополнительно выполнять такие операции, как обнаружение VAD, уменьшение шума или фильтрация в отношении обнаруженного первого голосового компонента и обнаруженного второго голосового компонента. В вариантах осуществления настоящей заявки это не ограничено.

[0149] В некоторых вариантах осуществления данной заявки, поскольку гарнитура Bluetooth имеет функцию воспроизведения звука, когда громкоговоритель гарнитуры Bluetooth работает, микрофон с воздушной проводимостью и микрофон с костной проводимостью на гарнитуре Bluetooth могут принимать эхо-сигнал от источника звука, воспроизводимого громкоговорителем. Следовательно, после получения первого голосового компонента и второго голосового компонента гарнитура Bluetooth может дополнительно подавлять эхо-сигнал в каждом из первого голосового компонента и второго голосового компонента путём использования алгоритма эхоподавления (например, адаптивного эхоподавления, AEC), для повышения точности последующего распознавания голоса.

[0150] S604: Гарнитура Bluetooth отдельно выполняет распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента, чтобы получить первый результат распознавания голосового отпечатка, соответствующий первому голосовому компоненту, и второй результат распознавания голосового отпечатка, соответствующий второму голосовому компоненту.

[0151] В отличие от этапов S401-S407, на этапе S604 гарнитура Bluetooth может заранее сохранять модели голосовых отпечатков одного или более авторизованных пользователей. Таким образом, после получения первого голосового компонента и второго голосового компонента гарнитура Bluetooth может выполнять распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента, используя модели голосовых отпечатков, локально сохраненные в гарнитуре Bluetooth. Для получения информации о конкретном способе выполнения распознавания голосового отпечатка по отдельности для первого голосового компонента и второго голосового компонента путём использования гарнитуры Bluetooth следует обратиться к конкретному способу выполнения мобильным телефоном распознавания голосового отпечатка по отдельности для первого голосового компонента и второго голосового компонента на этапе S405. Подробности здесь не описаны.

[0152] S605: Гарнитура Bluetooth выполняет аутентификацию личности пользователя на основании первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка.

[0153] В отношении процесса, в котором гарнитура Bluetooth выполняет аутентификацию личности пользователя на основании первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка, следует обратиться к соответствующему описанию этапа S406, на котором мобильный телефон выполняет аутентификацию личности пользователя на основании первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка. Подробности здесь не описаны.

[0154] S606: Если пользователь является авторизованным пользователем, гарнитура Bluetooth отправляет управляющую команду, соответствующую голосовой информации, на мобильный телефон путём использования соединения Bluetooth.

[0155] S607: Мобильный телефон выполняет управляющую команду.

[0156] Если гарнитура Bluetooth определяет, что осуществляющий голосовой ввод пользователь, вводящий голосовую информацию, является авторизованным пользователем, гарнитура Bluetooth может сформировать управляющую команду, соответствующую голосовой информации. Например, если голосовая информация - «Xiao E, оплата с помощью WeChat», управляющая команда, соответствующая голосовой информации, отображает экран оплаты приложения WeChat. Таким образом, гарнитура Bluetooth может отправлять на мобильный телефон путём использования установленного соединения Bluetooth команду по отображению экрана оплаты в приложении WeChat. Как показано на Фиг. 5, после приёма управляющей команды мобильный телефон может автоматически активировать приложение WeChat и отобразить экран 501 оплаты в приложении WeChat.

[0157] Кроме того, поскольку гарнитура Bluetooth определяет, что пользователь является авторизованным пользователем, когда мобильный телефон находится в заблокированном состоянии, гарнитура Bluetooth может дополнительно отправить на мобильный телефон сообщение об успешном выполнении аутентификации пользователя или команду разблокировки, чтобы мобильный телефон мог сначала разблокировать экран, а затем выполнить управляющую команду, соответствующую голосовой информации. Конечно, гарнитура Bluetooth также может отправлять полученную голосовую информацию на мобильный телефон, и мобильный телефон формирует соответствующую управляющую команду на основании голосовой информации и выполняет управляющую команду.

[0158] В некоторых вариантах осуществления данной заявки при отправке голосовой информации или соответствующей управляющей команды на мобильный телефон гарнитура Bluetooth может дополнительно отправлять на мобильный телефон идентификатор устройства (например, MAC-адрес) гарнитуры Bluetooth. Поскольку мобильный телефон сохраняет идентификатор авторизованного устройства Bluetooth, прошедшего аутентификацию, мобильный телефон может определить на основании принятого идентификатора устройства, является ли соединенная в данный момент гарнитура Bluetooth авторизованным устройством Bluetooth. Если гарнитура Bluetooth является авторизованным устройством Bluetooth, мобильный телефон может дополнительно выполнять управляющую команду, отправленную гарнитурой Bluetooth, или выполнять такую операцию, как распознавание голоса, для голосовой информации, отправленной гарнитурой Bluetooth; в противном случае мобильный телефон может отбросить управляющую команду, отправленную гарнитурой Bluetooth. Это позволяет избежать проблем с безопасностью, вызванных злонамеренным управлением мобильным телефоном со стороны неавторизованного устройства Bluetooth.

[0159] В качестве альтернативы, мобильный телефон и авторизованное устройство Bluetooth могут заранее согласовать пароль или пароль для передачи управляющей команды. Таким образом, при отправке голосовой информации или соответствующей управляющей команды на мобильный телефон гарнитура Bluetooth может дополнительно отправить заранее согласованный пароль или пароль на мобильный телефон, чтобы мобильный телефон определил, является ли соединённая в данный момент гарнитура Bluetooth авторизованным устройством Bluetooth.

[0160] В качестве альтернативы, мобильный телефон и авторизованное устройство Bluetooth могут заранее согласовать алгоритм шифрования и алгоритм дешифрования, используемые для передачи управляющей команды. Таким образом, перед отправкой голосовой информации или соответствующей управляющей команды на мобильный телефон гарнитура Bluetooth может зашифровать управляющую команду с использованием согласованного алгоритма шифрования. После приёма зашифрованной управляющей команды, если мобильный телефон может расшифровать управляющую команду с использованием согласованного алгоритма дешифрования, это указывает, что соединённая в данный момент гарнитура Bluetooth является авторизованным устройством Bluetooth, и мобильный телефон может дополнительно выполнить управляющую команду, отправленную гарнитурой Bluetooth; или, в противном случае, это указывает на то, что соединенная в данный момент гарнитура Bluetooth является неавторизованным устройством Bluetooth, и мобильный телефон может отбросить управляющую команду, отправленную гарнитурой Bluetooth.

[0161] Следует отметить, что этапы S401 - S407 и этапы S601 - S607 представляют собой лишь два варианта реализации способа голосового управления, предложенного в данной заявке. Можно понять, что специалист в данной области техники может установить на основании фактического сценария применения или фактического опыта, какие этапы в вышеупомянутых вариантах осуществления выполняются гарнитурой Bluetooth, а какие этапы выполняются мобильным телефоном. В вариантах осуществления настоящей заявки это не ограничено.

[0162] Например, после выполнения распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента гарнитура Bluetooth может также отправить на мобильный телефон полученный результат распознавания первого голосового отпечатка и полученный результат распознавания второго голосового отпечатка, а затем мобильный телефон выполняет операцию, такую как аутентификация пользователя на основании результата распознавания голоса.

[0163] В качестве другого примера, после получения первого голосового компонента и второго голосового компонента гарнитура Bluetooth может заранее определить, нужно ли выполнять распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента. Если необходимо выполнить распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента, гарнитура Bluetooth может отправить первый голосовой компонент и второй голосовой компонент на мобильный телефон, чтобы мобильный телефон выполнял последующие операции, такие как распознавание голосового отпечатка и аутентификация личности пользователя; в противном случае гарнитуре Bluetooth не требуется отправлять на мобильный телефон первый голосовой компонент и второй голосовой компонент. Это позволяет избежать повышения энергопотребления мобильного телефона для обработки первого голосового компонента и второго голосового компонента.

[0164] Кроме того, как показано на Фиг. 7(a), пользователь может дополнительно осуществлять доступ к экрану 701 настройки мобильного телефона, чтобы активировать или деактивировать функцию голосового управления. Если пользователь активирует функцию голосового управления, пользователь может установить путём использования кнопки 702 настройки ключевое слово для инициирования функции голосового управления, например, «Xiao E» или «Оплатить», или пользователь может управлять моделью голосового отпечатка авторизованного пользователя путём использования кнопки 703 настройки, например, добавить или удалить модель голосового отпечатка авторизованного пользователя, или пользователь может установить путём использования кнопки 704 настройки управляющую команду, которая может поддерживаться голосовым помощником, например оплату, выполнение вызова или заказ еды. Таким образом пользователь может получить индивидуальные возможности голосового управления.

[0165] В некоторых вариантах осуществления данной заявки вариант осуществления данной заявки раскрывает терминал. Как показано на Фиг. 8, терминал выполнен с возможностью осуществления способов, описанных в вышеупомянутых вариантах осуществления способа, и терминал включает в себя блок 801 соединения, блок 802 получения, блок 803 распознавания, блок 804 аутентификации и исполнительный блок 805. Блок 801 соединения выполнен с возможностью поддержки терминала при выполнении процесса S401 по Фиг. 4 и процесса S601 по Фиг. 6. Блок 802 получения поддерживает терминал при выполнении процесса S404 по Фиг. 4 и процесса S606 по Фиг. 6. Блок 803 распознавания выполнен с возможностью поддержки терминала при выполнении процесса S405 по Фиг. 4. Блок 804 аутентификации выполнен с возможностью поддержки терминала при выполнении процесса S406 по Фиг. 4. Исполнительный блок 805 выполнен с возможностью поддержки терминала при выполнении процесса S407 по Фиг. 4 и процесса S607 по Фиг. 6. Все соответствующее содержание этапов в вышеупомянутых вариантах осуществления способа может быть перенесено на описание функций соответствующих функциональных модулей. Подробности здесь не описаны.

[0166] В некоторых вариантах осуществления данной заявки вариант осуществления данной заявки раскрывает носимое устройство. Как показано на Фиг. 9, носимое устройство выполнено с возможностью осуществления, описанных в вышеупомянутых вариантах осуществления способа, и носимое устройство включает в себя: блок 901 соединения, блок 902 обнаружения, блок 903 отправки, блок 904 распознавания и блок 905 аутентификации. Блок 801 соединения выполнен с возможностью поддержки терминала при выполнении процесса S401 по Фиг. 4 и процесса S601 по Фиг. 6. Блок 902 обнаружения выполнен с возможностью поддержки терминала при выполнении процессов S402 и S403 по Фиг. 4 и процессов S602 и S603 по Фиг. 6. Блок 904 распознавания выполнен с возможностью поддержки терминала при выполнении процесса S604 по Фиг. 6. Блок 905 аутентификации выполнен с возможностью поддержки терминала при выполнении процесса S605 по Фиг. 6. Блок 903 отправки выполнен с возможностью поддержки терминала при выполнении процесса S404 по Фиг. 4 и процесса S606 по Фиг. 6. Все соответствующее содержание этапов в вышеупомянутых вариантах осуществления способа может быть перенесено в описание функций соответствующих функциональных модулей. Подробности здесь не описаны.

[0167] В некоторых других вариантах осуществления данной заявки вариант осуществления данной заявки раскрывает терминал. Как показано на Фиг. 10, терминал может включать в себя сенсорный экран 1001, причём сенсорный экран 1001 включает в себя сенсорную поверхность 1006 и экран 1007 дисплея, один или более процессоров 1002, память 1003, одно или более приложений (не показаны) и одну или более компьютерных программ 1004. Вышеупомянутые компоненты могут быть соединены путём использования одной или более шин 1005 связи. Одна или более компьютерных программ 1004 сохранены в памяти 1003 и выполнены с возможностью выполнения одним или более процессорами 1002. Одна или более компьютерных программ 1004 включают в себя команду. Команда может использоваться для выполнения этапов по Фиг. 4, Фиг. 6 и соответствующих вариантов осуществления.

[0168] Приведенное выше описание вариантов реализации позволяет специалисту в данной области техники понять, что для удобства и краткости разделение вышеупомянутых функциональных модулей принято в качестве примера для иллюстрации. В фактическом применении вышеупомянутые функции могут быть назначены различным модулям и реализованы в соответствии с требованиями, то есть внутренняя структура устройства разделена на разные функциональные модули для реализации всех или некоторых функций из описанных выше. Для подробного рабочего процесса вышеупомянутой системы, устройства и блока следует обратиться к соответствующему процессу по вышеупомянутым вариантам осуществления способа, и подробности не описаны здесь повторно.

[0169] Функциональные блоки в вариантах осуществления данной заявки могут быть объединены в один блок обработки, или каждый из блоков может физически существовать отдельно, или два или более блоков могут быть объединены в один блок. Объединённый блок может быть реализован в виде аппаратных средств или может быть реализован в виде программного функционального блока.

[0170] Если объединённый блок реализован в виде программного функционального блока и продается или используется как самостоятельный продукт, объединённый блок может храниться на машиночитаемом носителе данных. На основании такого понимания, технические решения по вариантам осуществления данной заявки по существу, или в части, вносящей вклад в уровень техники, или все или некоторые из технических решений могут быть реализованы в виде программного продукта. Компьютерный программный продукт хранится на носителе данных и включает в себя несколько команд для указания вычислительному устройству (которое может быть персональным компьютером, сервером или сетевым устройством) выполнять все или некоторые из этапов способов, описанных в вариантах осуществления данной заявки. Вышеупомянутый носитель данных включает в себя: любой носитель, который может сохранять программный код, такой как флэш-память, съемный жесткий диск, постоянное запоминающее устройство, оперативное запоминающее устройство, магнитный диск или оптический диск.

[0171] Приведенное выше описание представляет собой лишь конкретные реализации вариантов осуществления данной заявки, но они не предназначены для ограничения объема охраны вариантов осуществления данной заявки. Любое изменение или замена в пределах технического объема, раскрытого в вариантах осуществления данной заявки, должны входить в объем охраны вариантов осуществления этой заявки. Следовательно, объем охраны вариантов осуществления данной заявки должен определяться объемом охраны формулы изобретения.

1. Способ голосового управления, содержащий этапы, на которых:

когда осуществляющий голосовой ввод пользователь вводит голосовую информацию в носимое устройство, выполняют посредством терминала аутентификацию личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, при этом носимое устройство соединено с возможностью осуществления связи с терминалом, первый голосовой компонент получается первым голосовым датчиком носимого устройства, а второй голосовой компонент получается вторым голосовым датчиком носимого устройства; и

если результат аутентификации личности, выполненной терминалом для осуществляющего голосовой ввод пользователя, состоит в том, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, выполняют посредством терминала управляющую команду, соответствующую голосовой информации;

причём перед выполнением посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации способ дополнительно содержит этапы, на которых:

получают посредством терминала первый результат распознавания голосового отпечатка и второй результат распознавания голосового отпечатка от носимого устройства, при этом первый результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для первого голосового компонента, а второй результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для второго голосового компонента.

2. Способ голосового управления по п. 1, в котором перед выполнением посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, способ дополнительно содержит этапы, на которых:

получают посредством терминала первый голосовой компонент и второй голосовой компонент от носимого устройства; и

выполняют посредством терминала по отдельности распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента для получения первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту.

3. Способ голосового управления по п. 2, в котором выполнение терминалом по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента содержит этапы, на которых:

выполняют посредством терминала распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента, если голосовая информация содержит заранее установленное ключевое слово; или

выполняют посредством терминала распознавание голосового отпечатка для первого голосового компонента и второго голосового компонента при приеме заранее установленной операции, введенной пользователем.

4. Способ голосового управления по п. 2 или 3, в котором выполнение терминалом по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента содержит этапы, на которых:

определяют посредством терминала, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, при этом первая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и полученной первым голосовым датчиком; и

определяют посредством терминала, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, при этом вторая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и полученной вторым голосовым датчиком; и

выполнение посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации содержит этап, на котором:

если первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя, а второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя, определяют посредством терминала, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, или в противном случае определяют посредством терминала, что осуществляющий голосовой ввод пользователь является неавторизованным пользователем.

5. Способ голосового управления по п. 4, в котором определение посредством терминала, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, содержит этапы, на которых:

вычисляют посредством терминала первую степень соответствия между первым голосовым компонентом и первой моделью голосового отпечатка авторизованного пользователя; и

если первая степень соответствия больше первой пороговой величины, определяют посредством терминала, что первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя; и

определение посредством терминала, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, содержит этапы, на которых:

вычисляют посредством терминала вторую степень соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка авторизованного пользователя; и

если вторая степень соответствия больше второй пороговой величины, определяют посредством терминала, что второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя.

6. Способ голосового управления по любому из пп. 1-5, в котором перед выполнением посредством терминала аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, способ дополнительно содержит этапы, на которых:

получают посредством терминала команду активации, отправленную носимым устройством, при этом команда активации формируется носимым устройством в ответ на активирующий голосовой ввод, введенный пользователем; и

активируют посредством терминала функцию распознавания голосового отпечатка в ответ на команду активации.

7. Способ голосового управления по любому из пп. 2-5, в котором после получения посредством терминала первого голосового компонента и второго голосового компонента от носимого устройства способ дополнительно содержит этапы, на которых:

определяют посредством терминала на основании первого голосового компонента и второго голосового компонента, содержит ли голосовая информация заранее установленное слово активации; и

активируют посредством терминала функцию распознавания голосового отпечатка, если голосовая информация содержит заранее установленное слово активации.

8. Способ голосового управления по любому из пп. 1-7, в котором, если осуществляющий голосовой ввод пользователь является авторизованным пользователем, способ дополнительно содержит этап, на котором:

автоматически выполняют посредством терминала операцию разблокировки.

9. Способ голосового управления по любому из пп. 1-8, в котором перед выполнением посредством терминала управляющей команды, соответствующей голосовой информации, способ дополнительно содержит этапы, на которых:

получают посредством терминала идентификатор носимого устройства; и

выполнение посредством терминала управляющей команды, соответствующей голосовой информации, содержит этап, на котором:

если идентификатор носимого устройства является заранее установленным идентификатором авторизованного устройства, выполняют посредством терминала управляющую команду, соответствующую голосовой информации.

10. Терминал голосового управления, содержащий:

сенсорный экран, причем сенсорный экран содержит чувствительную к прикосновениям поверхность и дисплей;

один или более процессоров;

одну или более память; и

одну или более компьютерных программ, причём одна или более компьютерных программ сохранены в одной или более памяти, одна или более компьютерных программ содержат команду, и когда команда выполняется терминалом, терминал активируется для выполнения следующих этапов:

если осуществляющий голосовой ввод пользователь вводит голосовую информацию в носимое устройство, выполнение аутентификации личности осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, при этом носимое устройство соединено с возможностью осуществления связи с терминалом, первый голосовой компонент получается первым голосовым датчиком носимого устройства, и второй голосовой компонент получается вторым голосовым датчиком носимого устройства; и

если результат аутентификации личности, выполненной для осуществляющего голосовой ввод пользователя, состоит в том, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, выполнение управляющей команды, соответствующей голосовой информации;

причём перед тем, как терминал выполнит аутентификацию личности для осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, терминал дополнительно выполнен с возможностью:

получения первого результата распознавания голосового отпечатка и второго результата распознавания голосового отпечатка от носимого устройства, при этом первый результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для первого голосового компонента, а второй результат распознавания голосового отпечатка получается после того, как носимое устройство выполняет распознавание голосового отпечатка для второго голосового компонента.

11. Терминал по п. 10, в котором перед тем, как терминал выполнит аутентификацию личности для осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, терминал дополнительно выполнен с возможностью:

получения первого голосового компонента и второго голосового компонента от носимого устройства; и

выполнения по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента для получения первого результата распознавания голосового отпечатка, соответствующего первому голосовому компоненту, и второго результата распознавания голосового отпечатка, соответствующего второму голосовому компоненту.

12. Терминал по п. 11, причём выполнение посредством терминала по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента конкретно содержит:

выполнение распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента, если голосовая информация содержит заранее установленное ключевое слово; или

выполнение распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента при получении заранее установленной операции, введенной пользователем.

13. Терминал по п. 11 или 12, причём выполнение посредством терминала по отдельности распознавания голосового отпечатка для первого голосового компонента и второго голосового компонента конкретно содержит:

определение, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, при этом первая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и полученной первым голосовым датчиком; и

определение, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, при этом вторая модель голосового отпечатка используется для отражения звуковой характеристики, принадлежащей авторизованному пользователю и полученной вторым голосовым датчиком; и

выполнение посредством терминала аутентификации личности для осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации конкретно содержит:

если первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя, а второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя, определение, что осуществляющий голосовой ввод пользователь является авторизованным пользователем, или в противном случае определение, что осуществляющий голосовой ввод пользователь является неавторизованным пользователем.

14. Терминал по п. 13, в котором определение посредством терминала, соответствует ли первый голосовой компонент первой модели голосового отпечатка авторизованного пользователя, конкретно содержит:

вычисление первой степени соответствия между первым голосовым компонентом и первой моделью голосового отпечатка авторизованного пользователя; и

если первая степень соответствия больше первой пороговой величины, определение, что первый голосовой компонент соответствует первой модели голосового отпечатка авторизованного пользователя; и

определение посредством терминала, соответствует ли второй голосовой компонент второй модели голосового отпечатка авторизованного пользователя, конкретно содержит:

вычисление второй степени соответствия между вторым голосовым компонентом и второй моделью голосового отпечатка авторизованного пользователя; и

если вторая степень соответствия больше второй пороговой величины, определение, что второй голосовой компонент соответствует второй модели голосового отпечатка авторизованного пользователя.

15. Терминал по любому из пп. 10-14, в котором перед тем, как терминал выполняет аутентификацию личности для осуществляющего голосовой ввод пользователя на основании первого результата распознавания голосового отпечатка для первого голосового компонента в голосовой информации и второго результата распознавания голосового отпечатка для второго голосового компонента в голосовой информации, терминал дополнительно выполнен с возможностью:

получать команды активации, отправленной носимым устройством, при этом команда активации формируется носимым устройством в ответ на активирующий голосовой ввод, введенный пользователем; и

активации функции распознавания голосового отпечатка в ответ на команду активации.

16. Терминал по любому из пп. 11-14, в котором после получения посредством терминала первого голосового компонента и второго голосового компонента от носимого устройства терминал дополнительно выполнен с возможностью:

определения на основании первого голосового компонента и второго голосового компонента, содержит ли голосовая информация заранее установленное слово активации; и

активации функции распознавания голосового отпечатка, если голосовая информация содержит заранее установленное слово активации.

17. Терминал по любому из пп. 10-16, в котором, если осуществляющий голосовой ввод пользователь является авторизованным пользователем, терминал дополнительно выполнен с возможностью:

автоматического выполнения операции разблокировки.

18. Терминал по любому из пп. 10-17, в котором перед выполнением посредством терминала управляющей команды, соответствующей голосовой информации, терминал дополнительно выполнен с возможностью:

получения идентификатора носимого устройства; и

выполнения посредством терминала управляющей команды, соответствующей голосовой информации, конкретно содержит:

если идентификатор носимого устройства является заранее установленным авторизованным идентификатором устройства, выполнение управляющей команды, соответствующей голосовой информации.

19. Машиночитаемый носитель данных, причём машиночитаемый носитель данных хранит команду, и когда команда выполняется на терминале, терминал активируется для выполнения способа голосового управления по любому из пп. 1-9.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности разметки (сегментации) аудиосигнала с малой погрешностью и с малым энергопотреблением на основе данных, полученных с двух микрофонов, в том числе в режиме реального времени.

Способ и система аутентификации пользователя с помощью голосовой биометрии // 2747935

Изобретение относится к области вычислительной техники для аутентификации пользователя с помощью голосовой биометрии. Технический результат заключается в повышении надежности аутентификации пользователя с помощью голосовой биометрии и устойчивости к атакам.

Способ и система определения говорящего пользователя управляемого голосом устройства // 2744063

Изобретение относится к системам для определения личности говорящего пользователя управляемого голосом устройства. Технический результат заключается в повышении точности идентификации определенного говорящего пользователя.

Биометрический способ идентификации абонента по речевому сигналу // 2742040

Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента.

Способ и устройство аутентификации личности // 2738325

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и надежности аутентификации личности.

Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель // 2730449

Изобретение относится к области обработки данных. Технический результат заключается в расширении арсенала средств.

Способ верификации голосовых биометрических данных // 2723902

Изобретение относится к области вычислительной техники, в частности к технологиям верификации пользователей. Технический результат заключается в повышении безопасности верификации голосовых биометрических данных и защиты от фальсификации голосовых биометрических данных.

Способ и оборудование распознавания эмоций в речи // 2720359

Изобретение относится к средствам для распознавания эмоций в речи. Технический результат заключается в повышении точности распознавания эмоций.

Способ диагностики психоэмоционального состояния по голосу // 2718868

Изобретение относится к средствам распознавания эмоциональных состояний человека по анализу голосового сигнала. Технический результат заключается в повышении точности определения психоэмоционального состояния человека.

Способ приема речевых сигналов // 2716556

Изобретение относится к области обработки и преобразования акустических сигналов в электрические в роботе. Техническим результатом является снижение помех и уменьшение уровня звукового сигнала от громкоговорителей робота.

Способ корректировки параметров модели машинного обучения для определения ложных срабатываний и инцидентов информационной безопасности // 2763115

Изобретение относится к вычислительной технике. Технический результат заключается в снижении количества ложных срабатываний.