Классификация и кодирование аудиосигналов - заявка 2016148874 на патент на изобретение в РФ

1. Способ для декодирования аудиосигнала, при этом способ содержит этапы, на которых:
- для кадра m:
- определяют (201) значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирают (204) режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и
- применяют (205) выбранный режим декодирования.
2. Способ по п. 1, дополнительно содержащий этапы, на которых:
- подвергают (202) фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности;
- преобразуют (203) фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
3. Способ по п. 1 или 2, в котором выбор режима декодирования содержит этап, на котором определяют то, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
4. Способ по любому из предшествующих пунктов, в котором, по меньшей мере, один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим декодирования является более подходящим для музыки, чем для речи.
5. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
6. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале.
7. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
8. Способ по любому из пп. 1-4, в котором выбор режима декодирования дополнительно основан на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
9. Способ по любому из предшествующих пунктов, в котором значение D(m) стабильности определяется следующим образом:
D(m)= 1 b end b start +1 b= b start b end ( E(m,b)E(m1,b) ) 2 ,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
10. Декодер для декодирования аудиосигнала, причем декодер выполнен с возможностью:
- для кадра m:
- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и в
- применять выбранный режим декодирования.
11. Декодер по п. 10, дополнительно выполненный с возможностью:
- подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности; и в
- преобразовывать (203) фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
12. Декодер по п. 10 или 11, в котором выбор режима декодирования выполнен с возможностью содержать определение того, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
13. Декодер по любому из пп. 10-12, в котором, по меньшей мере, один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим декодирования является более подходящим для музыки, чем для речи.
14. Декодер по любому из пп. 10-13, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
15. Декодер по любому из пп. 10-14, в котором выбор режима декодирования выполнен с возможностью быть основанным на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
16. Декодер по любому из пп. 10-13, выполненный с возможностью дополнительно основывать выбор режима декодирования на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
17. Декодер по любому из пп. 10-16, выполненный с возможностью определять значение D(m) стабильности следующим образом:
,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
18. Способ для кодирования аудиосигнала, при этом способ содержит этапы, на которых:
- для кадра m:
- определяют (201) значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирают (204) режим кодирования из множества режимов кодирования на основе значения D(m) стабильности; и
- применяют (205) выбранный режим кодирования.
19. Способ по п. 18, дополнительно содержащий этапы, на которых:
- подвергают (202) фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности;
- преобразуют (203) фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима кодирования основан на параметре S(m) стабильности.
20. Способ по п. 18 или 19, в котором выбор режима кодирования содержит этап, на котором определяют то, содержит ли сегмент аудиосигнала, представленного в кадре m, речь или музыку.
21. Способ по любому из пп. 18-20, в котором, по меньшей мере, один режим кодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим кодирования является более подходящим для музыки, чем для речи.
22. Способ по любому из пп. 18-22, в котором выбор режима кодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале.
23. Способ по любому из пп. 18-23, в котором выбор режима кодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
24. Способ по любому из пп. 18-23, в котором выбор режима декодирования дополнительно основан на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
25. Способ по любому из пп. 18-24, в котором значение D(m) стабильности определяется следующим образом:
D(m)= 1 b end b start +1 b= b start b end ( E(m,b)E(m1,b) ) 2 ,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
26. Кодер для кодирования аудиосигнала, причем кодер выполнен с возможностью:
- для кадра m:
- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирать режим кодирования из множества режимов кодирования на основе значения D(m) стабильности; и в
- применять выбранный режим кодирования.
27. Кодер по п. 26, дополнительно выполненный с возможностью:
- подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности; и в
- преобразовывать (203) фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима кодирования основан на параметре S(m) стабильности.
28. Кодер по п. 26 или 27, в котором выбор режима кодирования выполнен с возможностью содержать определение того, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
29. Кодер по любому из пп. 26-28, в котором, по меньшей мере, один режим кодирования из множества режимов кодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим кодирования является более подходящим для музыки, чем для речи.
30. Кодер по любому из пп. 26-29, в котором выбор режима кодирования выполнен с возможностью быть основанным на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
31. Кодер по любому из пп. 26-30, выполненный с возможностью дополнительно основывать выбор режима кодирования на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
32. Кодер по любому из пп. 26-31, выполненный с возможностью определять значение D(m) стабильности следующим образом:
,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
33. Способ для классификации аудиосигналов, при этом способ содержит этапы, на которых:
- для кадра m аудиосигнала:
- определяют значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала; и
- классифицируют аудиосигнал на основе значения D(m) стабильности.
34. Способ для классификации аудиосигналов по п. 33, дополнительно содержащий этап, на котором указывают определенный класс сигналов кодеру или декодеру.
35. Классификатор аудиосигналов, выполненный с возможностью:
- для кадра m аудиосигнала:
- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- классифицировать аудиосигнал на основе значения D(m) стабильности.
36. Классификатор аудиосигналов по п. 35, дополнительно выполненный с возможностью указывать определенный класс сигналов кодеру или декодеру.
37. Хост-устройство, содержащее декодер по любому из пп. 10-17.
38. Хост-устройство, содержащее кодер по любому из пп. 26-31.
39. Хост-устройство, содержащее классификатор сигналов по любому из пп. 35-36.
40. Хост-устройство по п. 39, выполненное с возможностью выбирать способ для маскирования ошибок, из множества способов для маскирования ошибок, на основе результата классификации, выполненной посредством классификатора сигналов.
41. Компьютерная программа, содержащая инструкции, которые при выполнении, по меньшей мере, на одном процессоре инструктируют, по меньшей мере, одному процессору осуществлять способ по любому из пп. 1-9, 18-25 или 33-34.
42. Несущий элемент, содержащий компьютерную программу по предыдущему пункту, при этом несущий элемент представляет собой одно из электронного сигнала, оптического сигнала, радиосигнала или машиночитаемого носителя хранения данных.
Наверх