Система и способ для использования возможностей контента и метаданных цифровых изображений для нахождения соответствующего звукового сопровождения



Система и способ для использования возможностей контента и метаданных цифровых изображений для нахождения соответствующего звукового сопровождения
Система и способ для использования возможностей контента и метаданных цифровых изображений для нахождения соответствующего звукового сопровождения
Система и способ для использования возможностей контента и метаданных цифровых изображений для нахождения соответствующего звукового сопровождения

 


Владельцы патента RU 2444072:

КОНИНКЛЕЙКЕ ФИЛИПС ЭЛЕКТРОНИКС, Н.В. (NL)

Предложены система, устройство и способ для автоматического проигрывания/предложения звукового сопровождения, в то время как последовательность цифровых изображений отображается таким образом, что звуковое сопровождение соответствует контенту специфической последовательности изображений и соответствует любым предоставленным и/или созданным метаданным изображения. Поисковые термины выводятся из самих изображений, а также из любых метаданных, предоставленных пользователем. Затем эти поисковые термины используются для нахождения звукового сопровождения, которое или содержит эти поисковые термины или их синонимы в изображении или ассоциированном тексте (например, тексте песни), или представляет звук, как правило, ассоциированный с изображениями, такой как звук бегущей воды для изображения быстро текущего ручейка. Техническим результатом является автоматическое воспроизведение звукового сопровождения, соответствующего контенту цифровых изображений. 3 н. и 14 з.п. ф-лы, 3 ил.

 

Данное изобретение относится к использованию метаданных последовательности цифровых изображений, чтобы идентифицировать и связать с ними звуковое сопровождение, включая музыку и звук, имеющие текст и метаданные, которые аналогичны метаданным изображения, и создать последовательность, объединенную с идентифицированным звуком для презентации пользователю в качестве предлагаемого списка проигрывания (плей-листа) или в качестве смотрового и звукового показа.

Все чаще и чаще системы потребителя сочетают хранение и воспроизведение различных типов контента. В результате система, которую пользователь использует для воспроизведения цифровых фотографий, часто к тому же будет в состоянии воспроизвести музыкальное сопровождение во время отображения этих фотографий. Проблема состоит в том, что эта возможность вводит дополнительную задачу для пользователя, а именно найти и выбрать соответствующую музыку для сопровождения демонстрации фотослайдов (последовательности цифровых изображений).

Следовательно, нужен способ, чтобы автоматически воспроизвести (или предлагать) звуковое сопровождение, которое соответствует контенту конкретной последовательности цифровых изображений.

В одном варианте осуществления система, устройство и способ согласно данному изобретению обеспечивают возможность использовать метаданные цифровых изображений (таких как фотографии, фотоальбомы, домашнее видео) для поиска музыки, которая содержит текст песни, имеющий отношение к этим фотографиям.

Чтобы достигнуть этого:

(1) текстовые метки выводятся из (набора/последовательности) изображений или из метаданных изображений, и

(2) эти текстовые метки или ключевые фразы включают в себя, по меньшей мере, одно ключевое слово и используются, чтобы найти звуковое сопровождение, которое содержит такие же ключевые фразы в заголовке музыки или в (основных/главных) частях текста песни, ассоциированных с музыкой или с метаданными звукозаписи.

Ко многим классическим музыкальным произведениям были написаны слова, например "Я всегда преследую радуги" - это песня, написанная на музыку “Fantasie Impromptu” Шопена. Также множество музыкальных произведений, которые не содержат никаких слов, являются подходящими как музыкальный фон для демонстраций слайдов, например демонстрация слайдов морского курорта ассоциирована со звуками океана. В дополнение к музыке, звуковые дорожки предоставлены как звуковое сопровождение. Эти последние упомянутые звуковые сопровождения должны иметь ассоциированные метаданные, описывающие их контент.

ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ

Фиг.1 иллюстрирует функциональную блок-схему последовательности операций способа согласно данному изобретению;

фиг.2 иллюстрирует устройство согласно данному изобретению для того, чтобы ассоциировать музыку с песнями; и

фиг.3 иллюстрирует систему согласно данному изобретению.

Специалисты в данной области техники должны понимать, что последующие описания предоставляются в качестве примера, а не ограничения. Специалист понимает, что есть множество вариаций, которые заложены в сущности изобретения и объеме, определенном приложенной формулой изобретения. Ненужные детали известных функций и операций могут быть пропущены в текущем описании, чтобы не делать данное изобретение неясным.

В предпочтительном варианте осуществления контент цифрового изображения и характеристики, предоставленные пользователем, используются, чтобы получить текстовые метки (метаданные изображения), которые могут быть ключевой фразой, включающей в себя по меньшей мере одно ключевое слово, полученное из предоставленного пользователем названия/метки изображения, или ключевой фразой, полученной из текстовой аннотации изображения. В предпочтительном варианте осуществления контент последовательности изображений распознается, используя оптическое распознавание символов (OCR) для текстового контента, распознавание сцен изображения для сцен и распознавание объектов изображения для объектов (включая людей и животных). Характеристики изображения, предоставленные пользователем, обрабатываются как метаданные изображения и могут включать в себя такие элементы, как специфические для конкретного пользователя данные (например, этническая принадлежность, пол, возраст, вид деятельности), информацию времени создания и места создания изображения(й), которые преобразовываются в значащие имена или в ключевые фразы, включающие в себя стандартизированные ключевые слова и описывающие наиболее вероятное происходящее событие и местоположение (например, день рождения, Рождество, Нью-Йорк, Париж, летний праздник…).

В одном варианте осуществления алгоритмы анализа контента изображения используются, чтобы классифицировать пейзаж изображений и предоставлять метаданные, описывающие изображения, которые могут использоваться в качестве поисковых терминов для осуществления поиска в базе данных, индексированных по ключевым фразам звуковых сопровождений. Слова или метки, ассоциированные с таким классом, также используются для получения текстовых меток (метаданных изображения), которые затем используются, чтобы найти соответствующий звуковой контент. Например, можно выявить зимнюю сцену из полной белизны. Идентификация такой характеристики преобразовывается в некоторые текстовые метаданные (метку), такие как зима, снег, белизна. Эти метаданные могут затем использоваться для поиска звукозаписи, имеющей тексты песен и звуковые метаданные о зиме, снеге и т.д.

В предпочтительном варианте осуществления метаданные для изображения комбинируются. Например, информация о времени может быть преобразована в "Рождество", тогда как информация анализа сцены дает в результате (из числа других слов) "Белизна". Данное изобретение находит песню "Белое Рождество" в этом примере и звук падающего снега.

В предпочтительном варианте осуществления выбранное звуковое сопровождение растягивается во времени, чтобы покрыть последовательность изображений, потому как, в общем, не желательно для подобной последовательности изображений перескакивать на другое звуковое сопровождение для каждого из составляющих изображений. Поэтому предпочтительней объединить метаданные, доступные для последовательности изображений, в описание целой последовательности. Тогда, используя объединенные метаданные, может быть выбрано по меньшей мере одно звуковое сопровождение, которое подходит для всей последовательности изображений.

Далее, в альтернативном варианте осуществления преобразование метаданных в значимые текстовые метки улучшено наличием доступной информации о пользователе (например, собственное географическое положение для обеспечения соответствующего уровня детализации местоположения, региональный/культурный фон для получения подходящих событий, личная/семейная информация для того, чтобы определить праздники, и т.д.).

В предпочтительном варианте осуществления звуковые эффекты предоставляются как звуковое сопровождение, которое имеет отношение к метаданными изображения(й). Например, демонстрация слайдов вечеринки может быть украшена звуком стаканов. Изображение толпы может инициировать звук бормотания.

Ссылаясь теперь на фигуру 1, проиллюстрирован один пример блок-схемы последовательности операций предпочтительного варианта осуществления способа согласно данному изобретению. На этапе 102 изображение или последовательность изображений 101 вводятся наряду с ассоциированными метаданными 101, которые являются, по меньшей мере, одними из принятых и созданных по меньшей мере для одного изображения, и изображение и метаданные затем сохраняются в краткосрочной постоянной памяти 103. Метаданные изображения могут быть введены пользователем или могут быть получены согласно данному изобретению и могут включать в себя: дату, время, событие, местоположение, взаимосвязь изображения с пользователем или другой описатель. Система, устройство и способ согласно данному изобретению могут включать в себя словарь терминов и их синонимов 104.1, используемых для того, чтобы привести любые метаданные, введенные пользователем, к стандартному набору, например мам, мать, ма, мама и т.д. все относятся к идентичной характеристике "мама" изображения.

Подобным образом способ 100 согласно данному изобретению может включать в себя возможности анализа изображения для создания метаданных изображения, например белой зимней сцены. Оба типа метаданных, содержащих введенные пользователем метаданные и созданные системой метаданные, сохраняются в постоянной памяти 103 вместе с последовательностью изображений, и по меньшей мере один тип должен быть сохранен для системы 300, устройства 200 и способа 100 согласно данному изобретению, чтобы обнаружить соответствующее звуковое сопровождение для вводимой последовательности изображений.

Предусмотрена база данных звукового сопровождения 104, которая ранее была аннотирована (индексирована) стандартизированными метаданными звукового сопровождения. Используя стандартизированные захваченные/созданные метаданные изображения, сохраненные в краткосрочной постоянной памяти 103, на этапе 105 в предоставленной базе данных музыки 104 осуществляется поиск соответствующих метаданных музыки. На этапе 106 все соответствующие метаданные музыки компонуются в плей-лист, ассоциированный с изображением (изображениями), и сохраняются в постоянной памяти 103. В предпочтительном варианте осуществления также выводится степень соответствия, например изображение зимы и белого фона, и предоставленная пользователем дата 25 декабря приведет к 100%-ному совпадению с "Белым Рождеством" и меньшему совпадению с "Ходьбой В Зимней Стране чудес". На этапе 107 результаты поиска извлекаются из постоянной памяти 103, и наилучшее соответствие либо проигрывается, либо предоставляется в ранжированном списке предлагаемых музыкальных сопровождений, во время отображения изображений. В предпочтительном варианте осуществления и изображения, и звуковые аннотации сохраняются в базе данных 108 для последующего извлечения, отображения и проигрывания.

Ссылаясь теперь на фигуру 2, проиллюстрировано устройство 200 для того, чтобы ассоциировать звуковые сопровождения с изображениями, в то время как изображения отображаются, или представить пользователю плей-лист звуковых сопровождений. Устройство включает в себя модуль захвата/создания 201 метаданных изображения, который принимает изображение, последовательность изображений и метаданные, описывающие изображение и последовательность изображений. Метаданные включают в себя дату, время, время года, событие, отношение к пользователю, имя (имена) персоны (персон)/домашнего животного (животных), местоположение изображения и последовательности изображений. Введенные пользователем метаданные захватываются модулем 201 и также создаются модулем 201 посредством анализа изображения, например океан или озеро, острова и т.д. Как только изображение и его метаданные захвачены и метаданные для введенной последовательности изображений созданы модулем 201, они сохраняются в краткосрочной постоянной памяти 103. Тогда модуль 203 поиска/ассоциирования осуществляет поиск по базе данных 104 на предмет соответствующих звуковых сопровождений, основываясь на метаданных, и модуль 204 предложения/проигрывания выполняет по меньшей мере одно из предложения плей-листа и проигрывания наиболее релевантного звукового сопровождения, найденного в результате поиска. Устройство 200 дополнительно содержит модуль 202 отображения последовательности изображений для отображения последовательности изображений одновременно с проигрыванием модулем 204 предложения/проигрывания звукового сопровождения, являющегося результатом поиска. В предпочтительном варианте осуществления результаты сохраняются в базе данных 108 аннотированных изображений для будущего извлечения и проигрывания. Каждый из модуля 201 захвата/создания метаданных изображения и модуля 203 поиска/ассоциирования предпочтительно сконфигурирован для сохранения последовательности изображений, метаданных и звукового сопровождения, являющегося результатом поиска, в базе данных 108, а каждый из модуля 204 предложения/проигрывания звукового сопровождения и модуля 202 отображения последовательности изображений предпочтительно сконфигурирован для извлечения последовательности изображений и ассоциированных метаданных из базы данных 108 для одновременного их отображения и проигрывания. Постоянная память 103 является относительно краткосрочной памятью, действующей только пока пользователь желает, чтобы устройство отображения, которое включает в себя устройство 200, отображало последовательность изображений.

Ссылаясь теперь на фиг.3, иллюстрируется система 300, включающая в себя устройство 200 по фиг.2. Система дополнительно содержит устройство 302 отображения и устройство 301 проигрывания звукового сопровождения, каждое из которых функционально связано с устройством 200. Система 300 принимает цифровой контент изображений и метаданные, введенные таким образом пользователем 101, и, используя устройство 200 по фиг.2, создает дополнительные метаданные изображений, при необходимости с помощью словаря 104.1, чтобы найти соответствующее звуковое сопровождение в базе данных 104, сохраняя результирующее звуковое сопровождение, ассоциированное с введенной последовательностью, в краткосрочной постоянной памяти 103. Тогда система или проигрывает, через устройство 301 проигрывания звукового сопровождения, звуковое сопровождение при отображении устройством 302 отображения изображения/последовательности, или предлагает, посредством устройства 302 отображения, плей-лист результатов пользователю. Результаты и изображение(я) могут также быть сохранены в базе данных 108 аннотированных изображений для будущего извлечения и просмотра.

Хотя предпочтительный вариант осуществления данного изобретения был иллюстрирован и описан, специалисты поймут, что система, устройство и способ, описанные здесь, являются иллюстративными и различные изменения и модификации могут быть реализованы и элементы могут быть заменены эквивалентами, не отступая от истинного объема данного изобретения. В дополнение, множество модификаций могут быть сделаны, чтобы адаптировать идеи данного изобретения к специфическому воспроизведению изображений с установленным звуком/звуковыми эффектами, не отступая от его объема. Поэтому подразумевается, что данное изобретение не будет ограничено специфическими вариантами осуществления, рассмотренными как наилучший способ для осуществления данного изобретения, но чтобы данное изобретение включало в себя все варианты осуществления, подпадающие под объем, определенный приложенной формулой изобретения.

1. Способ использования метаданных контента, ассоциированных с последовательностью из по меньшей мере одного изображения (101), чтобы предоставить звуковое сопровождение для него, включающий в себя этапы, на которых
получают текстовую метку из метаданных контента,
выявляют соответствующее (105) звуковое сопровождение в базе данных (104), используя метаданные контента, ассоциированные с упомянутой последовательностью, и
предоставляют выявленное звуковое сопровождение (107) в качестве сопровождения для этой последовательности,
отличающийся тем, что упомянутое соответствующее звуковое сопровождение выявляют в базе данных посредством поиска по базе данных с использованием текстовой метки в качестве поискового термина.

2. Способ по п.1, отличающийся тем, что метаданные контента включают в себя дату, время, событие, местоположение, отношение изображения к пользователю, пользовательские характеристики и являющуюся описателем ключевую фразу.

3. Способ по п.1, отличающийся тем, что дополнительно включает в себя этапы, на которых
обеспечивают словарь стандартных метаданных контента и их синонимов (104.1) и
используют словарь (104.1) для приведения метаданных контента, ассоциированных с упомянутой последовательностью (101), к стандартным метаданным контента (104.1).

4. Способ по п.3, отличающийся тем, что метаданные контента включают в себя дату, время, событие, местоположение, отношение изображения к пользователю и являющуюся описателем ключевую фразу.

5. Способ по п.1, отличающийся тем, что метаданные контента, ассоциированные с упомянутой последовательностью, предоставлены пользователем или получены посредством анализа контента упомянутого по меньшей мере одного изображения.

6. Способ по п.5, отличающийся тем, что анализ контента выбирается из группы, состоящей из оптического распознавания символов текста, распознавания сцен изображения и распознавания объектов изображения.

7. Способ по п.5, отличающийся тем, что этап предоставления дополнительно включает в себя изначальное выполнение этапа, на котором компонуют (106) выявленное звуковое сопровождение в список проигрывания, ассоциированный с упомянутой последовательностью.

8. Способ по п.7, отличающийся тем, что дополнительно включает в себя этапы, на которых
сохраняют упомянутую последовательность и выявленное для нее звуковое сопровождение в краткосрочной постоянной памяти (103) и
до этапа предоставления извлекают сохраненную последовательность и выявленное для нее звуковое сопровождение.

9. Способ по п.8, отличающийся тем, что метаданные контента включают в себя данные пользователя, дату, время, событие, местоположение, отношение изображения к пользователю, имя личности на изображении, имя домашнего животного на изображении, заголовок изображения, время года, температуру, широту, долготу, размер, часть тела, цвет и являющуюся описателем ключевую фразу.

10. Способ по п.9, отличающийся тем, что дополнительно включает в себя этапы, на которых
обеспечивают словарь стандартных метаданных контента и их синонимов (104.1) и
используют словарь (104.1) для приведения метаданных контента, ассоциированных с упомянутой последовательностью (101), к стандартным метаданных контента (104.1).

11. Способ по п.10, отличающийся тем, что этап выявления дополнительно включает в себя этап, на котором получают степень соответствия; и этап предоставления дополнительно включает в себя этап, на котором изначально упорядочивают предоставленное звуковое сопровождение по степени соответствия от самой низкой до самой высокой.

12. Способ по п.10, отличающийся тем, что этап предоставления дополнительно включает в себя этапы, на которых
сохраняют последовательность, ассоциированную с выявленным звуковым сопровождением, в базе данных (108) аннотированных изображений и
извлекают сохраненную последовательность и ассоциированное звуковое сопровождение из базы данных (108) аннотированных изображений.

13. Устройство (200), которое ассоциирует звуковое сопровождение с последовательностью из по меньшей мере одного изображения, имеющего контент для одновременного представления с ним, включающее в себя
модуль (201) захвата/создания изображения/метаданных для захвата упомянутой последовательности и для захвата и создания метаданных, описывающих контент упомянутого по меньшей мере одного изображения,
модуль (203) поиска/ассоциирования метаданных звукового сопровождения, который осуществляет поиск звукового сопровождения в базе данных (104) звукового сопровождения, используя текстовую метку, полученную из метаданных контента, как поисковый термин,
модуль (204) предложения/проигрывания звукового сопровождения для предложения списка проигрывания звуковых сопровождений, являющихся результатом поиска, при этом список проигрывания ассоциирует звуковые сопровождения с упомянутой последовательностью, и
модуль (202) отображения последовательности изображений для одновременного отображения упомянутой последовательности, когда модуль (204) предложения/проигрывания звукового сопровождения проигрывает звуковое сопровождение, являющееся результатом поиска,
отличающееся тем, что соответствующее звуковое сопровождение выявляется в упомянутой базе данных посредством поиска по упомянутой базе данных с использованием текстовой метки в качестве поискового термина.

14. Устройство (200) по п.13, отличающееся тем, что дополнительно включает в себя базу данных (108) аннотированных изображений, при этом каждый из модуля (201) захвата/создания изображения/метаданных и модуля (203) поиска/ассоциирования метаданных звукового сопровождения дополнительно сконфигурирован для сохранения упомянутой последовательности, метаданных и выявленного звукового сопровождения в базе данных (108) аннотированных изображений, и при этом каждый из модуля (204) предложения/проигрывания звукового сопровождения и модуля (202) отображения последовательности изображений дополнительно сконфигурирован для извлечения последовательности и ассоциированных метаданных из базы данных (108), аннотированных изображений для одновременного их отображения и проигрывания.

15. Устройство (200) по п.13, отличающееся тем, что модуль (201) захвата/создания изображения/метаданных дополнительно сконфигурирован для создания метаданных, используя методики анализа контента изображения.

16. Устройство (200) по п.15, отличающееся тем, что методики анализа контента изображения выбираются из группы, состоящей из оптического распознавания символов текста, распознавания сцен изображения, распознавания объектов изображения.

17. Система (300) для звукового сопровождения последовательности из по меньшей мере одного цифрового изображения, включающая в себя
устройство (302) отображения,
устройство (301) проигрывания звукового сопровождения и
устройство (200) по п.16, функционально связанное с устройством (302) отображения и устройством (301) проигрывания звукового сопровождения,
при этом устройство (200) принимает последовательность из по меньшей мере одного изображения и первых метаданных изображения (101), получает вторые метаданные изображения, используя методики (102) анализа контента, выявляет соответствующее звуковое сопровождение, используя первые и вторые метаданные, и затем либо устройство (301) проигрывания звукового сопровождения проигрывает звуковое сопровождение при отображении устройством (302) отображения упомянутой последовательности либо устройство (302) отображения предлагает пользователю список проигрывания, соответствующий результатам.



 

Похожие патенты:

Изобретение относится к носителю записи, такому как BD-ROM, и устройству воспроизведения и, в частности, касается способа создания субтитров путем воспроизведения цифрового потока, образованного мультиплексированием видеопотока и графического потока.

Изобретение относится к области цифровой записи потоков данных на перезаписываемые носители с защитой данных от дефектов носителей и может быть использовано в измерительных, компьютерных и мультимедийных системах записи и хранения данных.

Изобретение относится к области адаптивной аналоговой записи потоков цифровой информации с защитой от дефектов носителя. .

Изобретение относится к устройству воспроизведения информации и способу выполнения воспроизведения на носителе для записи информации, таком как оптический диск. .

Изобретение относится к носителю записи, а более конкретно - к файловой структуре диска для эффективного воспроизведения данных, имеющих различные атрибуты, записанных в носителе записи, а также к способу и устройству воспроизведения данных, записанных в носителе данных, и данных, загруженных от поставщика контента (СР).

Изобретение относится к области цифровой записи потоков кодовых групп на перезаписываемые и неперезаписываемые носители с защитой информации от дефектов носителя и может быть использовано в информационно-измерительных, компьютерных и мультимедийных системах записи и хранения данных

Изобретение относится к способу записи информации на многослойный носитель записи
Наверх