ИИ научился распознавать объекты на картинках по голосовому описанию

Уже достаточно давно существует технология распознавания речи. Как и функция распознавания изображения. Так почему бы их не совместить, улучшив сразу обе? Видимо, именно так и подумали эксперты из Массачусетского технического университета (MIT), разработав алгоритм, способный определить отдельные объекты на изображении, основываясь лишь на речевом описании.


О весьма интересной технологии пишет издание Engadget. Устройство нейросети довольно просто: она состоит из двух взаимодействующих между собой частей. Первая работает непосредственно с изображением – она разделяет его на сетку из ячеек, в то время как вторая отвечает за обработку аудио сигнала. Входящее сообщение разделяется на короткие 1-2 секундные отрезки. После этого программа проверяет, насколько каждая ячейка разделенного изображения соответствует каждому 1-2 секундному аудиофайлу. Сами разработчики сравнивают такой метод с общением с ребенком, когда вы указываете ему на объекты и говорите ему их названия.

Для новой технологии есть довольно большой спектр применений, самый очевидный из которых – интеграция в поисковые системы, однако разработчикам больше по душе использование системы в качестве инструмента для переводов, способных распознать язык и подобрать подходящие слова с точностью до 100%.

«Вместо того, чтобы давать программе задание использовать «прямой» перевод, можно сделать его контекстно-зависимым и научить систему переводить на разные языки описания и назначения объектов в зависимости от ситуации.»

Эту и другие новости вы всегда можете обсудить в нашем чате в Телеграме.

Похожие записи