MULTIMODAL KEY QUESTIONS

Considerando que:

os frames podem ser um sistema de representação de conhecimento independente de uma modalidade específica;
para a modalidade verbal a anotação inclui outras camadas que não a de elemento de frame (função gramatical e tipo sintagmático);
a anotação multicamadas gera padrões de instanciação dos itens linguísticos que evocam frame.

Pergunta-se:

Quais seriam as demais camadas de anotação dos elementos visuais para além dos elementos de frame e do tamanho relativo das bounding boxes que os instanciam?
Que tipo de métrica pode ser extraída das combinações dos padrões de instanciação verbal e visual?
Existe direcionalidade padrão no domínio da multimodalidade, ou seja, a compreensão multimodal se dá do verbal para o visual, do visual para o verbal, simultaneamente ou de maneira variada?

Provide feedback

Saved searches