MULTIMODAL KEY QUESTIONS
Considerando que:
- os frames podem ser um sistema de representação de conhecimento independente de uma modalidade específica;
- para a modalidade verbal a anotação inclui outras camadas que não a de elemento de frame (função gramatical e tipo sintagmático);
- a anotação multicamadas gera padrões de instanciação dos itens linguísticos que evocam frame.
Pergunta-se:
-
Quais seriam as demais camadas de anotação dos elementos visuais para além dos elementos de frame e do tamanho relativo das bounding boxes que os instanciam?
-
Que tipo de métrica pode ser extraída das combinações dos padrões de instanciação verbal e visual?
-
Existe direcionalidade padrão no domínio da multimodalidade, ou seja, a compreensão multimodal se dá do verbal para o visual, do visual para o verbal, simultaneamente ou de maneira variada?