MMID是一个大规模,大规模多语种的图像数据集,与它们所代表的单词在宾夕法尼亚大学收集。数据集是双重平行的:对于每种语言 ...
视觉问题解答数据集包含100,000个图像和999,968个问题。100,000 张图片,file_type:JSON,任务:问题解答,视觉