La vision par ordinateur est un domaine d'étude multidisciplinaire qui tente d'aider les ordinateurs à lire et à comprendre des images numériques de la même manière que le système optique humain. De manière générale, cela inclut l'intelligence informatique et l'apprentissage automatique. Il est basé sur la compréhension du contexte visuel, et pas seulement sur le contenu écrit ou catalogué sur une image ou une vidéo (comme une description textuelle artificielle intégrée dans l'image ou la vidéo pour aider à la localiser dans un système informatique). La vision par ordinateur a été discutée dans les communautés scientifiques depuis les années 1960, mais elle a eu du mal à faire des progrès significatifs, principalement parce que l'analyse d'image et le contexte sont très complexes et que le système optique humain dépasse de loin toute capacité de calcul.
Récemment, l'apprentissage en profondeur a permis aux systèmes informatiques de mieux analyser les images en leur montrant des images. Au fil du temps, l'ordinateur apprend à identifier les détails des images qui l'aideront à remarquer ces détails dans d'autres images (reconnaissance d'image). L'objectif général de la vision par ordinateur est qu'un ordinateur soit capable de comprendre les détails d'une image et de l'interpréter ou de l'expliquer aux humains. L'apprentissage en profondeur aide cet objectif à devenir plus réaliste, mais la vision par ordinateur est encore loin de ce que les chercheurs voudraient qu'elle soit.
Deux problèmes principaux de la vision par ordinateur rendent sa mise en œuvre difficile. Le monde visuel a intrinsèquement beaucoup de changement et de variété. C'est aussi très complexe. Bien que le cerveau humain soit conçu pour analyser rapidement et involontairement les moindres détails d'une image ou d'un autre média visuel, les ordinateurs ne le sont pas. Deuxièmement, la vision par ordinateur est généralement basée sur le système optique humain, et même les scientifiques ne la comprennent pas assez bien pour tenter de la recréer de manière adéquate.