Apprentissage Automatique et Réseaux Neuronaux - page 13

 

Cours 12: Analyse de Blob, Traitement d'Image Binaire, Théorème de Green, Dérivée et Intégrale



Cours 12: Analyse de Blob, Traitement d'Image Binaire, Théorème de Green, Dérivée et Intégrale

Dans cette conférence, le professeur aborde un éventail de sujets, notamment la propriété intellectuelle, les brevets, les marques de commerce et les techniques de traitement d'images pour la détection des contours. La conférence met l'accent sur l'importance de la précision en vision industrielle 2D et sur les défis de la détection des bords flous ou défocalisés. Le professeur couvre les méthodes de recherche des dérivées partielles mixtes, des laplaciens et de la détection des contours à l'aide d'une interpolation sous-pixel, ainsi que des techniques de compensation des biais et d'étalonnage correctionnel dans la recherche de pics. Dans l'ensemble, la conférence donne un aperçu complet de ces sujets et de leurs applications pratiques.

Dans cette conférence sur le traitement d'image, l'orateur discute de diverses méthodes pour éviter la quantification des directions de gradient et améliorer la précision dans la détermination de la position des bords. L'interpolation est suggérée comme méthode préférée par rapport aux tables de consultation et à la quantification pour une détermination plus précise de la direction du gradient. De plus, la fixation de la taille du pas avec un cercle et l'utilisation d'une analyse multi-échelle sont discutées comme méthodes alternatives de calcul du gradient. L'orateur explique également une approche itérative de la rotation d'une image pour réduire à zéro la composante y du gradient et introduit le concept d'accord pour la rotation selon des angles spéciaux. On rappelle aux élèves de commencer tôt le quiz car c'est plus de travail que le problème typique des devoirs.

  • 00:00:00 Dans cette section, le professeur discute du quiz à venir qui est plus long et compte deux fois plus qu'un problème de devoir. Le quiz couvre le contenu du cours jusqu'à présent, en mettant davantage l'accent sur les matériaux récents. Le professeur fournit ensuite une brève discussion sur la propriété intellectuelle et les brevets, en mentionnant les différents types de brevets tels que les brevets d'utilité et de conception. Le contrat social entre les détenteurs de brevets et le gouvernement est également discuté, où les détenteurs de brevets reçoivent un monopole limité pendant un certain nombre d'années en échange d'expliquer exactement comment faire quelque chose. La discussion se termine en abordant le concept juridique de meilleur mode dans les litiges en matière de brevets.

  • 00:05:00 protégez votre marque ou votre logo, vous pouvez le faire avec une marque. Des exceptions existent pour l'utilisation de petites portions de matériel protégé par le droit d'auteur, par exemple à des fins éducatives, et pour les logiciels d'ingénierie inverse sans violer les lois sur le droit d'auteur. Les lois sur le droit d'auteur protégeaient la durée de vie de l'auteur plus un certain nombre d'années, mais ont depuis été mises à jour pour inclure la durée de vie de l'auteur plus 75 ans ou plus. Les lois sur les marques protègent les marques et les logos, qui sont plus restrictifs que les droits d'auteur.

  • 00:10:00 Dans cette section, l'orateur discute des règles relatives à la marque déposée d'un nom et d'un logo d'entreprise, soulignant qu'il doit être unique dans le domaine et ne peut pas être un mot courant. La marque peut également inclure des formes, des marques et des couleurs, qui peuvent servir à protéger l'entreprise. L'orateur aborde également le concept de secrets commerciaux, où l'entreprise garde secrets les détails de son produit, bien qu'elle ne bénéficie d'aucune protection juridique. L'orateur présente ensuite un brevet de bas niveau lié à la recherche de contours et mentionne qu'une fois les contours trouvés, des tâches de traitement d'image plus complexes peuvent être effectuées pour la reconnaissance d'objets et la détermination de la position et de l'attitude. L'orateur note que dans le monde de la vision industrielle 2D, la précision est extrêmement importante et doit fonctionner presque parfaitement.

  • 00:15:00 Dans cette section, le conférencier passe en revue les bases de l'analyse de blobs et du traitement d'images binaires en discutant des différentes méthodes utilisées pour estimer les dérivées. La première idée discutée consistait à examiner le gradient de luminosité pour identifier un point d'inflexion comme bord, puis à examiner la dérivée, qui recherche un pic. Diverses méthodes d'estimation des dérivées, telles que différentes approximations pour e sous x, ont été examinées, et le terme d'erreur d'ordre le plus bas a été trouvé en utilisant le développement en série de Taylor. Enfin, la conférence se penche sur l'analyse des signaux électriques musculaires et sur la complexité du processus lorsque l'on recherche des dérivées premières de haute précision en raison du bruit et de la distorsion du signal.

  • 00:20:00 Dans cette section, le conférencier discute des compromis impliqués dans le choix de la longueur de l'opérateur de bord afin de détecter les bords. Il explique que l'utilisation d'un opérateur trop long peut entraîner l'interaction de différentes caractéristiques, ce qui rend difficile la détection des contours. Ce compromis est applicable lors de la détection des bords dans une image d'un cube, où les bords se rapprochent assez les uns des autres. L'enseignant explique ensuite comment les dérivées secondes peuvent être calculées en utilisant la convolution des dérivées premières appliquée deux fois, et montre comment cette méthode peut être utilisée pour vérifier l'exactitude des résultats. Enfin, il explique l'importance de vérifier les différentes façons de concevoir des molécules computationnelles utilisées pour dériver des dérivés.

  • 00:25:00 Dans cette section du cours, le professeur explique le processus de recherche de dérivées partielles mixtes à l'aide d'un pochoir 2D. Le gabarit consiste à retourner l'une des fonctions et à la superposer sur l'autre pour identifier les zones de chevauchement, ce qui donne un gabarit 2x2. Le professeur note qu'il est important de faire attention aux inversions de signe lors de l'utilisation de gabarits de calcul qui ne sont pas inversés. Ils soulignent également que la dérivée partielle mixte peut être considérée comme une dérivée seconde dans un système de coordonnées tourné. Dans l'ensemble, la section fournit une explication claire et détaillée de la recherche de dérivées partielles mixtes en 2D.

  • 00:30:00 Dans cette section, le sujet du Laplacien est réintroduit en tant qu'opérateur de dérivée seconde, où deux opérateurs sont ajoutés dans des directions orthogonales pour obtenir une approximation du Laplacien pour un opérateur différentiel à symétrie centrale. Une somme pondérée de ces deux opérateurs est ensuite introduite pour créer une version plus lisse du Laplacien pour un opérateur différentiel à symétrie centrale, et ce nouvel opérateur est encore plus efficace en termes de calcul lorsqu'il est appliqué à une image. De plus, des techniques pour déterminer les valeurs de ces coefficients pondérés sont discutées, telles que le terme d'erreur d'ordre le plus bas, ou des sommes égales à zéro.

  • 00:35:00 Dans cette section, l'orateur discute de la question de l'utilisation de pixels rectangulaires au lieu d'hexagonaux. Il explique des situations où les gens sont préoccupés par l'efficacité, comme dans l'imagerie du trou noir au centre de notre galaxie à l'aide de fréquences radio. L'orateur fait également la différence entre les opérateurs linéaires et non linéaires et discute de l'utilisation par Robert des stencils dans le calcul des dérivées dans le système de coordonnées pivoté. De plus, il explique la suppression non maximale, le concept d'appliquer des opérateurs de bord partout pour obtenir une réponse faible partout, mais une réponse forte sur les bords.

  • 00:40:00 Dans cette section, l'orateur discute du concept de détection des contours et souligne les inconvénients de l'application d'un seuil pour la détection des contours. Au lieu de cela, l'orateur propose de supprimer tout sauf la valeur maximale dans la direction du gradient pour identifier le point de bord. Le conférencier parle également de la suppression non maximale et des problèmes d'asymétrie dans le bris d'égalité. Enfin, l'orateur explique comment ajuster une parabole au profil de réponse des bords pour déterminer la position des bords du sous-pixel. L'orateur reconnaît que le choix de la forme de la courbe est arbitraire, mais explique comment l'ajustement d'un polynôme du second ordre pourrait fonctionner comme une bonne estimation dans la plupart des cas.

  • 00:45:00 Dans cette section, nous apprenons la détection des contours à l'aide de l'interpolation sous-pixel. La direction du gradient nous indique l'orientation du bord, que nous quantifions ensuite pour aider à projeter le point de bord potentiel sur l'emplacement réel du bord. Nous pouvons ensuite effectuer une compensation de biais pour estimer plus précisément la position du bord en utilisant une méthode parabolique ou triangulaire. En faisant cela, nous pouvons trouver le sommet du bord et améliorer la précision en prenant le point le plus proche de l'origine.

  • 00:50:00 Dans cette section de la conférence, l'orateur discute d'une méthode d'étalonnage correctionnel de la recherche de crête pour la détection des contours des sous-pixels. Essentiellement, la méthode consiste à déplacer expérimentalement le bord et à mesurer la précision de la méthode de recherche de crête par rapport à la valeur de crête réelle, afin de créer une table de correspondance de correction pour la méthode. L'orateur explique également comment les formes des bords peuvent différer et montre comment approximer la forme à l'aide d'un ajustement à un paramètre. Malgré ces différences, seule une petite correction de la méthode est nécessaire pour la précision de détection des bords sous-pixels.

  • 00:55:00 Dans cette section de la conférence, le professeur discute du concept de bords flous et explique pourquoi ils sont importants pour la récupération des sous-pixels et pour éviter les problèmes de crénelage. Le professeur explique que l'une des raisons des bords flous est la défocalisation. En utilisant l'exemple d'un objectif d'appareil photo, le professeur montre qu'un objet net sera capturé comme un point, tandis que le même objet légèrement flou sera capturé comme un cercle avec une luminosité uniforme. Pour compenser cela, le professeur présente la fonction d'échelon unitaire et la fonction d'étalement de points, et explique comment celles-ci peuvent être utilisées pour décrire le cercle de luminosité uniforme en fonction de x et y.

  • 01:00:00 Dans cette section, l'orateur explique l'effet d'être flou et comment calculer géométriquement la réponse en superposant le bord et le cercle. L'aire du secteur du cercle et l'aire du triangle sont utilisées pour trouver la différence entre les deux formes. Theta est utilisé pour calculer la surface, et les détails sont expliqués pour démontrer la réponse entre zéro et un.

  • 01:05:00 Dans cette section, l'orateur discute du traçage d'un diagramme pour calculer l'erreur dans la détermination précise de la position du bord à l'aide d'un algorithme. Ils mentionnent que cette erreur pourrait être faible mais non nulle et qu'il est essentiel de la prendre en compte pour une grande précision. L'orateur parle ensuite des moyens d'éviter la quantification des directions de gradient, ce qui peut introduire une gêne en raison de l'espacement qui existe en deux tailles. Ils discutent du fait que cela peut entraîner des contributions d'erreur légèrement différentes et suggèrent quelques façons de l'éviter. La section se termine par une discussion sur la contrefaçon de brevet et les moyens de l'éviter, où l'accent est mis sur la façon de rendre l'invention différente plutôt que meilleure.

  • 01:10:00 Dans cette section de la vidéo, le conférencier discute d'une méthode préférée pour éviter de quantifier les directions de gradient présentes dans certains brevets. Au lieu d'utiliser cette méthode, il suggère d'interpoler pour éviter la quantification des directions du gradient. Par interpolation, les valeurs peuvent être approximées en douceur et la direction du gradient peut être déterminée avec précision. Le conférencier pense que cette méthode est une amélioration de la précision, éliminant le besoin de construire une table de correspondance ou de quantifier et d'apporter des corrections sur le graphique de biais. L'inconvénient de cette approche est qu'une interpolation est utilisée, il y a donc un manque de précision par rapport à la connaissance de la valeur mesurée exacte, mais cela peut être négligeable dans de nombreux cas.

  • 01:15:00 Dans cette section de la conférence, l'orateur discute d'une méthode alternative pour le calcul du gradient qui consiste à fixer la taille du pas au lieu de la changer. Cette méthode utilise un cercle pour déterminer l'espacement des pixels et fournit une direction de gradient plus continue avec moins de quantification. Cependant, cette approche nécessite une interpolation, bilinéaire ou bicubique, et peut représenter un travail supplémentaire en raison de la nécessité de prendre en compte davantage de pixels. De plus, le conférencier parle de l'utilité de l'analyse multi-échelle pour trouver des bords nets et des bords flous dans les images. Enfin, l'orateur aborde brièvement la mise en œuvre préférée de la transformation des coordonnées cartésiennes en coordonnées polaires, qui implique la rotation du système de coordonnées.

  • 01:20:00 Dans cette section, l'orateur discute d'une méthode pour faire pivoter une image afin de réduire la composante y du gradient à zéro en utilisant une approche itérative. Pour ce faire, l'angle de rotation est manipulé de manière itérative jusqu'à ce que l'amplitude de la composante y soit réduite à zéro. L'orateur suggère une stratégie consistant à utiliser une séquence d'angles de test et à réduire l'amplitude de la composante y à chaque itération. Les angles sont choisis de manière à ce qu'ils soient des puissances inverses de 2, ce qui permet de réduire le nombre de multiplications de quatre à deux. L'approche itérative est répétée jusqu'à ce que l'angle de rotation soit suffisamment petit.

  • 01:25:00 Dans cette section, l'orateur explique le concept d'accord qui implique une rotation à travers des angles spéciaux qui ont une propriété où la tangente de thêta i est un sur deux au i. Le processus itératif consiste à changer d'angle et à savoir s'il est devenu négatif ou non. La première chose à faire est de l'amener au premier octant, ce qui est trivial en regardant simplement les signes de x et y et si y est supérieur à x. La prochaine conférence couvrira les échelles multiples et l'échantillonnage, et l'orateur rappelle aux téléspectateurs de commencer tôt le quiz car c'est plus de travail que le problème typique des devoirs.
 

Cours 13 : Détection, reconnaissance et détermination de la pose d'objets, PatQuick (brevet américain 7016539)



Cours 13 : Détection, reconnaissance et détermination de la pose d'objets, PatQuick (brevet américain 7016539)

La conférence se concentre sur la détection, la reconnaissance et la détermination de la pose d'objets, en mettant l'accent sur le brevet PatQuick (US 7,016,539). Le brevet vise à détecter et à déterminer la pose d'objets dans l'espace et offre une amélioration par rapport aux méthodes précédentes, en utilisant une représentation abstraite appelée modèle qui est comparée à une image d'exécution à différentes poses et rotations. Le brevet incorpore également une liste de degrés de liberté généralisés pour augmenter la précision et utilise un filtrage passe-bas et une détection des contours pour obtenir des points limites, reportant le seuillage jusqu'aux étapes finales. De plus, la conférence traite du processus de création de modèles à l'aide de la détection des contours et des sondes avec l'espacement et le contraste souhaités pour représenter ces modèles, expliquant l'importance de prendre en compte les degrés de liberté tels que la translation, la rotation, la mise à l'échelle et le rapport d'aspect, qui permettent des variations dans dimensions et perspectives des objets.

La vidéo traite des modèles de recherche hexagonaux utilisés pour une recherche translationnelle efficace et évolutive dans la détection d'objets, y compris la détection de pic et une solution pour détecter des objets adjacents. La vidéo traite également de PatQuick, un brevet permettant de déterminer la présence de motifs prédéterminés dans des images d'exécution et leur emplacement multidimensionnel. La méthode utilise des sondes et un gradient précalculé pour correspondre à la pose d'un objet, et l'intégration de la fonction de notation supprime les erreurs du résultat. La vidéo explore une méthode alternative pour déterminer les différences d'angle à l'aide de produits scalaires et met l'accent sur les subtilités des opérations multi-échelles et la sélection des sondes pour différentes granularités. La précision de la méthode est limitée par la quantification de l'espace de recherche.

  • 00:00:00 Dans cette section, nous vous présentons le brevet 7016539 qui vise à détecter, reconnaître et déterminer la pose d'objets dans l'espace, ainsi qu'à inspecter des objets. Le problème qu'il tente de résoudre est la nécessité de manipuler des objets à l'aide de machines, mais sans informations précises sur les objets. L'art antérieur avait quatre composants différents, et l'un d'eux consistait en un traitement d'image binaire, qui impliquait de distinguer les objets de l'arrière-plan pour créer des images binaires, permettant un traitement plus facile et moins de mémoire requise. Des calculs locaux peuvent être effectués pour certaines opérations de traitement d'images binaires de bas niveau telles que la recherche de la zone, du périmètre et du centroïde d'images binaires, et même le calcul des nombres euler de manière parallèle, ce qui peut être réalisé avec du matériel parallèle.

  • 00:05:00 Dans cette section, le conférencier discute de diverses méthodes de détection, de reconnaissance et de détermination d'objets. La méthode de seuillage est introduite, qui consiste à distinguer le premier plan de l'arrière-plan dans une image en fonction de certains paramètres. Cependant, cette méthode est limitée car il peut ne pas y avoir de distinction claire entre le premier plan et l'arrière-plan. Les méthodes de modèle binaire impliquent l'utilisation d'une image principale ou d'un modèle d'or pour définir l'objet et calculer un modèle par seuillage. La corrélation normalisée consiste à essayer toutes les positions possibles pour la correspondance afin de trouver une correspondance appropriée entre deux images. C'était le titre de gloire de Cognac, un des premiers projets de recherche en vision par ordinateur.

  • 00:10:00 Dans cette section, l'orateur discute du processus d'alignement utilisant la corrélation, une méthode liée à la détection et à la reconnaissance d'objets, qui consiste à déplacer une image pour trouver l'alignement où la différence entre l'image décalée et l'autre image est aussi petit que possible. Cependant, à l'heure actuelle, seule la traduction est envisagée en raison des dépenses de calcul, car la méthode nécessite d'analyser chaque pixel pour chaque position possible. En outre, l'orateur relie la corrélation aux méthodes basées sur le gradient, qui impliquent le calcul d'un décalage, et explique comment cela peut être utilisé pour maximiser la corrélation en minimisant le changement dans le temps.

  • 00:15:00 Dans cette section, l'exposé porte sur la reconnaissance d'un objet et la détermination de sa pose, notamment dans le cadre de l'alignement d'un circuit intégré pour la prochaine étape du processus de fabrication. L'orateur discute de diverses méthodes pour déterminer l'alignement et note que la somme des différences au carré et la corrélation sont couramment utilisées, mais présentent certains inconvénients. La corrélation, en particulier, peut donner une correspondance élevée même si le contraste entre les images est différent, et il n'y a pas de seuil clair pour ce qui constitue une correspondance. Malgré ces problèmes, la corrélation reste populaire en raison de son efficacité de calcul. En outre, le conférencier note que ces méthodes peuvent être améliorées grâce à l'incorporation de méthodes basées sur le gradient, qui ont été utilisées chez les souris optiques.

  • 00:20:00 Dans cette section, la conférence traite de la corrélation normalisée et de son rôle dans la reconnaissance d'images. La corrélation normalisée est utilisée pour éliminer tout décalage de la luminosité de l'image et rendre le processus moins sensible aux modifications de la configuration optique. La méthode de normalisation calcule la corrélation de deux images et la normalise pour supprimer les décalages de contraste, la méthode calculant le pic afin que les utilisateurs puissent mesurer le succès de la corrélation. Par conséquent, un score de corrélation élevé indique une bonne correspondance, tandis qu'un score de corrélation faible signifie une mauvaise correspondance. Bien que la méthode puisse être coûteuse, c'était une prétention à la renommée de Cognex à ses débuts.

  • 00:25:00 Dans cette section, la vidéo traite d'un brevet lié à la détection et à la reconnaissance d'objets, en particulier pour déterminer la présence de motifs prédéterminés dans une image et déterminer leur emplacement dans un espace multidimensionnel. Le brevet, qui est une amélioration par rapport aux méthodes précédentes, comprend l'utilisation d'une représentation abstraite du motif appelée modèle, qui est comparée à une image d'exécution à différentes poses, rotations, etc. La comparaison produit un score de correspondance, qui est comparé à un accepter le seuil pour retarder la prise de décision jusqu'à ce que plus d'informations soient disponibles. Le brevet fournit également une liste de degrés de liberté généralisés au lieu d'une simple translation et rotation pour augmenter sa précision pour les parties partielles ou manquantes d'un objet.

  • 00:30:00 Dans cette section, le brevet pour la détection, la reconnaissance et la détermination de la pose d'objets connu sous le nom de PatQuick, qui se concentre sur l'obtention de correspondances potentielles, est discuté. La section explique comment le brevet utilise le filtrage passe-bas et la détection des contours pour obtenir des points limites à différentes résolutions. Le processus se poursuit ensuite en connectant des points frontières voisins qui ont des directions cohérentes pour organiser les points de la chaîne. Le brevet diffère des autres méthodes, car il enchaîne les bords, même s'ils sont faibles, et reporte le seuillage jusqu'à la toute fin.

  • 00:35:00 Dans cette section, l'orateur discute de la création de modèles pour la reconnaissance d'objets à l'aide de la détection des contours et du processus de création de sondes avec l'espacement et le contraste souhaités pour représenter ces modèles. Les modèles sont ajustés aux bords et ces sondes sont utilisées pour détecter s'il existe une correspondance entre le modèle et l'image en cours d'analyse. Les sondes sont utilisées comme points de preuve pour identifier les zones de contraste élevé, et cette méthode permet de réduire le nombre de pixels qui doivent être analysés. La rupture d'égalité est également discutée dans le contexte de la détermination de l'ordre des voisins des sondes.

  • 00:40:00 Dans cette section, l'intervenant discute de différents exemples de comparaison des gradients observés dans l'image d'exécution avec ceux du modèle. Il explique que la direction du gradient est beaucoup plus susceptible d'être maintenue même en cas de changements d'éclairage ou de matériau. L'orateur introduit également la notion de poids, qui aide à déterminer l'importance de chaque sonde. Bien que l'attribution manuelle de poids puisse être utile pour tenir compte des symétries d'objets, elle nécessite une intervention humaine et n'est pas couramment utilisée. Enfin, l'orateur définit les différents objets du modèle, y compris les sondes, leurs positions, directions et poids, ainsi que l'objet sonde compilé utilisé pour augmenter l'efficacité des calculs.

  • 00:45:00 Dans cette section, l'orateur explique comment mapper l'objet sonde compilé sur l'image et comment utiliser le modèle. La sonde compilée est un ensemble de sondes spécialisées dans les coordonnées de l'image, et la principale différence entre elle et une sonde est qu'un décalage dans la sonde compilée est un entier en pixels par opposition aux variables réelles. L'orateur aborde également le concept de carte qui est la transformation à plusieurs degrés de liberté qu'il faut trouver, et qui inclut toutes les transformations sauf la translation. Pour marquer le gradient, une fonction de classement est utilisée, qui considère la polarité, la polarité de contraste et la différence de 90 degrés entre les deux directions des gradients.

  • 00:50:00 Dans cette section, l'orateur explique comment évaluer dans quelle mesure une sonde correspond à un point correspondant dans une image d'exécution à l'aide d'une fonction qui prend en compte la direction et l'amplitude du gradient. Cependant, il note que les inversions de contraste peuvent rendre la métrique basée sur la direction moins robuste contre le bruit, tandis que l'utilisation d'une pente plus large peut augmenter les chances d'accepter des alignements aléatoires. Pour traiter des degrés de liberté, l'orateur fournit des exemples de paramètres et de fonctions utilisés pour les ajustements de rotation, d'échelle et de cisaillement. Dans l'ensemble, le processus de détection d'objet nécessite diverses considérations car différentes situations peuvent nécessiter différentes approches.

  • 00:55:00 Dans cette section, nous apprenons les degrés de liberté généralisés dans la détection, la reconnaissance et la détermination de la pose d'objets. Ces degrés de liberté - tels que la translation, la rotation, la mise à l'échelle et le rapport d'aspect - permettent des variations dans les dimensions et les perspectives de l'objet. Il est important de prendre en compte ces degrés lorsque vous travaillez dans des espaces qui ne sont pas exactement bidimensionnels, ce qui fait apparaître l'image comme un losange au lieu d'un rectangle. Cependant, il est essentiel de faire attention aux coûts de calcul lors de l'examen de la mise à l'échelle, et une approche plus raisonnable consiste à travailler sur une échelle logarithmique. De plus, le rectangle englobant le minimum de sonde peut réduire les calculs dans certaines opérations. L'espace multidimensionnel des poses dicte que nous devons déterminer la proximité entre certaines valeurs, et cela se fait en identifiant à quel point deux poses sont proches dans cet espace.

  • 01:00:00 Dans cette section de la vidéo, le conférencier explique les modèles de recherche utilisés pour une recherche translationnelle efficace et évolutive dans la détection d'objets. Ces modèles sont organisés autour d'hexagones pour fournir un avantage de quatre sur pi en termes de travail effectué par rapport à la résolution. Le conférencier explique également comment fonctionne la détection de crête sur une grille hexagonale et propose une solution pour éviter de détecter des objets adjacents. En outre, la vidéo définit les termes couramment utilisés dans le droit des brevets, tels qu'objet, image, luminosité, granularité et limite, ainsi que leurs applications au-delà des images en lumière visible, telles que les graphiques et les images radiographiques. La généralisation de ces termes vise à élargir la portée du brevet et ses applications potentielles.

  • 01:05:00 Dans cette section, la vidéo traite d'un brevet sur PatQuick, une méthode pour déterminer la présence ou l'absence d'au moins une instance d'un motif prédéterminé dans une image d'exécution et pour déterminer l'emplacement multidimensionnel de chaque instance actuelle . Le brevet intègre la possibilité d'inspection et de reconnaissance, dans laquelle le processus est exécuté pour chaque objet et la plupart ne seront pas une bonne correspondance, mais un sera pour la reconnaissance. La vidéo mentionne également l'utilisation d'un gradient, qui est un vecteur qui donne la direction et l'ampleur du plus grand changement de luminosité à une granularité spécifiée, et un modèle, un ensemble de caractéristiques de codage de données d'un motif à trouver, qui pourrait être créé à partir d'une image réelle ou d'un dessin CAO.

  • 01:10:00 Dans cette section, l'orateur explique comment la méthode de PatQuick fonctionne même si des parties d'un objet sont masquées ou manquantes, ce qui la rend utile à des fins d'inspection. La méthode utilise des sondes pour faire correspondre la pose de l'objet, et bien que théoriquement le gradient puisse être calculé à chaque correspondance, il est avantageux de le pré-calculer pour plus d'efficacité. L'intégration de la fonction de notation est utilisée pour calculer combien de correspondances aléatoires compensent le score, et bien qu'il s'agisse d'une nuisance à calculer, il est nécessaire de supprimer l'erreur du résultat et de réduire le bruit. La méthode a principalement des revendications de méthode et la situation juridique a changé, entraînant uniquement des revendications de méthode.

  • 01:15:00 Dans cette section, l'orateur discute d'une méthode alternative pour déterminer les différences d'angle entre les vecteurs unitaires en utilisant des produits scalaires au lieu d'utiliser une fonction tangente. Cependant, cette méthode produit une grande valeur absolue et n'est pas aussi bonne que la méthode originale. L'orateur discute également de l'inconvénient de la méthode quantifiée et de la nécessité de rechercher tout l'espace de pose pour trouver des correspondances potentielles avant d'utiliser une quantification plus fine pour des résultats plus précis. La section se termine par une mention de la nécessité de discuter des différentes fonctions de notation.

  • 01:20:00 Dans cette section, l'orateur discute des différents calculs impliqués dans la recherche d'une correspondance lorsque le résultat doit être précis ou rapide. Ils plongent dans les subtilités de l'exécution d'opérations multi-échelles qui utilisent différentes sondes et modèles pour différentes granularités. Les sondes ne sont pas limitées à la grille de pixels, mais dérivées des points de bord, ce qui fournit des résultats plus fiables que l'utilisation du contraste de luminosité. De plus, la précision de cette méthode est limitée par la quantification de l'espace de recherche, qui peut être dépassée dans un autre brevet couvert dans les futures conférences.
 

Cours 14 : Inspection dans PatQuick, transformée de Hough, homographie, détermination de la position, multi-échelles



Cours 14 : Inspection dans PatQuick, transformée de Hough, homographie, détermination de la position, multi-échelles

Dans cette conférence, l'algorithme PatQuick est discuté, en mettant l'accent sur l'utilisation de sondes pour produire une fonction de notation dans un espace multidimensionnel, qui détermine la pose d'un objet dans des images en temps réel. La fonction de correspondance utilisée pour évaluer la qualité de la correspondance en termes de direction et d'amplitude du gradient est également examinée, avec différentes fonctions de notation discutées pour les compromis entre précision et vitesse. La conférence se penche également sur différentes méthodes utilisées pour rendre le processus de correspondance de motifs plus efficace, notamment en ajustant la granularité du calcul et en relevant le défi d'obtenir les bonnes directions, en particulier lors de l'exécution de transformations qui modifient le rapport d'aspect d'une image. La conférence aborde également le sujet de l'homographie et de la transformée de Hough pour détecter les lignes dans les photographies.

La conférence couvre une gamme de sujets liés à la vision par ordinateur, y compris la transformation de Hough, la demi-transformation de Gauss étendue, la détermination de position, le sous-échantillonnage multi-échelle et SIFT. La transformation de Hough est utilisée pour la détection de lignes et de bords, tandis que la demi-transformation de Gauss étendue est une version plus sophistiquée de la transformation de Hough. La conférence explique également comment utiliser la transformation de Hough pour détecter des cercles, tels que l'emplacement d'une tour de téléphonie cellulaire. De plus, le conférencier discute du sous-échantillonnage d'images pour réduire la charge de travail sans sacrifier la qualité, et présente SIFT, une méthode pour trouver des points correspondants dans différentes images d'une scène, qui est largement utilisée pour produire des informations 3D à partir de plusieurs images. Enfin, le conférencier aborde brièvement la théorie musicale et termine par un rappel de soumettre des propositions et une citation sur le fait de ne pas tarder.

  • 00:00:00 Dans cette section, le conférencier discute de l'algorithme PatQuick et de l'utilisation de sondes pour produire une fonction de notation dans un espace multidimensionnel. L'algorithme examine un petit nombre de points dans l'image et peut gérer un grand nombre de degrés de liberté. Les brevets discutés sont liés et font partie d'une approche basée sur la physique de la vision artificielle. Les algorithmes décrits sont principalement limités à des situations impliquant des surfaces bidimensionnelles, telles que des circuits intégrés et des cartes de circuits imprimés.

  • 00:05:00 Dans cette section, l'orateur discute d'une étape de formation dans la technique PatQuick où une image est montrée au système, et il calcule automatiquement un modèle. Il s'agit d'une étape cruciale car elle permet d'économiser des ressources et du temps plutôt que de créer à la main le code pour chaque tâche visuelle. Les modèles sont ensuite mappés sur des images en temps réel, et la pose est déterminée par translation, rotation, mise à l'échelle, inclinaison et rapport d'aspect. Les preuves collectées pour l'objet sont cumulatives et le résultat final est la somme des opérations locales. Cependant, la limitation de cette méthode est la quantification de l'espace de pose, qui peut affecter la précision.

  • 00:10:00 Dans cette section, l'orateur discute de l'espace potentiel à six dimensions qui peut résulter du traitement de motifs de différentes tailles et formes. Alors que la translation a deux degrés de liberté et que la rotation en a un, la mise à l'échelle, l'inclinaison et le rapport d'aspect ont chacun un degré de liberté, ce qui porte le total à 6. Cependant, traiter les six paramètres devient impossible car la quantification de l'espace à un nombre raisonnable de niveaux, comme 100, donne un total de 10 à 12 espaces. L'orateur poursuit également en expliquant la fonction d'appariement utilisée pour noter la qualité de l'appariement en termes de direction et d'amplitude du gradient, soulignant certains inconvénients de la fonction, notamment la possibilité d'appariement au bruit de fond.

  • 00:15:00 Dans cette section, le conférencier discute de diverses fonctions de notation utilisées dans l'algorithme PatQuick pour les compromis entre précision et vitesse. Différentes fonctions de notation ont des caractéristiques différentes telles que des valeurs normalisées, des scores significatifs ou simplement la valeur étant plus grande avec une meilleure correspondance. Le conférencier explique qu'ils rejettent les poids négatifs et utilisent la direction du gradient pour calculer le score. L'accent est mis sur les sondes compilées et la traduction variable. La conférence met également en évidence une deuxième version de la fonction de notation appelée s1b, qui supprime le besoin de multiplication et ne traite que les sondes avec des poids positifs.

  • 00:20:00 Dans cette section, l'orateur discute des différentes fonctions utilisées pour le mode de réalisation préféré dans PatQuick. Une fonction prend en compte la direction du gradient et soustrait un terme basé sur l'appariement aléatoire pour améliorer le résultat. Une autre fonction utilise directement l'amplitude du gradient et n'est pas normalisée, ce qui signifie que sa valeur absolue ne sera pas significative. Ces fonctions sont utilisées dans la solution candidate et les étapes de numérisation fine dans PatQuick. L'orateur note que tandis que le mode de réalisation préféré a des fonctions différentes, d'autres alternatives sont également données pour la mise en œuvre.

  • 00:25:00 Dans cette section de la conférence, l'orateur discute de certains des détails impliqués pour rendre le processus de correspondance de modèles plus efficace. Une considération importante est la granularité du calcul, qui peut être ajustée en diminuant la résolution jusqu'à ce qu'un résultat satisfaisant soit atteint. L'orateur aborde également la question de la normalisation, expliquant que pour certaines tâches, il n'est pas nécessaire de normaliser car il s'agit d'un problème de calcul. De plus, l'orateur relève le défi d'obtenir les bonnes directions puisque le processus repose fortement sur la direction du gradient, en particulier lors de l'exécution de transformations qui modifient le rapport d'aspect d'une image.

  • 00:30:00 Dans cette section de la conférence, l'orateur explique comment traiter le problème de la direction du gradient lors de la transformation de x et y de manière à ne pas préserver les angles droits. La solution consiste à calculer l'isophote à partir de la direction du gradient, à le transformer et à construire quelque chose à angle droit par rapport à l'isophote. L'orateur aborde également le sujet supplémentaire de l'inspection, qui implique l'utilisation de sondes dans le modèle pour déterminer si une certaine zone est une correspondance raisonnable ou non, et le calcul d'un pourcentage basé sur le nombre d'arêtes dans l'image d'exécution correspondant à quelque chose dans le modèle.

  • 00:35:00 Dans cette section, le conférencier discute de la projection d'une surface plane dans un monde 3D en utilisant la projection en perspective et un système de coordonnées de caméra. Il élabore sur les relations de translation et de rotation entre la caméra et les systèmes de coordonnées du monde à travers une matrice orthonormée. Le conférencier explore ensuite la transformation des coordonnées de l'objet mondial en coordonnées de l'image et note la nature non linéaire et désordonnée de la projection en perspective lorsqu'elle implique une division. Cependant, il se concentre sur le cas particulier des surfaces planes et détaille comment le système peut être érigé dans l'objet, permettant une transformation plus simple.

  • 00:40:00 Dans cette section, l'orateur parle de l'utilisation d'un système de coordonnées où z est égal à zéro, transformant la surface 3D en une surface 2D. Ils démontrent comment on peut ignorer la troisième colonne dans ce cas et plier commodément en translation en rotations pour obtenir une seule matrice. Ils introduisent ensuite la matrice T, qui n'est pas orthonormée contrairement à la matrice R. Enfin, ils discutent des degrés de liberté de translation et de rotation en 3D et des différentes manières de penser la rotation.

  • 00:45:00 Dans cette section de la vidéo, l'orateur discute de la rotation, de la translation et des contraintes dans les matrices, en particulier dans le cas de la projection en perspective sur une surface plane. La matrice de transformation comporte neuf éléments indépendants mais seulement six degrés de liberté en raison de contraintes telles que l'orthonormalité et l'orthogonalité. Bien que les données d'étalonnage puissent être ajustées à l'aide des moindres carrés linéaires, les contraintes doivent également être appliquées, ce qui est souvent négligé dans les travaux publiés. Ces concepts seront importants pour les discussions ultérieures sur les transformations 3D.

  • 00:50:00 Dans cette section de la vidéo, le conférencier discute de l'ambiguïté et de l'homographie du facteur d'échelle, une drôle de matrice. L'homographie est utilisée en photogrammétrie et s'applique lorsqu'on limite l'attention à un plan. Le conférencier parle également de la transformée de Hough et de sa généralisation, qui est utilisée lors de la cartographie de points sur une route à partir d'images de caméra. Enfin, le conférencier décrit la chambre à brouillard de la NASA et comment les gens ont étudié les particules élémentaires en les projetant dans une chambre à brouillard et en prenant des photos des points ionisés dans cet espace.

  • 00:55:00 Dans cette section, le conférencier discute de l'histoire de l'automatisation du processus d'analyse d'image, spécifiquement dans le but de détecter des lignes ou des arcs sur des photographies d'images de chambres à bulles Wilson. La transformation de Hough a été développée comme une solution pour relever le défi de la détection de lignes qui n'étaient pas espacées uniformément ou de taille uniforme, de sorte que les lignes ont été mappées de l'espace image à l'espace des paramètres pour les lignes. Le conférencier explique le concept d'un réseau d'accumulateurs pour compter les preuves de chaque combinaison de paramètres possible et recherche les pics correspondant aux lignes de l'image. Le mappage de l'espace des paramètres à l'espace image permet une bonne estimation de la ligne, même si la preuve n'est qu'une bulle.

  • 01:00:00 Dans cette section, le conférencier explique le concept de la transformée de Hough, qui est une technique pour détecter la présence d'objets simples tels que des lignes, des cercles ou des ellipses dans une image. La transformation de Hough fonctionne en mappant l'espace image sur un espace paramètre, où chaque point de l'espace transformé représente une ligne dans l'espace d'origine. La transformation est symétrique de sorte que toutes les lignes de l'espace d'origine correspondent à des intersections uniques dans l'espace des paramètres. Le conférencier prend un exemple pour expliquer comment les bulles dans une image peuvent donner des preuves sur les lignes possibles, et en trouvant leur transformation dans l'espace des paramètres, on peut accumuler des preuves pour trouver les pics qui correspondent aux lignes dans l'espace transformé.

  • 01:05:00 Dans cette section, le conférencier explique la transformée de Hough, qui est utilisée pour la détection des lignes et des bords dans les images. La transformation de Hough crée un espace pour les paramètres possibles de la transformation, chaque point correspondant à une ligne particulière, ce qui peut aider à rassembler les preuves même si la ligne est miteuse et distribuée à intervalles irréguliers. Cependant, la transformation de Hough ne peut plus être utilisée dans la détection des contours, car de meilleures méthodes sont en place. La conférence mentionne également brièvement la demi-transformation de Gauss étendue, qui est une version plus sophistiquée de la transformation de Hough, qui comporte des compromis et de petites choses délicates qui doivent être traitées. De plus, la conférence parle des cercles et de la façon dont la transformée de Hough peut être utilisée pour détecter les signaux des téléphones portables en déterminant l'avance temporelle du signal.

  • 01:10:00 Dans cette section, l'orateur explique comment utiliser l'extension de la transformée de Hough pour résoudre des problèmes impliquant des cercles, tels que la détermination de la distance à partir de coordonnées GPS. En prenant des mesures des avances temporelles et en construisant des cercles de positions possibles en fonction du rayon donné, il devient possible d'utiliser un réseau d'accumulateurs pour mettre à jour les données et accumuler progressivement des preuves qui identifient l'emplacement du cercle. Cette méthode peut être généralisée à un espace de paramètres plus grand, y compris des cônes avec des rayons variables, et chaque point de l'espace correspond à un cercle différent à une position particulière dans le plan. Le résultat final devrait contenir de nombreuses intersections de cercles, indiquant où se trouve le véritable emplacement de la tour cellulaire.

  • 01:15:00 Dans cette section, la conférence aborde l'idée de la demi-transformation généralisée, qui implique l'espace de paramètres d'origine et l'accumulation de preuves pour créer une surface de score ; ceci est utile lors de la détection de caractéristiques telles que des contours ou des textures, qui peuvent n'être apparentes qu'à une échelle particulière ou avec des niveaux de bruit spécifiques. En travaillant à des résolutions inférieures ou en réduisant les dimensions, nous pouvons réduire les coûts de calcul et améliorer la capacité à détecter les caractéristiques avec précision. Cependant, cette méthode peut devenir une tâche coûteuse lorsque l'on travaille sur des problèmes de dimension supérieure et avec des niveaux de bruit élevés.

  • 01:20:00 Dans cette section, le conférencier aborde différentes méthodes de sous-échantillonnage d'images afin de réduire le nombre de cellules et de diminuer la charge de travail sans sacrifier la qualité de l'image. Ils explorent différentes valeurs de "r" et comment elles affectent le niveau de sous-échantillonnage, "r" égal à un sur la racine carrée de deux étant une valeur couramment utilisée car elle réduit le nombre de cellules de deux et augmente l'espacement de racine carrée de deux. L'orateur présente également SIFT, une méthode pour trouver des points correspondants dans différentes images d'une scène qui est largement utilisée dans la production d'informations 3D à partir de plusieurs images. SIFT utilise une méthode de sous-échantillonnage beaucoup moins agressive, avec plusieurs étapes par octave, pour créer des descripteurs uniques pour chaque point de l'image.

  • 01:25:00 Dans cette section, l'orateur discute brièvement de la gamme musicale où une octave est divisée en huit notes, et mentionne que bien qu'elles ne soient pas également espacées, il y a de bonnes raisons de ne pas toujours utiliser un facteur de deux. L'orateur rappelle également au public de soumettre ses propositions et partage une citation d'un fortune cookie sur le fait de ne pas tarder.
 

Cours 15 : Alignement, PatMax, champ de distance, filtrage et sous-échantillonnage (brevet américain 7065262)



Cours 15 : Alignement, PatMax, champ de distance, filtrage et sous-échantillonnage (brevet américain 7065262)

La vidéo traite de plusieurs techniques et brevets liés à la reconnaissance de formes et à la détection d'objets. L'une de ces techniques est PatMax, qui améliore de manière itérative la pose d'une image d'exécution à l'aide d'un système attractif basé sur la force. Une autre technique consiste à générer un champ vectoriel sur une grille de pixels pour améliorer l'alignement de l'image d'exécution. Le cours couvre également l'utilisation des champs de distance pour la détection des bords et l'expansion des bords amorcés en examinant les vecteurs de force dans le champ vectoriel. Le conférencier discute également de l'utilisation de la correspondance de motifs à plusieurs échelles et des étapes mathématiques impliquées dans l'ajustement des lignes aux ensembles de coordonnées d'image. Enfin, un brevet pour calculer efficacement plusieurs échelles est introduit.

Dans la conférence 15, le conférencier couvre diverses techniques et raccourcis pour une convolution, un filtrage et un sous-échantillonnage efficaces des images. Celles-ci incluent l'approximation des noyaux de filtre à l'aide de polynômes splines par morceaux, l'utilisation de dérivés comme convolutions, la compression d'images en prenant à plusieurs reprises la troisième différence et la combinaison de convolutions dans les directions x et y. L'orateur mentionne également l'importance du filtrage passe-bas avant l'échantillonnage des images pour éviter les interférences et le crénelage dans les images.

  • 00:00:00 Dans cette section, la vidéo présente un autre modèle de recherche d'objets dans des images bidimensionnelles, appelé PatMax. Il diffère du modèle précédent, PatQuick, en supposant que l'on a déjà une idée approximative de l'endroit où se trouvent les choses et qu'on vise plutôt à améliorer cette position progressivement avec une approche itérative des moindres carrés. La motivation pour utiliser PatMax était de maximiser l'énergie, inspirée par les forces entre les dipôles magnétiques. Cependant, l'intuition derrière l'approche était totalement fausse, et une bien meilleure analogie serait de relier les choses à un ressort. Le brevet concerne également en partie l'alignement et fait référence à d'autres brevets et publications de l'ancien laboratoire d'IA.

  • 00:05:00 Dans cette section, la vidéo explique le processus de formation d'un système de reconnaissance de formes utilisant la détection de bord qui produit des dipôles de bord et crée un champ vectoriel bidimensionnel. Le système utilise ensuite un processus d'attraction pour trouver de manière itérative une bonne pose pour une image d'exécution en supposant qu'une pose de départ a déjà été obtenue. La carte client est utilisée pour mapper les positions de pixels qui ne sont pas sur une grille carrée à un tableau de pixels carrés, et il existe des mesures telles que l'erreur RMS et les évaluations d'inspection utilisées pour déterminer si un objet est en bon état ou non. Enfin, la vidéo décrit comment la liste des dipôles de champ produit les sondes utilisées pour l'alignement avec l'image d'exécution.

  • 00:10:00 Dans cette section, le conférencier parle de l'amélioration de l'alignement à l'aide d'un champ généré sur la grille de pixels. La pose est à l'opposé du brevet précédent, la détection des caractéristiques étant effectuée sur l'image d'exécution au lieu du modèle. Le but du champ est de mapper des résultats discrets de l'image d'exécution vers le champ, ce qui le rend moins cher que de transformer l'image entière, ce qui était le cas avec le brevet précédent. Le champ est généré par un nouveau processus qui attire vers l'alignement où les objets de l'image d'exécution correspondent aux objets de l'image d'apprentissage. La conférence étudie comment le champ est généralisé et met en évidence les différentes étapes impliquées dans le calcul du champ.

  • 00:15:00 Dans cette section, la vidéo traite du processus d'initialisation et de remplissage d'un champ de distance pour la détection des bords, qui est une technique courante utilisée en vision artificielle appelée carte de distance. L'initialisation consiste à donner aux dipôles de champ une valeur correspondant à la distance du bord ainsi que sa direction. Le processus de remplissage du reste des carrés près du bord est un processus itératif où la valeur des carrés voisins est déterminée et ajustée en fonction de la géométrie calculée. Le champ de distance est essentiellement une rainure le long de chaque bord qui indique à quelle distance il se trouve du bord. Le but ultime est que chaque bord soit connecté afin que le système s'installe dans un état d'énergie plus faible.

  • 00:20:00 Dans cette section de la conférence, l'orateur discute du processus d'extension des bords ensemencés en regardant les pixels voisins et en calculant la force et la direction vers le bord à l'aide d'un champ vectoriel. Ils expliquent que parfois les angles entre les forces deviennent trop grands, indiquant un coin, et que dans de tels cas, les vecteurs ne pointeront plus vers les pixels de bord d'origine. Des informations supplémentaires, telles que la direction du contraste et les directions vectorielles, peuvent aider dans le processus de mise en correspondance de l'extension des bords. L'objectif est de minimiser l'énergie dans le système, similaire à la modélisation avec un système mécanique de ressorts. L'orateur note qu'avec un bord, il est souvent difficile de dire avec certitude à quel point nous correspondons à un point particulier sur le bord, ce qui nécessitera un modèle plus sophistiqué à suivre.

  • 00:25:00 Dans cette section, l'orateur discute de l'analogue mécanique qui représente l'algorithme de détection de caractéristiques à l'aide d'images d'exécution. Le système s'ajuste à l'aide d'un ensemble de forces provenant des nombreuses caractéristiques détectées sur l'image, et les ressorts mécaniques sont étirés vers l'extérieur et ajustés à l'aide d'une transformation d'échelle. Le système calcule ensuite l'encombrement et la couverture pour évaluer dans quelle mesure l'image d'exécution correspond au modèle. Le but ultime du système est de réduire l'énergie en déplaçant tous les dipôles d'exécution de manière systématique, et il s'agit d'un grand système des moindres carrés avec une méthode de calcul naturelle utilisant un ensemble d'accumulateurs.

  • 00:30:00 Dans cette section, le conférencier discute de divers aspects de la correspondance de modèles, y compris les cas de traduction uniquement et de traduction et rotation. Le conférencier explique que le tenseur utilisé dans la correspondance de motifs est un tableau multidimensionnel qui permet des degrés de liberté dans l'alignement. Le conférencier parle également de la correspondance de motifs à plusieurs échelles, qui consiste à travailler à basse résolution pour obtenir une pose de départ, puis à l'utiliser pour effectuer une correspondance de motifs à haute résolution. Le conférencier note que la méthode d'appariement de motifs peut être appliquée à une gamme d'appareils utilisés à des fins pratiques, des caméras de télévision aux microscopes électroniques. Enfin, le conférencier discute des revendications faites dans le brevet, notant que la première revendication est très large et susceptible d'être contestée par l'état de la technique, mais que les revendications dépendantes fournissent des détails plus spécifiques.

  • 00:35:00 Dans cette section de la conférence, l'orateur discute d'un brevet pour un processus d'alignement qui dépend de plusieurs composants, y compris des valeurs d'erreur à basse résolution et des suppositions initiales. Le processus, appelé PatMax, recherche l'espace de pose complet à une faible résolution sans avoir besoin d'une première estimation, contrairement au brevet discuté qui nécessite une première estimation et a une plage de capture. L'espace de pose pour ce processus est l'inverse de PatMax pour des raisons de calcul. Le processus d'alignement fonctionne pour éviter le seuillage et la quantification au niveau du pixel, en se concentrant plutôt sur la précision du sous-pixel. L'orateur aborde également un analogue physique impliquant des ressorts mécaniques.

  • 00:40:00 Dans cette section, l'orateur discute du processus d'inspection d'objets et de la manière dont il implique la correspondance et la détermination de la transformation entre les images entraînées et d'exécution. L'inspection est basée sur les fonctionnalités manquantes et supplémentaires dans l'image d'exécution par rapport à l'image entraînée, et sur l'encombrement de l'image en raison de la texture d'arrière-plan. La génération du champ de distance est également expliquée, en mettant l'accent sur la façon dont il change lorsqu'il y a des bords et des coins présents dans l'image. Le processus de calcul de la transformée de distance est discuté, y compris les défis de travailler dans un monde discret et les moyens d'approximer la distance euclidienne de manière rapide et efficace.

  • 00:45:00 Dans cette section de la conférence, le concept d'addition des forces locales pour fournir un alignement en translation ou en rotation est discuté. Les poids peuvent être prédéfinis ou dépendre de l'amplitude du gradient ou du dipôle de champ, entre autres variations. Le couple autour d'un centre est utilisé pour fournir une rotation, et prendre la composante z du produit croisé de deux vecteurs dans un plan peut être utilisé pour fournir un scalaire pour le couple. La conférence décrit ensuite la distance à une ligne et explique la rotation dans un système de coordonnées aligné sur une ligne pour calculer les nombres premiers x et y.

  • 00:50:00 Dans cette section, l'orateur discute de l'utilisation de deux paramètres rho et thêta pour paramétrer la famille de lignes dans le plan, qui est une famille à deux paramètres. Cette paramétrisation est utile dans l'ajustement de ligne, où l'objectif est de trouver une ligne qui correspond aux points de bord avec une grande précision. L'orateur explique comment utiliser le calcul pour minimiser la distance au carré et montre comment relier x barre et y barre, les centroïdes moyens des points sur la ligne, à rho et thêta. De plus, la conférence aborde le déplacement des coordonnées vers le centre de gravité et la recherche de relations solides entre thêta et rho pour déterminer les paramètres de la ligne.

  • 00:55:00 Dans cette section, le conférencier explique les étapes mathématiques pour trouver la solution des moindres carrés pour ajuster une ligne à un ensemble de coordonnées d'image à l'aide de l'équation de forme normale de Hesse. En prenant la dérivée par rapport à thêta et en la mettant à zéro, une solution impliquant le sinus et le cosinus de deux fois l'angle est obtenue, qui peut être simplifiée à l'aide d'identités trigonométriques. Cette méthode est préférée à l'ajustement de y égal à mx plus c, car elle est indépendante du choix du système de coordonnées et peut être utilisée pour combiner des fragments de bords courts en fragments de bords plus longs. Le conférencier présente ensuite un brevet pour calculer efficacement plusieurs échelles en évitant une convolution coûteuse.

  • 01:00:00 Dans cette section, le conférencier parle des moyens efficaces de calculer des filtres à des fins multi-échelles. L'astuce consiste à approximer un noyau avec un polynôme spline par morceaux et à prendre la première différence n plus, ce qui facilite la convolution avec zéro, ce qui donne un noyau clairsemé avec un petit support. Le cours couvre également la somme première n plus, qui est l'inverse de la différence première n plus, et les propriétés des convolutions et des différenciations. Dans l'ensemble, la conférence donne un aperçu des raccourcis et des astuces pour rendre la convolution de grandes images avec de gros noyaux plus facile et plus efficace.

  • 01:05:00 Dans cette section, le conférencier discute des propriétés et des avantages de la convolution, en particulier de la manière dont les dérivées peuvent être traitées comme des convolutions si la distribution au lieu des fonctions est autorisée. Cela permet d'utiliser des propriétés de convolution telles que la commutativité et l'associativité, qui peuvent être très puissantes dans le traitement du signal. Le conférencier décrit également un exemple d'utilisation de la convolution pour rendre un motif clairsemé et peu coûteux à convoluer, ce qui implique de calculer des dérivées et de trouver les endroits où il y a des valeurs non nulles. Seules deux valeurs doivent être convoluées, ce qui est un avantage significatif.

  • 01:10:00 Dans cette section, le conférencier explique la technique consistant à prendre la troisième différence d'une image afin de la compresser. En prenant à plusieurs reprises la troisième différence, un petit ensemble de valeurs clairsemées est produit, ce qui réduit le calcul par rapport à l'utilisation de l'image originale complète. Cela peut être utilisé pour contrôler la bande passante et l'échelle du filtre sans modifier la quantité de calcul requise. L'enseignant démontre cette technique à l'aide d'une fonction à une dimension, puis montre un exemple avec une parabole où les extrémités sont plus compliquées en raison d'une discontinuité.

  • 01:15:00 Dans cette section de la conférence, différentes techniques de filtrage sont discutées pour améliorer l'efficacité des calculs dans les images de sous-échantillonnage tout en évitant les artefacts de repliement. L'utilisation d'une spline pour approximer des filtres tels que les fonctions gaussiennes et de synchronisation est explorée, en mettant l'accent sur la réduction du temps de calcul et du nombre de valeurs non nulles. De plus, une technique de combinaison d'opérations de convolution dans les directions x et y est présentée, qui nécessite moins de mémoire intermédiaire et permet une cascade plus efficace de convolutions 1D. La pertinence de ces sujets pour la détection des contours et le traitement d'images multi-échelles est mise en évidence.

  • 01:20:00 Dans cette section, l'orateur discute d'un cristal de calcite qui est biréfringent et a deux indices de réfraction en fonction de la polarisation, ce qui fait apparaître deux copies d'une image très proches l'une de l'autre. Ceci est utilisé dans les caméras pour supprimer le contenu à haute fréquence et améliorer l'échantillonnage. Cependant, la suppression de ce filtre peut entraîner des interférences et des crénelages dans les images, ainsi que des changements de couleur et de forme des objets filmés. L'orateur note que les améliorations apportées au filtrage passe-bas avant l'échantillonnage des images ont réduit ces problèmes, mais il est toujours important de prendre en compte les effets de l'aliasing dans l'imagerie.
 

Cours 16 : Convolution rapide, approximations de filtre passe-bas, images intégrales (brevet américain 6457032)



Cours 16 : Convolution rapide, approximations de filtre passe-bas, images intégrales (brevet américain 6457032)

La conférence couvre divers sujets liés au traitement du signal, notamment la limitation de bande, le repliement, les approximations de filtre passe-bas, le flou, l'image intégrale, l'analyse de Fourier et la convolution. L'orateur insiste sur l'importance du filtrage passe-bas des signaux avant l'échantillonnage pour éviter les artefacts de repliement. La conférence introduit également l'idée de l'image intégrale, qui calcule efficacement la somme des pixels dans un bloc, et diverses techniques pour réduire le calcul lors de l'approximation des filtres passe-bas. Enfin, la conférence traite de l'interpolation bicubique, qui est utilisée pour approximer la fonction sinc, et de ses coûts de calcul.

Dans cette conférence, le conférencier aborde divers sujets liés à la convolution, aux approximations de filtres passe-bas et aux images intégrales. Ils expliquent différentes implémentations de la convolution, y compris une méthode qui permet de gagner du temps de calcul en ajoutant des valeurs de gauche à droite et en soustrayant pour obtenir la moyenne. Les limites de l'interpolation linéaire pour les approximations de filtre passe-bas et son infériorité par rapport à des méthodes plus avancées comme l'interpolation cubique sont également discutées. Le concept d'un pilulier et sa valeur dans la limitation des plages de fréquences sont introduits, et l'orateur parle du filtre passe-bas idéal et de la façon dont la défocalisation affecte la fonction de Bessel. La conférence aborde également l'utilisation d'approximations de filtres passe-bas pour les objectifs d'appareils photo reflex numériques et le concept de photogrammétrie.

  • 00:00:00 Dans cette section, l'orateur discute des formes d'onde d'échantillonnage et de l'importance de les limiter en bande. Lors de l'échantillonnage d'une forme d'onde, il est surprenant que nous puissions capturer quelque chose à ce sujet, étant donné que la forme d'onde a un support infini et que nous n'obtenons que des échantillons discrets. Cependant, si le contenu fréquentiel est limité, le théorème de Nyquist stipule que nous pouvons le reconstruire complètement en échantillonnant à une fréquence suffisamment élevée. Le critère est que nous échantillonnons assez rapidement, de sorte que la composante de fréquence la plus élevée du signal soit inférieure à fs sur deux. En fin de compte, la limitation de bande est importante car elle nous permet de capturer l'essence d'une forme d'onde sans obtenir d'artefacts de repliement.

  • 00:05:00 Dans cette section, le concept d'aliasing dans le traitement du signal est expliqué. Le crénelage se produit lorsque le contenu fréquentiel au-dessus d'un certain seuil est échantillonné et impossible à distinguer du contenu fréquentiel inférieur. Cela ne peut pas être corrigé après l'échantillonnage, il doit donc être fait au préalable en supprimant le contenu de fréquence plus élevée. Pour ce faire, il est important de filtrer le signal en passe-bas avant l'échantillonnage. Cependant, un véritable filtrage passe-bas est difficile à réaliser, des approximations doivent donc être faites.

  • 00:10:00 Dans cette section de la conférence, l'orateur discute du concept de flou à travers des méthodes telles que le filtrage de pré-échantillonnage et introduit l'idée de l'image intégrale. Il explique qu'un filtre boxcar peut être utilisé pour effectuer une moyenne de bloc, où la somme des pixels dans un bloc est calculée, mais cette méthode peut être coûteuse en calcul. Pour résoudre ce problème, une image intégrale peut être utilisée dans les cas 1D et 2D pour calculer la somme plus efficacement. L'image intégrale n'est pas limitée aux seules images, car elle peut également fonctionner pour d'autres types de matrices comme le gradient intégral.

  • 00:15:00 Dans cette section, le conférencier explique comment calculer le total d'un rectangle à l'aide de l'image intégrale. Le conférencier montre qu'avec quatre accès mémoire et trois opérations arithmétiques, on peut obtenir le total pour n'importe quel bloc et indépendamment de sa taille. Cette technique peut être utilisée pour la reconnaissance et la moyenne de blocage. Le conférencier parle également de l'analyse de Fourier et de la moyenne d'un bloc à l'aide d'une moyenne mobile.

  • 00:20:00 Dans cette section de la conférence, l'orateur discute des inconvénients de l'utilisation de la fonction sinc comme approximation d'un filtre passe-bas. La fonction sinc n'atténue pas les hautes fréquences de manière suffisamment agressive et n'atteint pas le premier zéro assez rapidement, ce qui en fait un mauvais choix pour les approximations de filtre passe-bas. Cette discussion est particulièrement pertinente pour les caméras, qui effectuent une opération de filtrage avant l'échantillonnage, et la moyenne de bloc est suggérée comme une alternative potentielle à la fonction sinc. La moyenne des blocs est peu coûteuse à calculer et peut être effectuée deux fois dans l'espoir d'obtenir une meilleure approximation d'un filtre passe-bas.

  • 00:25:00 Dans cette section, le conférencier discute des propriétés des filtres dans le domaine de la transformation et de leur relation avec les discontinuités des étapes dans les images. Le conférencier explique que la transformée d'une fonction en escalier diminue comme une sur la fréquence, ce qui signifie que les images avec des discontinuités en échelon produiront un contenu à haute fréquence qui ne diminue pas rapidement. Le conférencier note qu'il s'agit d'un problème avec la transformée de Fourier discrète car elle suppose que les données sont périodiques, elle introduit donc des discontinuités de bord d'étape lorsque les données s'enroulent. Pour y faire face, le conférencier propose l'apodisation, qui consiste à multiplier l'image par une forme d'onde pour faire correspondre les extrémités. Un filtre d'apodisation courant est une forme d'onde en cosinus inversé.

  • 00:30:00 Dans cette section, la vidéo couvre différentes approches pour traiter le dft appliqué aux images, l'une étant de supposer que l'extérieur de l'image se répète périodiquement ou est une image miroir, bien que ce ne soit pas une solution parfaite en raison de la possibilité d'une discontinuité dérivée. Une autre approche discutée est le filtrage passe-bas avec un filtre approximatif. La vidéo aborde ensuite certaines propriétés nécessaires au filtrage passe-bas approximatif, telles que la propriété de tamisage de l'impulsion unitaire et des distributions.

  • 00:35:00 Dans cette section de la conférence, l'orateur discute de l'impulsion unitaire et de sa relation avec la convolution. Bien que l'impulsion unitaire ne soit pas mathématiquement correcte à définir comme la limite de la convolution, elle peut être utilisée pour déterminer l'effet de la convolution avec l'impulsion unitaire en calculant sa convolution et en prenant la limite lorsque epsilon tend vers zéro. L'orateur note que la convolution peut être connectée aux dérivées et que les opérateurs linéaires invariants par décalage et les opérateurs dérivés sont étroitement liés. Ils expliquent que les dérivés peuvent essentiellement être traités comme des convolutions, l'une des deux convolutions étant inversée.

  • 00:40:00 Dans cette section, le conférencier discute des approximations de filtre passe-bas et de la manière dont elles peuvent améliorer la méthode de calcul de la moyenne des pixels utilisée dans les caméras. Il explique qu'un filtrage passe-bas supplémentaire doit être effectué avant l'échantillonnage dans le domaine analogique et suggère d'utiliser des matériaux biréfringents pour créer un filtre spécial. Ce filtre implique deux images décalées qui modélisent comme une convolution avec des impulsions, résultant en deux versions légèrement décalées de l'image originale. Lorsqu'il est analysé avec une transformée de Fourier, le filtre ne diminue pas avec la fréquence mais diminue à pi sur epsilon, permettant la sélection de la valeur epsilon appropriée.

  • 00:45:00 Dans cette section, le conférencier aborde le concept de filtres passe-bas et introduit une technique pour couper les hautes fréquences à l'aide d'une plaque plus épaisse que l'espacement des pixels. Cette plaque coupe les hautes fréquences mais laisse les autres fréquences non coupées. Le conférencier explique que l'utilisation de ce filtre anti-crénelage extrêmement simple avec le filtre de moyenne de bloc peut réduire les effets de moiré causés par le contenu haute fréquence dans les images. L'enseignant introduit ensuite l'idée du brevet et de l'image intégrale, qui vise à réduire le calcul pour un bon filtrage passe-bas tout en minimisant la taille du support. L'enseignant montre comment représenter l'intégration par convolution et fournit la transformée de Fourier de l'impulsion unitaire.

  • 00:50:00 Dans cette section, la vidéo se concentre sur le concept de convolutions et leur relation avec la différenciation et l'intégration dans le domaine de la transformée de Fourier. Il est expliqué qu'une dérivée seconde peut être obtenue par convolution de dérivées de premier niveau ou d'impulsions. Ce concept est appliqué au processus de filtrage, où un filtre peut être divisé en sections pour réduire le calcul s'il est clairsemé, ce qui se produit lorsque vous travaillez avec des fonctions constantes ou des approximations polynomiales. En intégrant ou en additionnant les résultats de la convolution avec un filtre creux, la réponse souhaitée peut être obtenue efficacement avec moins de calculs.

  • 00:55:00 Dans cette section, le conférencier discute de l'approximation de la fonction sinc, qui est idéale pour un filtre passe-bas mais qui dure indéfiniment, ce qui rend impossible sa représentation complète. La conférence introduit l'interpolation bicubique pour les images 2D, où les pixels sont tournés et doivent être interpolés. La méthode consiste à utiliser quatre parties, où la courbe est décrite par une cubique. La dérivée quatrième est utilisée pour le filtrage, et le résultat est bien meilleur que l'utilisation du plus proche voisin ou de l'interpolation linéaire. Il est expliqué que l'approximation de la fonction de synchronisation entraîne des coûts de calcul, ce qui la rend peu pratique à utiliser.

  • 01:00:00 Dans cette section, un exemple de moyenne de bloc est utilisé pour illustrer la mise en œuvre naïve de la convolution en déplaçant un bloc le long et en additionnant tout ce qui se trouve sous le bloc. Une autre implémentation est montrée pour économiser considérablement sur le temps de calcul lors du blocage sur des segments plus grands en ajoutant des valeurs de gauche à droite, puis en soustrayant pour obtenir la moyenne. L'interpolation linéaire est également discutée, ce qui peut être considéré comme ayant à voir avec la convolution en créant une fonction qui relie les points sur une grille discrète à l'aide de lignes droites.

  • 01:05:00 Dans cette section, l'orateur aborde la méthode d'interpolation linéaire pour les approximations de filtre passe-bas et ses limites, notamment en termes d'évolution des mesures de bruit et d'image. Il explique que la méthode implique la convolution de deux wagons couverts, qui est une fonction linéaire qui imite la fonction de synchronisation. Il note également que cette méthode est inférieure à des méthodes plus avancées telles que la méthode d'interpolation cubique pour les approximations de filtre passe-bas. De plus, il explique que la méthode d'approximation du plus proche voisin est une fonction constante par morceaux qui est encore moins précise que la méthode linéaire.

  • 01:10:00 Dans cette section de la conférence, l'orateur discute du concept d'approximations de filtre passe-bas et d'images intégrales dans le contexte de la convolution. Ils expliquent comment l'interpolation du voisin le plus proche correspond à la convolution avec un wagon couvert et les avantages de l'utilisation d'un système de coordonnées à symétrie de rotation pour les images naturelles. Ils introduisent ensuite le concept de casemate et sa valeur dans la limitation des gammes de fréquences. La transformée inverse d'une casemate s'avère également symétrique en rotation, variant selon la fonction de Bessel, qui est couramment utilisée en optique.

  • 01:15:00 Dans cette section, le conférencier discute du filtre passe-bas idéal, qui est la réponse de la fonction d'étalement à une impulsion. Le premier zéro de cette fonction, qui est différent de celui de la fonction de synchronisation, est utilisé pour la résolution basée sur des critères de résolution Aries. Lorsqu'il est flou, le conférencier montre que la fonction d'étalement se transforme en casemate, ce qui, dans le domaine des fréquences spatiales, devient la fonction de Bessel. Il conclut ensuite que la défocalisation affecte la mise au point en modifiant la fonction de Bessel.

  • 01:20:00 Dans cette section de la conférence, l'orateur discute de l'utilisation d'approximations de filtre passe-bas et de la diminution résultante du contenu haute fréquence, qui peut conduire à la destruction complète de certaines fréquences en raison de la présence de zéros. L'orateur explique également comment déterminer la taille de pas d'un objectif d'appareil photo reflex numérique en examinant le domaine fréquentiel, ainsi que l'effet de deux projections en perspective en séquence qui ne sont pas les mêmes qu'une seule projection en perspective. Enfin, le concept consistant à prendre des images légèrement floues et à les convoluer pour déterminer si une image a été modifiée ou non est introduit.

  • 01:25:00 Dans cette section, le conférencier discute du concept de convolution et de son lien avec la multiplication dans le domaine fréquentiel. Ils expliquent comment l'utilisation d'une fonction de boîte à pilules permet de convoluer une image, mais attention, la multiplication d'images défocalisées ne donnera pas de résultats précis. La conférence passe ensuite au sujet de la photogrammétrie, qui utilise des images pour créer des informations 3D sur les objets et leur emplacement en faisant correspondre des caractéristiques telles que les bords entre les images pour localiser l'emplacement de la caméra.
 

Cours 17 : Photogrammétrie, Orientation, Axes d'Inertie, Symétrie, Orientation



Cours 17 : Photogrammétrie, Orientation, Axes d'Inertie, Symétrie, Orientation

Cette conférence couvre divers sujets liés à la photogrammétrie, y compris les repères de profondeur, l'étalonnage de la caméra et l'établissement de la transformation entre deux systèmes de coordonnées. L'orateur explique comment aborder le problème de trouver la transformation de coordonnées entre deux systèmes en utilisant des mesures correspondantes et souligne l'importance de vérifier l'inverse exact de la transformation. Le cours traite également de la recherche des axes d'inertie dans l'espace 2D et 3D et de la détermination de la distance entre deux points projetés sur un axe. Dans l'ensemble, la section fournit un aperçu complet de la photogrammétrie et de ses applications.

La photogrammétrie nécessite de construire un système de coordonnées sur un nuage de points dans les systèmes de coordonnées gauche et droite et de relier les deux. L'enseignant explique comment déterminer la matrice d'inertie ou les axes d'inertie et établir les vecteurs de base. Ils discutent également des défis posés par les objets symétriques et des propriétés de rotation, telles que la préservation des produits scalaires, des longueurs et des angles. De plus, la conférence explique comment simplifier le problème de la recherche de rotation en éliminant la traduction et en minimisant le terme d'erreur. Enfin, l'enseignant explique comment aligner deux objets de formes similaires à l'aide du calcul vectoriel et suggère d'explorer d'autres représentations pour la rotation.

  • 00:00:00 Dans cette section, le conférencier présente la photogrammétrie, qui consiste à utiliser des images pour mesurer et reconstruire des surfaces tridimensionnelles. Le domaine a ses racines dans la cartographie et a été popularisé après l'invention de la photographie. L'orateur discute de quatre problèmes classiques de la photogrammétrie, y compris la recherche de la relation entre deux systèmes de coordonnées disparates, ainsi que la recherche de la relation entre un système de coordonnées unique et des objets qui peuvent se déplacer ou changer. Le conférencier note que si la vision artificielle est souvent plus concernée par le deuxième problème, qui consiste à récupérer la troisième dimension à partir d'images bidimensionnelles, il peut être avantageux de s'attaquer d'abord au problème 3D en raison de sa solution en forme fermée.

  • 00:05:00 Dans cette section, l'enseignant explique les deux types d'applications de la photogrammétrie : 2D vers 3D et 3D vers 2D. La première consiste à récupérer des informations tridimensionnelles à partir d'images et à déterminer la relation entre deux caméras dans l'espace pour les aligner. Ce dernier implique l'étalonnage de la caméra, qui est nécessaire pour des mesures précises à l'aide de caméras, et la création de cartes topographiques en capturant des intervalles d'images réguliers à partir d'un avion. Le conférencier discute également de plusieurs indices de profondeur, y compris la stéréo binoculaire, qui est la capacité de percevoir la profondeur à travers les deux yeux.

  • 00:10:00 Dans cette section, le conférencier explique comment deux caméras peuvent être utilisées pour établir des repères de profondeur à l'aide de triangles similaires. En imageant un objet dans les deux caméras et en comparant les images résultantes, la différence entre les positions peut être utilisée pour calculer la profondeur de l'objet. La conférence note également que les disparités dans l'image peuvent être utilisées pour calculer la profondeur car la distance est inversement proportionnelle à la disparité. Enfin, la section aborde le sujet de la sensibilité à l'erreur et comment des erreurs importantes pourraient résulter de petites divergences dans la mesure de la disparité.

  • 00:15:00 Dans cette section de la vidéo, le conférencier aborde la photogrammétrie et la mesure de positions 3D à l'aide de deux caméras. Ils expliquent que l'augmentation de la ligne de base ou de la distance focale peut améliorer la précision des mesures, mais il existe des contraintes sur ces quantités, comme s'assurer que les caméras ne sont pas trop éloignées. Ils mentionnent également le défi de calibrer les caméras si elles ne sont pas parfaitement alignées dans une géométrie spécifique. L'enseignant passe ensuite au sujet des orientations absolues et comment compenser l'orientation des dispositifs tels que les lidars ou les caméras aériennes, qui peuvent ne pas maintenir une attitude constante. Enfin, ils notent que la discussion suppose la présence de points intéressants dans les images, laissant de côté le problème d'appariement.

  • 00:20:00 Dans cette section, le conférencier explique comment trouver la rotation et la translation de deux systèmes de coordonnées afin de projeter des rayons en 3D et de trouver le point d'intersection entre eux. Il utilise l'exemple des points mesurés à la fois dans un système de coordonnées gauche et droit, notant que cela pourrait s'appliquer à deux systèmes de coordonnées indépendamment de leurs étiquettes. Le conférencier souligne la nécessité de six nombres pour spécifier pleinement la transformation, trois pour la rotation et trois pour la translation, et explique qu'il existe trois degrés de liberté pour chacun. Il écrit la formule de transformation, en soulignant que la rotation n'a pas à être représentée comme une matrice orthonormée.

  • 00:25:00 La conférence traite des propriétés de la rotation et de la matrice orthonormale, qui est essentielle pour comprendre comment calculer la rotation et la translation des objets. La conférence explique également comment l'application de la contrainte d'orthonormalité élimine les réflexions et comment l'inverse d'une matrice de rotation peut être facilement obtenu. Un modèle physique est également présenté pour une meilleure visualisation de la manière dont les points des systèmes de coordonnées gauche et droit peuvent être superposés et alignés.

  • 00:30:00 Dans cette section, l'orateur explique comment aborder le problème de la recherche de la transformation des coordonnées entre deux systèmes à l'aide des mesures correspondantes. Ce problème peut être abordé selon la méthode des moindres carrés, où l'objectif est de minimiser la distance entre le vecteur transformé dans le système de coordonnées gauche et le système de coordonnées droit. Cela peut être considéré comme un problème de minimisation d'énergie, où le système essaie de s'ajuster pour minimiser l'énergie. L'orateur insiste sur l'importance de vérifier que la transformation du système de droite vers la gauche est l'exact inverse de la transformation du système de gauche vers la droite. Séparer les problèmes de translation et de rotation simplifie le problème à seulement trois degrés de liberté à la fois.

  • 00:35:00 Dans cette section, l'orateur explique comment construire un système de coordonnées en utilisant des mesures de points sur un objet. La première étape consiste à choisir un point comme origine et à le connecter à un deuxième point pour créer un axe. La séparation entre les deux premiers points est normalisée pour créer l'axe x et un troisième point est utilisé pour définir le plan xy. L'axe y est créé en supprimant la composante du vecteur du premier point au troisième point qui se trouve dans la direction de l'axe x et en rendant le vecteur résultant perpendiculaire à l'original. L'axe z est défini comme le produit croisé de x et y, car il est perpendiculaire aux deux vecteurs. Ce processus permet la création d'un système de coordonnées et la mesure de points dans les deux systèmes de coordonnées pour un objet.

  • 00:40:00 Dans cette section, l'orateur explique comment construire un système de coordonnées et résoudre la rotation. Pour ce faire, ils utilisent une triade de vecteurs unitaires pour définir un système de coordonnées pour la gauche et la droite. Ensuite, ils prennent les deux points de nuage, construisent un axe et mappent les vecteurs unitaires les uns aux autres pour trouver une transformation qui les rassemble. Ils utilisent ensuite une matrice 3x3 pour coller les équations séparées ensemble et résoudre la rotation. Ils mentionnent qu'en supprimant la translation, il ne reste plus que trois degrés de liberté à trouver.

  • 00:45:00 Dans cette section, l'orateur discute des contraintes impliquées dans la cartographie des points entre les systèmes de coordonnées en photogrammétrie. Alors que trois correspondances entre deux systèmes peuvent sembler suffisantes pour une solution à seulement trois inconnues, les égalités vectorielles signifient que chaque contrainte vaut trois points. Ainsi, nous avons neuf contraintes. Cependant, la rotation n'a que trois degrés de liberté, ce qui conduit à un excès d'informations. L'orateur discute ensuite d'une solution ad hoc consistant à sélectionner sélectivement des points de transformation, ce qui est imprécis. Une autre solution consiste à utiliser la décomposition en valeurs singulières (SVD) pour trouver la matrice de transformation optimale qui pondère uniformément les informations de toutes les correspondances.

  • 00:50:00 Dans cette section, le conférencier discute du concept de recherche des axes d'inertie dans l'espace 2D et 3D. Il explique que les axes d'inertie minimale peuvent être trouvés en calculant l'intégrale de la distance au carré multipliée par la masse, alors que l'axe perpendiculaire a une inertie maximale, et en 3D, il y a un troisième axe qui est un point de selle. Il déclare que si ces axes sont identifiés, un système de coordonnées peut être établi pour l'objet en question. La formule pour trouver la distance de l'axe à l'origine est également discutée, ainsi que le choix du centroïde comme origine pour séparer le problème de trouver la translation du problème de trouver la rotation.

  • 00:55:00 Dans cette section, l'orateur explique comment déterminer la distance entre deux points, r et r premier, projetés sur un axe oméga. La formule d'inertie est dérivée de cette distance et varie lorsque l'axe change de direction. Le locuteur simplifie ensuite la formule en utilisant les produits scalaires, l'associativité de la multiplication et la matrice identité. La formule résultante montre que l'inertie est égale au produit scalaire de r avec lui-même multiplié par la matrice identité et intégré sur le volume de l'objet.

  • 01:00:00 Dans cette section, le conférencier explique comment construire un système de coordonnées sur un nuage de points dans un système de coordonnées gauche et droite, puis relier les deux. Cela se fait en calculant la matrice d'inertie, ou les axes d'inertie, qui est un simple problème de vecteur propre aux valeurs propres pour une matrice trois par trois. Trois axes sont trouvés qui sont perpendiculaires les uns aux autres - le maximum, le minimum et l'axe de la selle. Ces axes sont utilisés pour établir les vecteurs de base, et la même méthode est appliquée pour le système de coordonnées de droite. La méthode utilisée pour ce faire est un problème des moindres carrés car il traite tous les points de la même manière et minimise le problème.

  • 01:05:00 Dans cette partie du cours, l'orateur discute des limites des méthodes ad hoc en photogrammétrie lorsqu'il s'agit d'objets symétriques. L'orateur explique que certains objets, tels qu'une sphère, un tétraèdre et un octaèdre, ont la même inertie dans toutes les directions, ce qui rend difficile la détermination de leur orientation à l'aide d'une méthode ad hoc qui repose sur l'allongement. De plus, l'orateur note que l'utilisation de correspondances pour déterminer l'orientation est une approche plus précise mais difficile car elle nécessite de connaître l'alignement de chaque point. L'orateur explique également les propriétés de la rotation, y compris la préservation des produits scalaires, des longueurs et des angles.

  • 01:10:00 Dans cette section, le professeur discute du triple produit des vecteurs, qui est le volume d'un parallélépipède formé par ces vecteurs. Si ces vecteurs sont tournés, alors leur volume sera préservé si la rotation n'est pas une réflexion. Une réflexion changerait le signe du triple produit et, par conséquent, le volume, résultant en une règle de gauche au lieu d'une règle de droite. Ce principe est important lors de la configuration d'un problème des moindres carrés pour trouver la transformation entre deux systèmes de coordonnées, où le décalage et la rotation doivent être choisis pour minimiser l'erreur entre les deux systèmes.

  • 01:15:00 Dans cette section, le conférencier explique comment simplifier le problème de trouver la translation à partir de trouver la rotation. Pour ce faire, ils déplacent les coordonnées vers le centroïde et les soustraient des coordonnées d'origine pour se débarrasser de la translation, ce qui rend le problème de rotation beaucoup plus facile à résoudre. Le conférencier insère ensuite les nouvelles coordonnées dans la formule d'erreur et regroupe les termes, pour finalement arriver à un problème plus simple avec lequel travailler. La conférence se termine par une question sur l'offset à choisir pour la traduction.

  • 01:20:00 Dans cette section, le cours se concentre sur la séparation du problème de trouver la traduction du problème de trouver la rotation. La formule de la translation est la différence entre l'endroit où se trouve le centroïde dans le système de coordonnées droit et l'endroit où se trouve le centroïde du système de coordonnées gauche après sa rotation. L'objectif suivant est de minimiser le terme d'erreur restant, ce qui implique de trouver la bonne rotation. En maximisant le terme restant qui dépend de la rotation, la conférence vise à trouver la rotation correcte, ce qui a un sens intuitif lorsque l'on imagine un nuage de points connectés au centroïde avec une apparence pointue de type sushi.

  • 01:25:00 Dans cette section, le conférencier explique comment aligner deux objets qui ont une forme similaire à l'aide du calcul vectoriel. En prenant les épines correspondantes des objets et en utilisant le produit scalaire entre eux pour déterminer l'angle, les objets peuvent être alignés. Cependant, cela pose le problème de savoir comment résoudre le problème de rotation en utilisant le calcul sans avoir à gérer des matrices compliquées par des contraintes supplémentaires. Le conférencier suggère de regarder d'autres représentations pour la rotation qui facilitent le problème d'alignement.
 

Cours 18 : La rotation et comment la représenter, les quaternions unitaires, l'espace des rotations



Cours 18 : La rotation et comment la représenter, les quaternions unitaires, l'espace des rotations

Cette conférence traite des défis de la représentation des rotations et présente l'utilité des quaternions de Hamilton. Les quaternions unitaires sont particulièrement utiles car ils correspondent directement aux rotations dans trois espaces, permettant une discussion sur un espace de rotation et d'optimisation dans cet espace. Les quaternions ont des propriétés similaires aux nombres complexes et sont particulièrement utiles pour représenter les rotations car ils préservent les produits scalaires, les produits triples, la longueur, les angles et la sensibilité. La conférence aborde également différentes méthodes de représentation de la rotation, l'importance de pouvoir faire pivoter des vecteurs et composer des rotations, et les limites des méthodes conventionnelles telles que les matrices, les angles d'Euler et le verrouillage du cardan. Enfin, la conférence présente les recherches en cours dans le domaine, notamment l'optimisation et l'ajustement des rotations aux modèles, et le développement de nouvelles méthodes d'analyse et de visualisation des espaces de rotation.

Dans cette conférence, le professeur discute du problème de trouver la transformation de coordonnées entre deux systèmes de coordonnées ou la meilleure rotation et translation entre deux objets avec des points correspondants mesurés dans les deux systèmes de coordonnées. La conférence explore l'utilisation des quaternions pour aligner les caméras des engins spatiaux avec les directions du catalogue et résoudre le problème de l'orientation relative. L'efficacité des quaternions dans la représentation des rotations est discutée, ainsi que différentes méthodes pour approcher la représentation des rotations dans un espace à quatre dimensions. De plus, la conférence explore divers groupes de rotation pour différents polyèdres, soulignant l'importance de sélectionner le système de coordonnées correct pour obtenir un échantillonnage spatial régulier.

  • 00:00:00 Dans cette section, l'orateur discute des défis liés au traitement des rotations, car elles ne sont pas commutatives comme les traductions. L'objectif est de développer une méthode utile et générale pour traiter les rotations en photogrammétrie et en robotique. Les quaternions de Hamilton fournissent un moyen plus général de représenter les rotations, en particulier lorsqu'ils sont limités aux quaternions unitaires, qui peuvent être mappés directement sur des rotations dans trois espaces. Cela permet de discuter d'un espace de rotation et d'optimisation dans cet espace. Les applications sont vastes, de la robotique à la science biomédicale, et le conférencier vise à développer une solution fermée pour des problèmes impliquant la mesure de deux objets dans des systèmes de coordonnées différents ou d'un objet qui bougeait.

  • 00:05:00 Dans cette section, le sujet de la rotation est introduit et expliqué. Le théorème d'Euler stipule que toute rotation d'un objet rigide a la propriété qu'il existe une ligne qui n'est pas modifiée, qui est l'axe. Le théorème de l'axe parallèle stipule que toute rotation autour de n'importe quel axe équivaut à une rotation autour d'un axe passant par l'origine, plus une translation. Pour simplifier les choses, il convient de séparer translation et rotation. La vitesse de rotation est beaucoup plus facile que les rotations finies elles-mêmes puisque la vitesse angulaire ne nécessite qu'un vecteur et une vitesse. Enfin, les rotations finies ne commutent pas, et pour n = 3, il y a trois degrés de liberté.

  • 00:10:00 Dans cette section, le conférencier explique qu'il est préférable de penser aux rotations comme préservant certains plans. Par exemple, le plan xy peut être conservé pendant que les éléments qu'il contient sont déplacés vers un autre emplacement. Le conférencier note également que les produits croisés ont trois degrés de liberté et sont représentés comme des vecteurs car ils sont perpendiculaires aux deux vecteurs multipliés. Des représentations pour la rotation existent, et une méthode utile est la notation d'axe et d'angle où l'axe est un vecteur unitaire et le nombre de degrés tourné est représenté par un angle. Le vecteur de Gibbs est une autre notation qui combine l'axe et l'angle en un seul vecteur, bien qu'il ne soit plus un vecteur unitaire et explose à thêta égal à pi.

  • 00:15:00 Dans cette section, le conférencier explique les différentes façons de représenter la rotation, y compris les angles d'Euler, les matrices orthonormées, la forme exponentielle, la stéréographie et les matrices complexes. Chaque méthode a ses propres contraintes et il existe 24 définitions différentes pour les angles d'Euler, ce qui la rend déroutante. Cependant, les quaternions unitaires sont la méthode la plus populaire et la plus utile pour représenter les rotations car ils présentent de nombreux avantages, tels qu'être compacts, faciles à interpoler et non affectés par le verrouillage Gimbal. Il est également essentiel de pouvoir convertir entre différentes représentations de rotation.

  • 00:20:00 Dans cette section, l'orateur discute du problème de la rotation d'un vecteur et de la recherche de sa position dans un système de coordonnées tourné, ainsi que de la composition de rotations. L'orateur présente la formule de Rodriguez, qui résout le premier problème en prenant un vecteur et en le faisant tourner d'un angle autour d'un axe donné. En décomposant le problème en 2D, l'orateur montre comment la formule de rotation est simple dans le plan, mais plus complexe en 3D. L'orateur explique que la notation des axes et des angles est utile pour visualiser les rotations, mais que la composition est difficile à réaliser.

  • 00:25:00 Dans cette section, le conférencier aborde différentes représentations de la rotation, y compris la cartographie d'une sphère sur un plan à l'aide d'une technique de projection, qui préserve les angles et les formes. Il mentionne également l'importance de pouvoir faire pivoter des vecteurs et de composer des rotations, ainsi que d'avoir une représentation intuitive comme l'axe et l'angle. Cependant, il note que certaines représentations comme les matrices de rotation et l'axe-angle peuvent être redondantes ou peu intuitives. L'enseignant souligne également l'importance d'éviter les singularités et d'assurer l'efficacité des calculs tout en étant capable d'interpoler l'orientation dans les graphiques.

  • 00:30:00 Dans cette section, le conférencier discute des défis de la représentation et de l'interpolation des rotations en infographie, ainsi que de la nécessité d'un espace de rotations pouvant être efficacement échantillonné et moyenné. Il souligne les limites de l'utilisation des matrices, des angles d'Euler, du verrouillage du cardan et d'autres méthodes conventionnelles, et présente les quaternions comme une solution plus pratique. Il explique comment les quaternions peuvent éviter les redondances et les singularités, et comment ils peuvent être composés, interpolés et échantillonnés d'une manière mathématiquement élégante et efficace en termes de calcul. Il met également en évidence certains des problèmes ouverts et des recherches en cours dans ce domaine, notamment l'optimisation et l'ajustement des rotations aux modèles, et le développement de nouvelles méthodes d'analyse et de visualisation des espaces de rotation.

  • 00:35:00 Dans cette section, l'orateur explique l'histoire de la création des quaternions et leur signification en mathématiques, notamment en rotation. Il explique que William Hamilton, un mathématicien de Dublin, essayait de trouver un moyen de représenter des triplets de nombres d'une manière qui permettait la division, alors il s'est inspiré des nombres complexes. Hamilton a finalement découvert que les quaternions, ou nombres avec une partie réelle et trois parties imaginaires, pouvaient résoudre le problème. L'orateur poursuit ensuite en expliquant les différentes manières de représenter les quaternions, y compris sous forme de vecteur dans l'espace ou de matrice quatre par quatre.

  • 00:40:00 Dans cette section, le conférencier discute de différentes manières de représenter la multiplication de quaternions, y compris l'utilisation de matrices et l'utilisation d'une partie scalaire et de trois parties imaginaires. L'enseignant souligne que la multiplication est non commutative et montre comment elle peut être représentée comme un produit d'une matrice et d'un vecteur. La conférence met également en évidence certains résultats de base, notamment le fait que la multiplication de quaternions n'est pas commutative mais associative.

  • 00:45:00 Dans cette section, l'orateur explique les propriétés des quaternions qui en font un moyen utile de représenter les rotations. Les quaternions ont des propriétés similaires aux nombres complexes, y compris un conjugué qui consiste à nier la partie imaginaire. Le produit scalaire peut être exprimé comme une norme, et la multiplication d'un quaternion par son conjugué donne une quantité réelle sans partie imaginaire, qui peut être utilisée pour la division. Dans le cas des quaternions unitaires, l'inverse n'est que le conjugué. Les quaternions peuvent également être utilisés pour représenter des vecteurs en omettant la partie scalaire, et il existe de nombreuses propriétés intéressantes dans cet espace.

  • 00:50:00 Dans cette section, le conférencier explique comment représenter la rotation à l'aide de quaternions. Contrairement à la simple multiplication de quaternions, une opération de pré-multiplication d'un quaternion par un vecteur, de post-multiplication par son conjugué et d'extraction de la partie imaginaire du vecteur donne un quaternion avec une partie scalaire nulle qui peut être appliquée pour faire pivoter un vecteur en 3D. En représentant la multiplication de quaternions à l'aide de matrices quatre par quatre, l'enseignant montre ensuite comment cette opération préserve les produits scalaires des vecteurs d'origine. En fin de compte, la matrice de rotation orthonormée trois par trois résultante peut être utilisée pour faire pivoter des vecteurs sans manipuler directement les quaternions.

  • 00:55:00 Dans cette section, le conférencier discute des propriétés qui définissent une rotation et comment la représenter à l'aide d'un quaternion. Un quaternion est une représentation en quatre dimensions d'une rotation qui préserve les produits scalaires, les produits triples, la longueur, les angles et la sensibilité, ce qui en fait une représentation appropriée d'une rotation. La composition des rotations est simple en notation quaternion, alors qu'elle est difficile à la fois en angle d'axe et en angle d'Euler. La partie vectorielle du quaternion est parallèle à l'axe de rotation, ce qui facilite la détermination de l'axe. Le conférencier explique comment convertir entre les représentations axe-angle et quaternion et identifie que le côté opposé d'une sphère représente les mêmes rotations, ce qui est une connaissance essentielle en photogrammétrie pour le calcul des moyennes.

  • 01:00:00 Dans cette section de la conférence, l'orateur discute du problème de trouver la transformation de coordonnées entre deux systèmes de coordonnées ou la meilleure rotation et translation entre deux objets avec des points correspondants mesurés dans les deux systèmes de coordonnées. En utilisant un analogue physique avec des ressorts, le système veut minimiser la somme des carrés des erreurs pour trouver la rotation et la translation. La première étape pour trouver la translation consiste à prendre le barycentre du système gauche après rotation dans le barycentre du système droit, ce qui est intuitif et ne nécessite pas de correspondances. La formule de traduction est ensuite utilisée pour simplifier l'expression de minimisation du terme d'erreur. Le moyen terme est le seul qui puisse être modifié, et en le maximisant, le système peut maximiser le produit scalaire des points correspondants.

  • 01:05:00 Dans cette section, le conférencier explique comment aligner les caméras des engins spatiaux avec les directions du catalogue en utilisant la notation quaternion. Ils utilisent des quaternions pour cartographier la direction des étoiles dans la caméra avec des directions de catalogue, où le but est de maximiser le produit scalaire de ces deux quaternions. Cependant, comme cela peut entraîner de grandes valeurs pour le quaternion, il y a une contrainte supplémentaire qui doit être imposée. Le conférencier explique deux méthodes pour différencier par rapport au quaternion, qui est utilisé pour minimiser la différence entre les deux directions du quaternion.

  • 01:10:00 Dans cette section de la conférence, le professeur discute du vecteur propre et de la valeur propre d'une matrice symétrique réelle quatre par quatre qui est construite à partir des données. Contrairement au passé, où la plus petite valeur propre était souhaitée, à cause du retournement sinusoïdal, nous devons choisir le vecteur propre qui correspond à la plus grande valeur propre. La matrice est symétrique, ce qui signifie qu'elle a neuf quantités indépendantes et que son déterminant a un terme cubique égal à zéro. Bien qu'elle ait 16 grandeurs indépendantes, dix d'entre elles sont indépendantes, ce qui rend cette matrice spéciale. Cela lui permet de se réduire à une équation cubique, ce qui facilite sa résolution. Le professeur note également que les équations cubiques et les équations quartiques peuvent être résolues sous forme fermée, contrairement aux équations du cinquième ordre.

  • 01:15:00 Dans cette section, le conférencier discute des propriétés souhaitables des quaternions comme moyen de représenter les rotations. Ces propriétés incluent la possibilité de faire pivoter des vecteurs et de composer facilement des rotations, une représentation intuitive non redondante, une efficacité de calcul et la possibilité d'interpoler des orientations et de prendre des moyennes sur une plage de rotations. Le conférencier présente ensuite l'orientation relative comme un problème de recherche de la ligne de base et de l'orientation relative de deux systèmes de coordonnées à l'aide des données de direction de deux points dans le monde. Les quaternions sont également utiles pour décrire la cinématique d'un robot manipulateur et peuvent aider à éviter les problèmes d'alignement des systèmes de coordonnées, en particulier au poignet.

  • 01:20:00 Dans cette section, l'orateur discute de l'efficacité des quaternions dans la représentation des rotations par rapport aux matrices orthonormées, démontrant que les multiplications de quaternions sont plus rapides pour la composition mais plus lentes pour les vecteurs rotatifs. Il note que les quaternions sont également plus faciles à renormaliser que les matrices. L'orateur discute ensuite de la façon d'échantillonner l'espace des rotations en quatre dimensions en projetant des polyèdres sur la sphère des rotations, résultant en un échantillonnage régulier et uniforme de l'espace.

  • 01:25:00 Dans cette section, le cours aborde différentes méthodes de représentation des rotations dans un espace à quatre dimensions, telles que l'utilisation de systèmes de coordonnées pour simplifier les expressions des groupes de rotation. La conférence explore également divers groupes de rotation pour différents polyèdres, en utilisant ces groupes pour fournir un échantillonnage spatial régulier de l'espace, afin que les utilisateurs puissent essayer différentes orientations pour leurs recherches ou leur moyenne. Cependant, il est à noter que ces méthodes peuvent nécessiter des astuces pour obtenir un échantillonnage plus fin, et que le choix du bon système de coordonnées est crucial.
 

Cours 19 : Orientation absolue sous forme fermée, valeurs aberrantes et robustesse, RANSAC



Cours 19 : Orientation absolue sous forme fermée, valeurs aberrantes et robustesse, RANSAC

La conférence couvre divers aspects de l'orientation absolue, notamment l'utilisation de quaternions unitaires pour représenter les rotations en photogrammétrie, la conversion entre les représentations quaternioniques et matricielles orthonormées, le traitement de la symétrie de rotation et la coordination de la traduction, de la mise à l'échelle et de la rotation sans correspondance. La conférence aborde également le problème des valeurs aberrantes et de la robustesse dans les processus d'ajustement et de mesure des lignes et présente la méthode RANSAC (Random Sample Consensus) comme moyen d'améliorer la fiabilité des mesures lorsque des valeurs aberrantes sont présentes. La conférence se termine par une discussion sur la résolution du problème d'orientation absolue sous forme fermée à l'aide de deux plans dans un scénario coplanaire, y compris les défis liés aux valeurs aberrantes et à l'optimisation.

Dans cette vidéo sur l'orientation absolue, le conférencier aborde la question des valeurs aberrantes dans les données réelles et propose l'utilisation de RANSAC, une méthode de consensus impliquant des ajustements aléatoires de sous-ensembles pour traiter les valeurs aberrantes. Le conférencier aborde également les méthodes permettant d'obtenir une distribution uniforme des points sur une sphère, notamment l'inscription d'une sphère dans un cube et la projection de points aléatoires, la mosaïque de la surface de la sphère et la génération de points sur des polyèdres réguliers. De plus, le conférencier couvre les moyens d'échantillonner l'espace des rotations pour une reconnaissance efficace de plusieurs objets dans une bibliothèque, de trouver le nombre de rotations nécessaires pour aligner un objet avec lui-même et d'aborder le problème de la recherche de rotations à travers des exemples ou la multiplication de quaternions.

  • 00:00:00 Dans cette section de la conférence, l'orateur discute de l'utilisation des quaternions unitaires pour représenter les rotations en photogrammétrie. Les quaternions unitaires permettent une solution de forme fermée au problème le moins pire, fournissant un moyen objectif d'obtenir la réponse la mieux adaptée, ce qui est plus difficile avec d'autres notations. Les deux opérations particulièrement importantes sont la composition des rotations et la rotation d'un vecteur, qui peuvent toutes deux être représentées à l'aide de la formule discutée. L'orateur relie également cette notation aux axes et à la notation des angles en utilisant la formule de Rodriguez. Dans l'ensemble, l'utilisation de quaternions unitaires permet une manière plus efficace de représenter les rotations en photogrammétrie.

  • 00:05:00 Dans cette section de la vidéo, l'orateur discute de la conversion entre les représentations quaternioniques et matricielles orthonormées. La formule de conversion des quaternions en matrices implique une matrice quatre par quatre avec à la fois des parties asymétriques et symétriques. L'orateur explique que la première ligne et la première colonne ne sont pas pertinentes car elles représentent un quaternion spécial qui est un vecteur avec une partie scalaire nulle. Pour reconvertir une matrice orthonormée en un quaternion, l'orateur recommande d'utiliser la trace de la sous-matrice trois par trois. Cette méthode se termine par une équation sous la forme de deux termes cosinus qui nous permet de résoudre le cosinus de l'angle entre les matrices.

  • 00:10:00 Dans cette section, le conférencier discute de différentes manières de calculer la matrice de rotation à partir des éléments diagonaux de la matrice R. Alors qu'une approche est centrée autour de la trace de la matrice de rotation, elle souffre de problèmes proches de thêta égal à zéro. Au lieu de cela, il est préférable d'utiliser les éléments hors diagonale, qui dépendent tous du sinus de thêta sur deux. La conférence continue ensuite en donnant une formule d'inversion complète qui calcule diverses sommes et différences et prend des racines carrées. Le problème avec cette approche est l'ambiguïté du sinus, mais la conférence suggère de choisir le plus grand pour la précision numérique et de le résoudre.

  • 00:15:00 Dans cette section, l'orateur discute du processus de conversion entre le quaternion et la matrice de rotation, à la fois directement et indirectement, et comment tenir compte de l'échelle dans les transformations de coordonnées. Ils expliquent le processus de résolution des facteurs de rotation et d'échelle à l'aide d'un problème des moindres carrés et en minimisant la somme de quatre sommes. L'orateur souligne l'importance de tenir compte de l'échelle lors de l'assemblage de morceaux de terrain obtenus à partir de positions de caméra successives et explique comment trouver l'optimum dans ces situations.

  • 00:20:00 Dans cette section, l'orateur aborde la question de la symétrie en rotation, où la méthode utilisée pour calculer la rotation devrait pouvoir être inversée pour obtenir l'inverse de la matrice de rotation. L'orateur explore également un autre terme d'erreur qui est préféré aux méthodes précédentes car il ne nécessite pas de correspondances et peut mapper le centroïde au centroïde. Cette méthode consiste à trouver le facteur d'échelle en définissant la dérivée du terme d'erreur par rapport au facteur d'échelle égale à zéro et en résolvant pour le facteur d'échelle, ce qui évite de tricher en rendant le facteur d'échelle un peu plus petit qu'il ne devrait l'être.

  • 00:25:00 Dans cette section, le conférencier explique comment gérer la traduction, la mise à l'échelle et la rotation sans correspondance. En utilisant une méthode centroïde, le facteur d'échelle peut être calculé comme le rapport des tailles de deux nuages de points. Avec la partie rotation, le conférencier aborde brièvement le problème de calcul de la maximisation d'un déterminant négatif d'une matrice, N, par rapport à q, le quaternion. La solution peut être trouvée en utilisant des multiplicateurs de Lagrange, mais une méthode plus simple appelée quotient de Rall, qui divise par la longueur de q pour l'empêcher de devenir infiniment grand, peut également être utilisée. La fonction résultante est constante le long de n'importe quel tableau, donnant la direction du rayon qui le rend aussi extrême que possible.

  • 00:30:00 Dans cette section, l'orateur explique comment trouver la matrice qui maximise sigma en différenciant l'équation et en la mettant à zéro. À l'aide d'une formule de rapport pour la différenciation, l'orateur montre ensuite comment q est un vecteur propre et explique que la matrice peut être maximisée en choisissant le vecteur propre correspondant à la plus grande valeur propre. La seule contrainte à cette méthode est que le vecteur propre doit satisfaire la contrainte obtenue à partir des données de correspondance. Cependant, contrairement aux matrices orthonormées, cette contrainte est beaucoup plus facile à gérer.

  • 00:35:00 Dans cette section, le conférencier discute du nombre de correspondances nécessaires pour les problèmes photogrammétriques. Ils visent à trouver six choses : la rotation translationnelle et la mise à l'échelle, ce qui signifie trois contraintes par correspondance, et donc, seules deux correspondances sont nécessaires. Cependant, avec seulement deux correspondances, il n'y a que cinq contraintes ; par conséquent, il faut trois correspondances pour y parvenir. De plus, l'enseignant mentionne la possibilité de généraliser la transformation pour correspondre aux neuf contraintes obtenues à partir de trois points ; cependant, ils notent que ces contraintes sont hautement redondantes.

  • 00:40:00 Dans cette section, la vidéo aborde le concept de transformation linéaire générale en 3D, qui implique 12 éléments, et non six comme en 2D, ce qui rend difficile la détermination avec trois correspondances. De plus, la vidéo explique qu'il existe deux manières d'échouer pour la transformation linéaire. Premièrement, s'il n'y a pas assez de correspondances, et deuxièmement, si la matrice N a plus d'une valeur propre nulle. La vidéo explique en outre comment résoudre l'équation caractéristique pour trouver les valeurs propres de la matrice.

  • 00:45:00 Dans cette section de la vidéo, le conférencier explique comment calculer la matrice M en utilisant le produit diatique, qui est une matrice trois par trois utilisée pour calculer la matrice quatre par quatre N, qui est la plus moyen efficace d'obtenir N. On note que si le déterminant de M est nul, alors le problème devient particulièrement facile à résoudre car C1 est nul, ce qui permet de résoudre l'équation sans avoir besoin d'un manuel spécial. Ce cas particulier concerne une distribution de points et peut se produire lorsque les points sont coplanaires. L'enseignant montre comment cela s'applique aussi bien si les points sont tous dans un plan, ce qui rend le problème facile à résoudre.

  • 00:50:00 Dans cette section de la vidéo, l'orateur explique comment résoudre le problème de l'orientation absolue sous forme fermée en utilisant deux plans dans un scénario coplanaire. La rotation 3D complète peut être décomposée en deux rotations simples, d'abord la rotation d'un plan de sorte qu'il se trouve au-dessus de l'autre plan, puis une rotation dans le plan. L'orateur explique comment trouver l'axe et l'angle requis pour construire le quaternion et faire pivoter tous les points dans l'un des systèmes de coordonnées pour les aligner sur l'autre système de coordonnées. De plus, l'orateur discute des défis liés au traitement des valeurs aberrantes dans le problème d'optimisation et comment l'utilisation d'autre chose que le carré de l'erreur, comme la valeur absolue de l'erreur, peut entraîner plus de travail à calculer et des difficultés à généraliser les résultats.

  • 00:55:00 Dans cette section, le conférencier discute du problème des valeurs aberrantes et de la robustesse dans l'ajustement de ligne et d'autres processus de mesure. Il présente la méthode RANSAC (Random Sample Consensus), qui consiste à prendre un échantillon aléatoire de points et à utiliser les moindres carrés pour trouver le meilleur ajustement, puis à vérifier le nombre de points qui se situent à l'intérieur d'une bande et à ajuster le seuil en fonction du bruit et de la rapport des inliers aux outliers. Le processus est répété jusqu'à ce qu'un bon ajustement soit obtenu. L'enseignant note que l'utilisation de RANSAC peut améliorer la fiabilité des mesures dans des situations où des valeurs aberrantes sont présentes.

  • 01:00:00 Dans cette section de la vidéo, le conférencier aborde la question des valeurs aberrantes en présence de données réelles et comment y faire face en utilisant la méthode du consensus, également connue sous le nom de RANSAC. La méthode consiste à prendre des sous-ensembles aléatoires, à effectuer des ajustements et à rechercher les cellules qui ont le plus de résultats, ce qui donne une mesure de l'orientation des objets qui peuvent ne pas avoir de solution de forme fermée. L'enseignant souligne que cette approche est utile dans de nombreuses applications et ne se limite pas à l'orientation absolue. De plus, le conférencier mentionne que les représentations d'objets compliqués proches de la convexité peuvent également être utiles pour détecter des objets et trouver leur orientation.

  • 01:05:00 Dans cette section, le conférencier discute des difficultés d'échantillonnage de points sur une sphère pour atteindre l'uniformité. Une distribution uniforme des points ne peut pas être obtenue en échantillonnant thêta et phi à l'aide d'un générateur de distribution uniforme en raison des régions polaires ayant plus de concentration que les autres. La solution proposée est d'inscrire une sphère dans le cube et de projeter des points aléatoires du cube vers la sphère. Cependant, cela conduit toujours à une densité plus élevée de points où la sphère est tangente au cube. Pour résoudre ce problème, le conférencier suggère de tesseler la surface de la sphère à l'aide de solides réguliers ou d'introduire du poids sur les points proches des coins pour contracter leur agrégation.

  • 01:10:00 Dans cette section de la vidéo, le conférencier discute des moyens d'obtenir une distribution uniforme des points sur la surface d'une sphère. Une façon consiste à générer des points uniformément dans un cube et à les projeter sur la surface de la sphère tout en supprimant les points trop proches de l'origine ou trop éloignés de la sphère. Une autre méthode consiste à diviser la sphère à l'aide de polyèdres réguliers et à générer des points uniformément sur ces formes. Cependant, cette méthode nécessite une subdivision pour obtenir des divisions plus fines, contrairement à la première méthode qui génère une distribution pratiquement uniforme.

  • 01:15:00 Dans cette section, le conférencier explique comment trouver des moyens uniformes d'échantillonner l'espace des rotations pour divers objets, ce qui fait partie du processus de reconnaissance de plusieurs objets dans une bibliothèque. Le conférencier explique que pour être efficace, ils ne veulent pas échantillonner des parties de l'espace de rotation plus densément que d'autres parties, et ils visent à trouver une manière uniforme d'échantillonner l'espace. Ils commencent par discuter de l'hexaèdre, qui a une symétrie de rotation, et de ses rotations. Le conférencier explique que l'objectif est de trouver des méthodes de rotation qui facilitent la recherche de correspondances ponctuelles entre différents modèles.

  • 01:20:00 Dans cette section, l'orateur explique comment trouver le nombre de rotations nécessaires pour aligner un objet sur lui-même, puis génère un groupe de rotations en utilisant deux méthodes : géométriquement et par multiplication de quaternions. Une nouvelle rotation intéressante, dont l'axe est (1, 1, 1) et l'angle est 2π/3, est trouvée et est montrée pour aligner le coin d'un cube avec lui-même.

  • 01:25:00 Dans cette section, l'orateur propose deux façons d'aborder le problème de la recherche de rotations. La première consiste à regarder des exemples et à les additionner pour obtenir un total de 24 rotations. La deuxième façon consiste à implémenter la multiplication de quaternions et à construire une table en prenant des produits par paires pour voir si vous vous retrouvez avec quelque chose de nouveau. L'orateur mentionne ensuite que la prochaine discussion portera sur l'orientation relative, ce qui est plus pertinent pour les visions binoculaires.
 

MIT 6.801 Machine Vision, automne 2020. Conférence 20 : Espace de rotations, tessellations régulières, surfaces critiques, stéréo binoculaire



Cours 20 : Espace des rotations, pavages réguliers, surfaces critiques, stéréo binoculaire

Cette section de la conférence couvre des sujets tels que les pavages réguliers, les surfaces critiques, la stéréo binoculaire et la recherche des paramètres d'une transformation dans un espace tridimensionnel. Le conférencier explique que la meilleure façon de tesseller une sphère est d'utiliser le double d'une tessellation triangulaire, en créant des formes approximativement hexagonales avec quelques pentagones. Ils discutent également des surfaces critiques, qui sont difficiles pour la vision artificielle, mais peuvent être utilisées pour créer des meubles à partir de bâtons droits. Dans la discussion sur la stéréo binoculaire, le conférencier explique la relation entre deux caméras, le concept de lignes épipolaires et comment trouver l'intersection de deux caméras pour déterminer un point dans le monde. Ils expliquent également comment calculer l'erreur entre deux rayons pour déterminer leur intersection et minimiser l'erreur d'image tout en tenant compte du facteur de conversion entre erreur dans le monde et erreur dans l'image. Enfin, ils expliquent comment trouver la ligne de base et D pour récupérer la position et l'orientation d'un objet rigide dans l'espace en utilisant un quaternion pour représenter la ligne de base.

La conférence couvre divers sujets, notamment l'espace des rotations, les pavages réguliers, les surfaces critiques et la stéréo binoculaire. Pour les rotations, l'instructeur discute de l'utilisation des approches numériques, du problème des singularités et des avantages de l'utilisation des quaternions unitaires. Avec des pavages réguliers, ils montrent comment certaines surfaces peuvent causer des problèmes avec la stéréo binoculaire et suggèrent d'utiliser des mesures d'erreur et des poids pour atténuer les problèmes. L'orateur aborde également les surfaces quadriques et introduit un nouveau problème de devoir qui implique une "réflexion sans peur".

  • 00:00:00 Dans cette section de la vidéo, l'orateur discute de la mosaïque de la surface d'une sphère basée sur des solides platoniques et archimédiens, qui ont des projections de surface égale sur la sphère. La tessellation de la surface peut être effectuée en utilisant des polygones réguliers comme facettes, les triangles, les carrés et les pentagones étant couramment utilisés. Les aires des polygones ne sont pas égales et, par conséquent, la surface tessellée comporte de nombreuses divisions. Cette méthode de pavage est pertinente lorsqu'il s'agit de rotations, et l'orateur explique les groupes de rotation de ces solides. La vidéo mentionne également l'utilisation d'un dôme géodésique, qui est basé sur la mosaïque d'un icosaèdre en de nombreuses zones triangulaires pour créer une structure régulière.

  • 00:05:00 Dans cette section, le conférencier a discuté de diverses mosaïques régulières, qui sont des moyens de diviser une surface en formes de taille égale. Alors que les pavages carrés sont couramment utilisés dans les plans, ils ne sont pas idéaux pour les sphères, et les pavages triangulaires sont également problématiques. Le conférencier a mis en évidence une meilleure option : le double d'une mosaïque triangulaire, qui présente des formes approximativement hexagonales et quelques formes pentagonales. De plus, le conférencier a expliqué les surfaces critiques, qui sont des hyperboloïdes d'une feuille. Ces surfaces sont difficiles pour les problèmes de vision artificielle, mais elles ont la particularité d'être réglées et peuvent être utilisées pour fabriquer des meubles à partir de bâtons droits. Enfin, le conférencier a discuté des hyperboloïdes de deux feuilles qui ont deux signes négatifs dans leur équation.

  • 00:10:00 Dans cette section, le conférencier aborde les différents types de surfaces qui peuvent être créées avec deux feuilles ou trois signes négatifs. Il explique également les différents cas particuliers qui existent, tels que les surfaces hyperboloïdes, coniques, paraboloïdes et planes. Ensuite, le conférencier explique le problème du calcul 3D à partir de 2D à l'aide de deux caméras et comment l'orientation relative est nécessaire pour comprendre la géométrie des deux caméras. La conférence se termine en mentionnant comment la stéréo binoculaire est applicable dans les véhicules autonomes, et l'étalonnage peut devoir être effectué à nouveau si la ligne de base n'est pas rigide, mais le même processus fonctionne également pour la structure à partir du mouvement avec des images avant et après.

  • 00:15:00 Dans cette section, le conférencier explique le concept de trouver l'intersection de deux caméras pour déterminer un point dans le monde, comment le système de coordonnées est sélectionné et la géométrie associée à ce concept. Le conférencier souligne que la ligne de base est mesurée dans le système de coordonnées droit et que le nombre premier indique comment il est converti à partir du système de coordonnées gauche. Lorsque le point est connecté à la ligne de base, il définit un plan et l'image du plan dans les deux systèmes de caméra se projette sur une ligne droite où le point est imagé quelque part le long de cette ligne. La conférence introduit également le concept de lignes épipolaires et comment elles aident à trouver des disparités qui conduisent à une mesure de distance.

  • 00:20:00 Dans cette section, le conférencier discute de la relation entre les deux caméras dans une configuration stéréo binoculaire, qui implique la ligne de base et la rotation d'une caméra par rapport à l'autre. La rotation a trois degrés de liberté, mais en raison de l'ambiguïté du facteur d'échelle, le problème est réduit à cinq degrés de liberté au lieu de six, comme avec l'orientation absolue. La ligne de base est traitée comme un vecteur unitaire, ne donnant que deux degrés de liberté pour ce composant. Le conférencier explique que des informations supplémentaires, telles que la connaissance de la taille des objets imagés, seraient nécessaires pour déterminer la longueur absolue de la ligne de base.

  • 00:25:00 Dans cette section, le conférencier explique comment déterminer le nombre de correspondances nécessaires pour cerner les mesures. Il explique l'analogie mécanique consistant à créer un fil à partir de points d'image et à les faire passer à travers un collier pour le contraindre. Le conférencier explique que si seulement deux correspondances sont utilisées, il y a encore des degrés de liberté, ce qui signifie qu'il est possible de changer la rotation de la caméra. L'ajout d'une deuxième correspondance réduit le degré de liberté mais reste insuffisant. La réponse est cinq, ce qui donne une contrainte par correspondance, leur permettant de mettre à zéro les disparités verticales dans l'orientation de la caméra. La profondeur de champ est inversement proportionnelle aux disparités horizontales. L'instrument peut être configuré en ajustant les disparités verticales, c'est ainsi que l'équipement optique a été configuré pendant des décennies.

  • 00:30:00 Dans cette section de la conférence, l'orateur discute du processus de recherche des paramètres d'une transformation dans un espace tridimensionnel en utilisant une séquence de mouvements et d'ajustements pour converger, ce qui peut être un processus douloureux et compliqué. Cependant, en pratique, il est important d'avoir plus de cinq points pour garantir la précision et minimiser l'erreur de mesure de la position de l'image. Ce problème non linéaire se traduit par sept équations du second ordre, qui une fois résolues peuvent donner deux aux sept (128) solutions. Bien que ce soit une curiosité pour la plupart, les personnes intéressées par les applications théoriques trouvent cela amusant à comprendre. Enfin, la conférence discute de la nature coplanaire des trois vecteurs lors de la recherche des paramètres de base et de rotation à partir des correspondances.

  • 00:35:00 Dans cette section, le concept de construction d'une pipette parallèle en utilisant trois vecteurs comme arêtes et en déterminant son volume à travers le triple produit est expliqué. Lorsque les trois vecteurs sont coplanaires, l'objet est plat et n'a pas de volume tridimensionnel, rendant sa valeur attendue nulle ou la condition de coplanarité. Une méthode potentielle pour minimiser la somme des carrés du produit triple pour chaque correspondance pour estimer la ligne de base et la rotation avec un minimum d'erreurs est discutée. Cependant, ce n'est pas une méthode fiable car elle a un gain de bruit élevé et peut donner des réponses incorrectes. Pour minimiser les erreurs de mesure et déterminer le facteur de proportionnalité, l'accent est mis sur la minimisation de la séparation minimale entre deux rayons lorsque les mesures et la ligne de base ou la rotation ne sont pas parfaites.

  • 00:40:00 Dans cette section, le conférencier explique comment calculer l'erreur entre deux rayons et déterminer leur intersection. Il explique que l'approche minimale de la distance entre deux rayons doit être perpendiculaire à ces deux rayons, ce qui signifie qu'elle est parallèle au produit croisé. En ajoutant des vecteurs et en les mettant égaux à zéro, l'équation peut être convertie en une équation scalaire à l'aide de produits scalaires, fournissant trois contraintes différentes. Le conférencier poursuit ensuite en expliquant comment simplifier l'équation en supprimant certains termes et comment calculer gamma, bêta et alpha, ce qui aidera à déterminer à quelle distance se trouve l'intersection ou presque l'intersection le long des rayons.

  • 00:45:00 Dans cette section, l'orateur discute de l'importance de trois quantités - alpha, bêta et gamma - dans le calcul de la position tridimensionnelle dans l'espace des rotations. Alors que gamma est simplement l'erreur de distance, alpha et bêta peuvent être négatifs, indiquant si les segments de ligne qui se croisent peuvent être derrière le spectateur, ce qui n'est généralement pas physiquement raisonnable. L'orateur mentionne qu'une solution de forme fermée n'est actuellement pas possible en raison de l'équation du cinquième ordre impliquée, mais la minimisation de l'erreur d'image est toujours réalisable. En rejetant les solutions avec alpha ou bêta négatif et en utilisant un solveur quintique, l'erreur dans l'image peut être minimisée.

  • 00:50:00 Dans cette section, l'orateur aborde le problème de la minimisation de l'erreur de la somme des carrés en stéréo binoculaire tout en tenant compte du facteur de conversion entre l'erreur dans le monde et l'erreur dans l'image. Cela dépend de la solution et est résolu de manière itérative. Le triple produit, qui a été tourné du système de coordonnées gauche vers la droite, est utilisé pour introduire des quaternions. L'orateur explique comment les quaternions avec des parties scalaires nulles sont utilisés pour faire pivoter le produit triple du système de coordonnées droit vers la gauche. La formule de multiplication entre les quaternions représentant des vecteurs se simplifie en un produit scalaire et un produit croisé. Lemme est énoncé sans preuve pour une manière de déplacer l'un des multiplicateurs de l'autre côté.

  • 00:55:00 Dans cette section, l'orateur explique comment trouver la ligne de base et retrouver la position et l'orientation d'un objet rigide dans l'espace, à partir de deux images de l'objet prises de points de vue différents. L'orateur définit une nouvelle quantité, qui est le produit de la ligne de base et de la rotation, et utilise un quaternion pour représenter la ligne de base, simplifiant le problème pour trouver la ligne de base et D. Bien qu'il y ait 8 inconnues, il n'y a que cinq degrés de liberté, le locuteur utilise donc diverses contraintes. Ils parlent également de symétries intéressantes qui permettent l'échange de coordonnées gauche et droite. Le poids, qui est la relation entre l'erreur dans l'espace 3D et l'erreur dans la position de l'image, est difficile à calculer mais peut être ajusté.

  • 01:00:00 Dans cette section, l'orateur discute d'un problème d'optimisation qui implique de calculer des pondérations basées sur une bonne première estimation, puis de recalculer ces pondérations et de résoudre à nouveau le problème. Ils abordent également la symétrie entre les tableaux gauche et droit et comment cela peut être utile dans le calcul numérique, ainsi que la symétrie entre la rotation et la translation dans le triple produit. En fin de compte, cette symétrie signifie que si l'on a une solution approximative, on peut générer d'autres solutions approximatives en utilisant cette symétrie. De plus, dans le processus de recherche de solutions, on peut trouver plusieurs versions qui donnent toutes les mêmes résultats, ce qui peut aider à accélérer le processus de recherche.

  • 01:05:00 Dans cette section, l'instructeur traite du calcul de l'espace des rotations à l'aide d'une approche numérique qui nécessite l'hypothèse d'une des valeurs inconnues avec une solution simple de forme fermée des moindres carrés. Une autre approche consiste à utiliser un package d'optimisation non linéaire, tel que la méthode Marquardt qui ajuste les paramètres jusqu'à ce que les équations soient aussi proches que possible de zéro. Cependant, ces approches ne sont pas considérées comme ayant une solution de forme fermée pour ce problème. De plus, l'instructeur explique qu'il y a un problème avec les rotations car, en raison de la méthode de la matrice orthonormée, il y a neuf nombres et seulement trois degrés de liberté, ce qui conduit à une singularité avec le vecteur de Gibbs à thêta égal à pi.

  • 01:10:00 Dans cette section, l'orateur discute de l'utilisation des quaternions unitaires pour représenter les rotations, citant qu'ils ont quatre nombres avec trois degrés de liberté. Il recommande d'ajouter des contraintes supplémentaires pour les rendre moins redondantes et déclare que ce package permet l'ajout de ces contraintes. Il aborde également la formule pour combiner deux rotations et la transformation d'un vecteur, ce qui est un peu plus compliqué. De plus, l'orateur souligne qu'il existe un texte de présentation de quatre pages qui résume tout ce que vous devez savoir sur les quaternions. Enfin, il discute de l'utilisation des mesures d'erreur et de la nécessité de la pondération lorsque l'on considère des valeurs z plus grandes pour éviter les erreurs importantes.

  • 01:15:00 Dans cette section, l'orateur explique que certains types de surfaces peuvent causer des problèmes avec la méthode stéréo binoculaire de détermination de l'orientation d'un objet. Ces "surfaces critiques" ont été découvertes il y a plus d'un siècle et peuvent entraîner une ambiguïté et une grande sensibilité aux erreurs. L'orateur donne l'exemple d'une vallée en forme de U où les angles entre différentes images de caractéristiques de surface ne changent pas lorsque l'avion se déplace le long de la surface, ce qui rend impossible la distinction de différentes positions. L'orateur note que l'hyperboloïde d'une feuille est un exemple courant de surface quadrique qui peut causer des problèmes avec la stéréo binoculaire, car il a le bon nombre de signes moins pour une feuille et peut ressembler étroitement à d'autres surfaces.

  • 01:20:00 Dans cette section, l'orateur parle de surfaces quadriques, en particulier des deux plans sécants qui constituent une version de cette surface. Chaque plan a une équation linéaire, et lorsqu'il est multiplié ensemble, la combinaison de deux plans est obtenue. L'un des plans passe par le centre de projection, ce qui signifie qu'il se projette dans une ligne. C'est encore plus étrange, car cela signifie qu'une surface plane est un problème, courant dans les structures artificielles. L'orateur mentionne avoir à parler de "réflexion sans peur" la prochaine fois, et un nouveau problème de devoirs a été introduit.
 

Cours 21 : Orientation relative, stéréo binoculaire, structure, quadrique, étalonnage, reproduction



Cours 21 : Orientation relative, stéréo binoculaire, structure, quadrique, étalonnage, reproduction

Cette conférence couvre des sujets liés à la photogrammétrie, notamment l'orientation relative, les surfaces quadriques, l'étalonnage de la caméra et les correspondances entre les points d'image et les objets 3D connus. Le conférencier explique diverses méthodes pour résoudre les problèmes de distorsion et obtenir des paramètres tels que f et tz. Ils soulignent également l'importance des vecteurs unitaires orthogonaux lors de la recherche de la matrice de rotation complète et fournissent des solutions pour trouver k en utilisant une formule plus stable. L'enseignant insiste sur l'importance de comprendre les équations homogènes, qui sont essentielles en vision artificielle.

Cette conférence couvre divers sujets liés à la vision par ordinateur et à l'étalonnage, notamment l'utilisation d'une cible plane pour l'étalonnage, l'ambiguïté de l'étalonnage de l'orientation extérieure, la redondance dans la représentation des paramètres de rotation et la détermination des propriétés statistiques de paramètres donnés par le rapport de gain de bruit. Le cours explique la formule de résolution d'une équation quadratique et introduit une méthode d'approximation par itération. Le cas de la cible plane est discuté comme une méthode couramment utilisée pour les applications d'étalonnage et de vision industrielle. La conférence aborde également la représentation de la forme et de la reconnaissance, ainsi que la détermination de l'attitude dans l'espace 3D.

  • 00:00:00 Dans cette section, l'orateur discute de l'orientation relative, qui est le deuxième des quatre problèmes de photogrammétrie, et de sa pertinence pour la stéréo binoculaire, la vision du mouvement et la structure du mouvement. L'orateur développe une solution mais constate qu'il existe des surfaces dont l'orientation relative ne peut être déterminée, notamment les surfaces quadriques. La conférence approfondit ensuite les types spécifiques de surfaces quadriques, telles que les ellipsoïdes, les hyperboloïdes d'une ou deux feuilles et les surfaces qui ont des formes imaginaires. L'orateur explique que si une surface n'a pas de terme constant, cela signifie que l'origine du système de la main droite, ou la position de la caméra au temps deux en vision en mouvement, se trouve sur la surface. De plus, si l'on branche moins b pour r, où b est la distance entre les deux caméras, il en résulte également une solution, ce qui signifie que la surface passe par les deux yeux.

  • 00:05:00 Dans cette section de la conférence, l'orateur discute des propriétés et des implications de l'équation de surface quadrique, qui est symétrique entre les positions de caméra gauche et droite dans une paire stéréo. L'équation n'a pas de terme constant, ce qui signifie qu'il n'y a pas de mise à l'échelle et que toute la ligne de base se trouve sur la surface. Cela suggère que la surface est une surface réglée et a deux règles, ce qui la rend intéressante pour la fabrication. L'équation couvre une variété de cas particuliers, y compris les surfaces planes, l'un des plans passant par l'origine des deux systèmes de coordonnées en tant que plan épipolaire. L'image de ce plan est une droite, ce qui n'est pas particulièrement intéressant, mais l'autre plan est arbitraire et peut être n'importe quoi.

  • 00:10:00 Dans cette section, le conférencier aborde la question de l'ambiguïté lors de la reconstruction de cartes topographiques ou de la récupération de la structure à partir du mouvement, car les deux problèmes sont mathématiquement les mêmes. Bien que ce problème soit plus susceptible de se produire dans des champs de vision étroits, il peut toujours être amplifié dans une situation de gain de bruit élevé. Pour lutter contre ce problème, un grand champ de vision est recommandé, c'est pourquoi des têtes d'araignée, un ensemble de caméras montées ensemble pour obtenir un large champ de vision, ont été créées pour la photographie aérienne. Le conférencier passe ensuite à l'orientation intérieure, qui est essentiellement l'étalonnage de la caméra. Alors que la méthode précédente d'étalonnage utilisant des points de fuite fonctionnait, il n'était pas très précis et difficile de tenir compte de la distorsion radiale. Le conférencier suggère la nécessité d'une méthode plus générale pour tenir compte de la distorsion radiale.

  • 00:15:00 Dans cette section, le conférencier discute des compromis qui accompagnent la conception d'un objectif, y compris la distorsion radiale, qui provoque une erreur dans les coordonnées polaires où l'image peut apparaître ailleurs le long d'une ligne au lieu de là où elle devrait. Cette distorsion est généralement approximée à l'aide d'un polynôme, le terme quadratique étant généralement suffisant pour obtenir des résultats décents. La conférence décrit ensuite une méthode de fil à plomb utilisée dans le passé pour mesurer la distorsion d'une lentille.

  • 00:20:00 Dans cette section, l'orateur discute des différents types de distorsion qui peuvent survenir dans les images, y compris la distorsion en barillet et la distorsion en coussinet, et comment elles sont liées au signe de k1. L'orateur mentionne également la possibilité d'utiliser une approximation polynomiale pour convertir entre les coordonnées déformées et non déformées, et comment cela affecte l'optimisation finale et le système de coordonnées utilisé. L'orateur note l'absence de distorsion tangentielle dans les systèmes d'imagerie modernes, car ils sont généralement symétriques en rotation et ne subissent qu'une distorsion radiale.

  • 00:25:00 Dans cette section, le conférencier discute des complications potentielles de l'étalonnage de la caméra telles que le décentrage de la distorsion et un plan d'image incliné. Pour un travail de haute qualité comme la photographie aérienne, ces facteurs doivent être pris en considération. Le conférencier explique qu'il existe une possibilité de petites erreurs dues à la nature mécanique de la fabrication de l'appareil photo qui peuvent avoir un impact sur le grossissement et la distorsion de l'image. Cela peut être compensé en ayant un modèle de distorsion plus complexe, et la méthode d'étalonnage de Tsai implique l'utilisation d'un objet d'étalonnage qui peut être plan ou tridimensionnel. Le conférencier explique également qu'autrefois, il s'agissait plutôt de régler finement l'appareil photo lors de la fabrication, mais à l'époque moderne, une solution logicielle et des extensions de modèle sont utilisées pour faire face à la distorsion.

  • 00:30:00 Dans cette section, l'orateur aborde le processus de détermination des correspondances entre les points de l'image et les points connus sur un objet 3D. Cependant, contrairement à la méthode du point de fuite, il est peu probable que nous puissions déterminer la relation entre l'objet d'étalonnage et la caméra à l'aide d'un ruban à mesurer. Par conséquent, nous devons ajouter une orientation extérieure pour résoudre le problème consistant à déterminer où se trouve l'objet d'étalonnage dans l'espace et comment il tourne, en plus de trouver les paramètres de la caméra. Alors que l'orientation extérieure ajoute plus d'inconnues, elle produit des résultats plus précis. L'orientation intérieure implique l'équation de projection en perspective et le point principal et la distance principale. La stratégie consiste à éliminer les paramètres difficiles et à trouver une méthode pour modifier les mesures afin de réduire la dépendance à la distorsion radiale, puis à trouver une solution de forme proche pour certains paramètres avant de recourir à des méthodes numériques.

  • 00:35:00 Dans cette section de la vidéo, l'orateur explique comment obtenir une bonne estimation initiale de la solution itérative lors du calcul de l'orientation relative en stéréo binoculaire. Bien que les principes établis doivent être gardés à l'esprit, certaines violations de ces principes sont autorisées à ce stade puisque la supposition initiale n'est pas la réponse. L'orateur explique que l'utilisation des numéros de ligne et de colonne pour les coordonnées xi et yi, et l'expression de f en taille de pixel, est pratique pour le processus de détermination de l'estimation initiale. L'orientation extérieure est également discutée, y compris la rotation et la translation de l'objet d'étalonnage, qui sont connues avec précision. Les équations qui sont généralement utilisées pour transformer une position dans l'objet d'étalonnage en une position dans l'objet caméra sont inversées et utilisées pour essayer de récupérer les paramètres de rotation et de translation inconnus.

  • 00:40:00 Dans cette section de la vidéo, l'orateur discute des défis liés à la gestion de la distorsion radiale et à l'obtention de f et tz. La solution suggérée est de travailler en coordonnées polaires, où la distorsion radiale ne modifie que la longueur, pas l'angle, et en utilisant une équation avec moins d'inconnues. L'équation implique des composantes de coordonnées de l'objet d'étalonnage et des coordonnées d'image, qui sont connues, et les composantes inconnues de r, tx et ty. Une équation linéaire peut être formée pour approximer la position du point principal, qui est nécessaire pour la solution.

  • 00:45:00 Dans cette section, l'orateur aborde le processus de détermination du point principal d'un capteur d'image et l'utilisation d'équations homogènes en vision artificielle. Pour déterminer le point principal, le locuteur suggère de supposer un point central et de jeter les correspondances trop proches du centre car de petites erreurs peuvent affecter considérablement leur direction. Une fois le point central supposé, l'orateur explique que huit équations sont nécessaires pour trouver les huit inconnues pour chaque correspondance, et ces équations sont homogènes, ce qui donne zéro. Alors que les équations homogènes sont souvent négligées dans l'enseignement traditionnel, elles sont essentielles en vision artificielle et il est essentiel de savoir comment les utiliser.

  • 00:50:00 Dans cette section, l'orateur discute de la méthode de résolution des équations homogènes en fixant l'une des inconnues et en la fixant à une valeur de choix, réduisant le nombre d'inconnues à sept. Cela signifie qu'au moins sept correspondances sont nécessaires, et il est souhaitable d'en avoir plus pour estimer l'erreur. Le système surdéterminé d'équations linéaires peut alors être résolu en utilisant des techniques comme la pseudo-inverse. Enfin, un facteur d'échelle est calculé pour faire des vecteurs calculés des vecteurs unitaires, qui agit comme un contrôle de cohérence pour les correspondances identifiées. La méthode fournit une première estimation pour toutes les inconnues à l'exception de F, Tz, de la distorsion radiale et de Tz, qui nécessite une analyse plus approfondie.

  • 00:55:00 Dans cette section, la conférence explique le processus de recherche du f et du tz par rapport à l'orientation relative, à la stéréo binoculaire, à la structure, aux quadriques, à l'étalonnage et à la reprojection. Le cours insiste sur l'importance des vecteurs unitaires orthogonaux lors de la recherche de la matrice de rotation complète. Lorsque deux vecteurs non orthogonaux sont présents, un petit ajustement est nécessaire qui se traduira par une paire de vecteurs orthogonaux. La conférence continue ensuite en expliquant comment l'équation quadratique peut être problématique pour trouver k, donc une autre formule est utilisée qui est plus stable.

  • 01:00:00 Dans cette section, le conférencier discute de la formule pour résoudre une équation quadratique et de la perte potentielle de précision qui peut survenir dans le calcul en raison de la soustraction de quantités presque égales. L'enseignant introduit une méthode d'approximation par itération, qui peut fournir une solution simple. La discussion inclut également le cas de cible planaire, qui, en raison de sa grande précision et de sa facilité d'utilisation, est couramment utilisé dans les applications d'étalonnage et de vision industrielle. Le conférencier explique qu'un modèle avec des coins caractéristiques déterminés avec précision est monté sur la cible pour mesurer la rotation des composants le long de deux axes différents, permettant un alignement des roues de haute précision.

  • 01:05:00 Dans cette section, le conférencier discute de l'utilisation d'une cible plane pour l'étalonnage, ce qui permet la construction d'un système de coordonnées avec des valeurs x, y et z connues. L'équation de cette approche a moins d'inconnues et ne nécessite que cinq correspondances au lieu de sept, ce qui en fait une méthode plus efficace. Cependant, si la translation y est nulle, cette méthode peut devenir imprécise et il est recommandé de définir tx égal à un pour des solutions plus précises. Le cours aborde également la récupération des deux premiers morceaux par deux de la matrice de rotation pour le cas planaire.

  • 01:10:00 Dans cette section, le conférencier explique la difficulté de trouver la relation entre le rapport d'aspect du pas dans les directions x et y dans l'ancien temps. Il y avait un besoin pour un autre paramètre qui mettrait à l'échelle x par rapport à y, car différentes choses contrôlaient l'espacement horizontal et vertical. La conférence mentionne l'utilisation de l'algèbre qui fait un gâchis, donc les fiches techniques des fabricants peuvent être utilisées pour trouver le rapport d'aspect avec précision. Le conférencier explique également qu'avec l'équation de projection en perspective et connaissant les inconnues, f et tz, il est possible en utilisant une correspondance de les calculer toutes les deux. Cependant, il y a un problème avec la variation de profondeur lorsque vous essayez d'utiliser une cible d'étalonnage plane.

  • 01:15:00 Dans cette section, le conférencier discute de l'ambiguïté du calibrage de l'orientation extérieure en vision par ordinateur. Il est impossible de déterminer la distance focale et la translation séparément en raison de l'ambiguïté du facteur d'échelle, et donc des variations de profondeur sont nécessaires. Le conférencier explique que l'orientation extérieure est ambiguë si la cible d'étalonnage n'est pas montée à un angle de 45 degrés. Enfin, le point principal et la distorsion radiale sont discutés, et une optimisation non linéaire est nécessaire pour minimiser l'erreur entre les coordonnées d'image prédites et réelles. Le package LM Diff, intégré à MATLAB, est recommandé à cet effet.

  • 01:20:00 Dans cette section de la conférence, le présentateur aborde le problème de la redondance dans la représentation des paramètres de rotation et propose des solutions telles que les angles d'Euler, le vecteur de Gibbs et les quaternions unitaires. Cependant, les quaternions unitaires sont redondants avec quatre nombres pour trois degrés de liberté. Le présentateur propose d'ajouter une autre équation et un terme d'erreur proportionnel à la différence entre la taille du quaternion et un pour faire respecter la contrainte. La conférence mentionne également la question du gain de bruit et l'utilisation des méthodes de Monte Carlo pour résoudre ce problème en l'absence d'une méthode analytique.

  • 01:25:00 Dans cette section, l'orateur explique comment déterminer les propriétés statistiques d'une réponse donnée à travers le rapport de gain de bruit en manipulant plusieurs fois les entrées. Cela permet d'analyser la distribution des réponses dans l'espace des paramètres et de découvrir que certains facteurs comme les coefficients d'ordre supérieur de la distorsion radiale sont mal déterminés en raison de la sensibilité aux mesures de bruit. Le prochain sujet à discuter est la représentation de la forme et de la reconnaissance, et la détermination de l'attitude dans l'espace 3D, en utilisant les connaissances acquises jusqu'à présent dans la reconnaissance 2D et la détermination de l'attitude dans les modèles.