Minder rekenen met Event Based Vision

09/09/2019

Door Liam van Koert

Tijdens Vision 2018 presenteerde het Franse Prophesee een ‘nieuwe’ manier van kijken die het ‘neuromorfische vision’ noemde. Nu, enkele maanden later, kondigt het een samenwerking voor ‘event based vision’ aan met het Duitse IMAGO. Het belooft ultrasnelle teltoepassingen mogelijk te maken, real time tracking, het veilig laten samenwerken van mens en machine en het contactloos monitoren van trillingen voor predictive maintenance op basis van vision. Rijst de vraag: hoe nieuw is het? Hoe werkt het? En waarom zijn er zulke hoge snelheden mogelijk.


     


Twee tellen struinend op het internet en het wordt al snel duidelijk dat neuromorfische vision niet nieuw is. Onderzoek naar neuromorfische chips vindt al enkele decennia plaats. Een eerste publicatie van Christof Koch and Bimal Mathur uit 1996 (https://bit.ly/2ScCLSz), maakt ook meteen duidelijk wat met zo’n dergelijke chip precies bedoelt wordt: een IC die de structuur van de retina naboots en zich verplaatsend licht en schaduw omzet in randen en oppervlakten, op een vergelijkbare manier waarop  ogen informatie aan de visuele cortex aanbieden.  Hoewel de getallen natuurlijk flink achterhaald zijn, staat de observatie dat er voor visiontaken - mits er slim gekeken wordt - lang niet altijd veel pixels nodig zijn nog steeds als een paal boven water. Zo kunnen insecten nog steeds prima met 10.000 pixels uit de voeten om voedsel te vinden, rovers te ontkomen en maatjes te vinden.

Een van de partijen die zich toelegt op de ontwikkeling van event driven neomorfische vision chips is Prophesee. Tijdens de afgelopen Vision show in Stuttgart introduceerden zij hun laatste vinding: het Onboard reference systeem.  Volgens eigen zeggen is het het meest geavanceerde neuromorfische visionsysteem dat er vandaag de dag te krijgen is, geeft het metavisie aan machines en maakt het zichtbaar wat tot op heden onzichtbaar was.  Dat beloofd nogal wat. Hoe ze het voor elkaar krijgen? Zelf leggen ze het verschil tussen FD-chips en ED-chips als als volgt uit.

 

Kijken naar frames

Conventionele beeldverwerking maakt gebruik van een frame-gebaseerde benadering, waarbij alle pixels in een sensor tegelijkertijd het licht meten dat op hen valt. Hun waarden geven ze synchroon door aan de ondersteunende circuits. Doe dit eenmalig en onder de juiste lichtomstandigheden krijg je een stilstaand beeld van goede kwaliteit. Doe het sneller en je kunt het menselijk brein laten denken dat stilstaande beelden eigenlijk een continue beweging is. Deze benadering werkt goed voor de mens die naar een film kijkt, maar is niet ideaal voor machinevisie toepassingen. Een van de redenen hiervoor is dat een conventionele camera een gemeenschappelijke beeldsnelheid toepast op de hele scène.  Dit betekent dat bewegende elementen waarschijnlijk ondergesampled worden, terwijl stationaire elementen uitgebreid en nodeloos worden gerepliceerd. Machinevisionsystemen worden daarom belast met het verwerken van grote hoeveelheden nutteloze of slechte gegevens, waarbij gebruik wordt gemaakt van dure, energieslurpende processoren, communicatieverbindingen met hoge bandbreedte en geheugen, zonder enig nuttig effect. Deze brute-force aanpak werkt, binnen bepaalde grenzen, voor sommige huidige toepassingen, maar is mogelijk niet geschikt voor nieuwe visiontaken, zoals in auto's, die scènes in realtime moeten begrijpen, of in omgevingen met beperkte kracht, bandbreedte en rekenkracht.

 

event based

 

Kijken naar events

Menselijke visie geeft ons een enorm evolutionair voordeel, ten koste van het in stand houden van een brein dat krachtig genoeg is om de enorme hoeveelheid gegevens die het produceert te interpreteren. Evoluties sobere aard heeft daarom geleid tot de opkomst van snelkoppelingen in de beeldverwerkingscentra van onze hersenen om met deze datadouche om te gaan. De fotoreceptoren in onze ogen rapporteren alleen terug naar de hersenen als ze een verandering in de visuele scène waarnemen, zoals het contrast of de luminantie. Evolutionair was het veel belangrijker voor ons om ons te kunnen concentreren op de beweging van een roofdier binnen een scène dan om herhaaldelijk een willekeurige inventaris op te maken van elk detail van de scène.
Recent onderzoek naar het vermogen van de mens om objecten te herkennen suggereert dat mensen nuttige gegevens kunnen verzamelen uit een scène die tot 1000 keer per seconde verandert. Dat is veel meer dan de 24, 30 of 60 beelden die we gebruiken om beweging op televisie of in films weer te geven. Een enorme hoeveelheid nuttige informatie is gecodeerd In deze veranderingen ligt een enorme hoeveelheid nuttige informatie besloten die de meeste camera's met een vaste beeldsnelheid niet eens zien vanwege hun lage samplefrequentie.

Event-based sensing maakt geen gebruik van een vaste beeldsnelheid. In plaats daarvan rapporteert elke pixel om alleen wanneer er een significante verandering in zijn gezichtsveld waarneemt. Deze aanpak vermindert de hoeveelheid overtollige gegevens die door de sensor worden verzonden, waardoor rekenkracht, bandbreedte, geheugen en energie worden bespaard. Het maakt het mogelijk om sensoren te bouwen met een veel hoger dynamisch bereik dan gewoonlijk het geval is, omdat elke pixel zich automatisch aanpast aan het invallende licht. Om deze reden worden event-based sensoren niet verblind door een hoog contrast bijvoorbeeld door de koplampen van een auto ’s nachts. De event-based sensor heeft nog een voordeel: de output is een continue datastroom. De visuele gebeurtenissen worden hierbij weergegeven als een opeenvolging van adressen voor elke pixel die de gebeurtenis waarneemt en de belichtingen die op dat moment door elke pixel worden gemeten. Deze ruimtelijk-temporele datastroom biedt een veel directere manier om de verandering in het gezichtsveld te registreren dan het frame voor frame vergelijken van de output van een standaard sensor.

 

Snelle vergelijking

De event-based benadering van Prophesee betekent ook dat ontwerpers van visionsystemen die snelle gebeurtenissen willen vastleggen, voor hun camera’s niet langer een afweging hoeven te maken tussen snelheid en de hoeveelheid te verwerken data. Die hoeveelheid wordt namelijk bepaald door de veranderingen in het gezichtsveld, en worden automatisch aangepast naarmate de omstandigheden van de scène zich ontwikkelen. Kijken naar een statische scène zal geen gebeurtenissen genereren, maar in het geval van actie past de camera zich automatisch aan om deze direct vast te leggen. Dit maakt het gemakkelijker en kostenefficiënter om zeer snelle bewegingen te verkrijgen en te analyseren, zelfs als deze worden onderbroken door tijden of gebieden waar beweging afwezig is.

Elke pixel geeft informatie met de snelheid van verandering in het gezichtsveld, niet met een willekeurige, vooraf ingestelde en vaste beeldsnelheid. Een evenementbenadering betekent dus ook dat in hoge resolutie dynamische scènes kunnen worden geanalyseerd als een opeenvolging van gebeurtenissen ‘tijdruimtelijke’ patronen vormen en randen, banen of snelheden van objecten voorstellen.  Bovenstaande figuur laat zien hoe de Prophesee-sensor een roterende robotarm registreert. De wiskunde die dergelijk patroon in ruimte en tijd beschrijft is eenvoudig en elegant en levert zo efficiënte algoritmes en rekenregels op. Willen we het verschil in snelheid van een dergelijke meting kwantificeren dan is dat deels een appel en peren vergelijking. Maar leggen we de temporale resolutie van een event-based sensor naast de framerate van een  frame-based sensor, dan praten we in het eerste geval over van tientallen kHz en in het tweede over maximaal 60 frames per seconde. De verschillen treden op doordat elke visuele gebeurtenis wordt behandeld als een continu signaal incrementele verandering. Een eventbenadering maakt het ook gemakkelijker om multiple views van een scène te correleren, wat bijvoorbeeld helpt bij taken zoals 3D-dieptereconstructies in multi-camera opstellingen. Als namelijk twee of meer camera's één gebeurtenis in één keer waarnemen, is het waarschijnlijk dat ze hetzelfde punt waarnemen.

Tot slot suggereert recent onderzoek ook dat het analyseren van de manier waarop de belichtingssterkte van een enkele pixel in de loop van de tijd verandert perspectieven biedt voor nieuwe toepassingen. Denk aan objectherkenning, het vermijden van obstakels en de gelijktijdige lokalisatie en mapping (SLAM) voor autonome voertuigen. 

 

Die neue event based VisionCam powered by Prophesee

 

Concrete samenwerking


Terug naar de beursvloer. Ten eerste naar die van Vision Stutgart waar het ‘Onboard reference system’ van Prophesee een Vision Award nominatie in de wacht sleepte. Deze developerskit omvat niet alleen de VGA event-based beeldsensor, maar ook de een Linux Operating system waarop alle AI-algoritmes draaien. Hiermee worden snelheden tot 10000 ‘fps’ (temporale resolutie) gehaald, bij een dynamic range van 120db met een subpixel nauwkeurigheid. Een van de partijen die wel brood ziet in de event-based oplossing van Prophesee is het Duitse IMAGO Technologies. Voor de beurs Embedded in Neurenberg kwamen zij met een VisionCam. Deze is uitgerust met een dual-cor Arm Cortex processor en beschikt over alle gangbare  interfaces. VisionCam zal vanaf de tweede helft van 2019 beschikbaar zijn.


Dit artikel is deels gebaseerd op een whitepaper van Prophesee. Het hele whitepaper is hier te downloaden: www.prophesee.ai

 

Onderzoek naar neuromorfische architecturen

 

In een andere recente publicatie over neuromorfische vision chips behandelt Nanjian Wu (https://bit.ly/2BDlZX1) twee typen: de frame-driven chip (FD) en de event-driven chip (ED). Beide typen zijn zeer afwijkend voor wat betreft systeemarchitectuur, de manier van sensing, structuur van de beeldinformatie, de beeldverwerkingsalgoritmes en de ontwerpmethodologie. Hoewel het wat ver gaat deze zaken tot in detail te behandelen, noemt Wu enkele belangrijke verschillen. De FD-chip, die in zijn geval een high speed image sensor is met bewekingsarray en een zelforganiserend neuraal netwerk,  is in het voordeel voor wat betreft beeldresolutie, statische objectdetectie, tijdmultiplexing (samenvoegen in het tijddomein) van beeldverwerking en sensoroppvervlak. De ED-chip is gebaseerd op een adres-event representatie en een eventgebaseerd multi-kernel (gedistribueerd) convolutional neuraal netwerk (CNN). Voordelen hier zijn het snellere ‘voelen’, lagere benodigde bandbreedte, een ‘breinachtige’ manier van beeldverwerking en een hoge energie efficiency.