top of page

Computervisie: Van Beelden naar Inzichten

Introductie


In deze technische workshop leer je hoe je de nieuwste AI-technieken inzet voor het analyseren van beeld- en videomateriaal. Je werkt met vision transformers, multimodale AI-modellen en krachtige LLM-integraties om inzichten te halen uit visuele data. Daarnaast ontdek je hoe je bestaande modellen kunt fine-tunen op jouw eigen data, zodat je betere prestaties behaalt in specifieke domeinen.

We combineren frameworks zoals PyTorch, Hugging Face Transformers, OpenAI Whisper, en LLMs zoals GPT-4, Gemini en Claude om afbeeldingen en video’s automatisch om te zetten naar gestructureerde en bruikbare inzichten.


Wat je leert tijdens deze training


1. Vision Transformers voor geavanceerde beeldherkenning

Je werkt met de nieuwste generatie deep learning-modellen voor beeldanalyse: Vision Transformers (ViTs).

  • Toepassen van pretrained ViTs zoals ViT-B/16, DINOv2 en SAM (Segment Anything Model)

  • Fine-tuning van vision transformers op domeinspecifieke data (bijv. medische beelden, satellietbeelden, productherkenning)

  • Objectclassificatie, segmentatie en beeldbeschrijving met transformers

  • Vergelijken van ViTs met traditionele CNN-benaderingen


2. Multimodale AI: combineren van beeld, tekst en audio

Ontdek hoe multimodale modellen beeld en video combineren met taal om contextueel rijkere inzichten te genereren.

  • Gebruik van modellen zoals CLIP, Flamingo en Gemini om beeldinformatie te koppelen aan tekst

  • Visuele vraag-antwoordsystemen bouwen: “Wat gebeurt er in dit beeld?”

  • Tekstgeneratie op basis van visuele input (image captioning en narratief genereren)

  • Automatische tagging van video’s of afbeeldingen op basis van inhoud


3. Videoanalyse en transcriptie met Whisper en LLM-integratie

Je leert hoe je AI inzet om video’s om te zetten naar tekst, en hoe je LLMs gebruikt voor diepere interpretatie.

  • Videobestanden automatisch transcriberen met Whisper

  • Sprekerherkenning, timestamping en structureren van videoinhoud

  • Gebruik van LLMs (zoals GPT of Claude) om de transcripten te analyseren, samenvatten en taggen

  • Detecteren van thema’s, sentiment en acties uit videobesprekingen of events


4. Fine-tunen van LLMs en visuele AI-modellen op eigen data

Je leert hoe je bestaande foundation models aanpast voor jouw specifieke use case of domein.

  • Fine-tuning van LLMs met instructiedata voor taakgerichte output (bijv. juridische, medische of technische contexten)

  • Fine-tuning van vision transformers met kleine datasets via transfer learning

  • Prompt engineering versus model training: wanneer gebruik je wat?

  • Gebruik van tools als LoRA, PEFT en Hugging Face Accelerate voor efficiënte fine-tuning


Hands-on projecten


Tijdens deze workshop werk je aan een complete AI-pipeline: van visuele input tot tekstuele inzichten. Je gebruikt echte datasets of je eigen materiaal om concrete toepassingen te bouwen.


Praktische oefeningen en experimenten


Vision Transformers in actie:

  • Je past een ViT toe op een beeldclassificatie- of segmentatietaak

  • Je fine-tunet een bestaand vision model op een eigen dataset

Multimodale analyse met CLIP en Gemini:

  • Je genereert tekstuele omschrijvingen van beelden en koppelt deze aan labels

  • Je bouwt een mini-VQA (Visual Question Answering) prototype

Video naar tekst met Whisper + LLM:

  • Je transcribeert een video naar tekst met Whisper

  • Je laat GPT of Gemini automatisch een samenvatting, tags of vragen genereren

Fine-tuning en personalisatie:

  • Je bereidt je eigen dataset voor op fine-tuning van een LLM of vision model

  • Je test de prestaties van het getrainde model op een specifieke taak


Aanpak en werkvorm


Deze workshop is intensief, technisch en hands-on. Je werkt met moderne open-source tools en frameworks, en krijgt de ruimte om experimenten uit te voeren op je eigen dataset of met voorbeeldmateriaal. De sessie is interactief en gericht op het bouwen, testen en optimaliseren van modellen.


Voor wie


Deze training is bedoeld voor AI-engineers, ML-specialisten, data scientists en developers met ervaring in Python en machine learning. Ideaal voor wie wil werken met cutting-edge technieken voor visuele en multimodale AI en zelf modellen wil aanpassen aan specifieke toepassingen.


Geïnteresseerd in deze training?


Neem gerust contact met ons op. We denken graag met je mee over een aangepaste invulling voor jouw team of organisatie.



Computervisie: Van Beelden naar Inzichten

Introductie


In deze technische workshop leer je hoe je de nieuwste AI-technieken inzet voor het analyseren van beeld- en videomateriaal. Je werkt met vision transformers, multimodale AI-modellen en krachtige LLM-integraties om inzichten te halen uit visuele data. Daarnaast ontdek je hoe je bestaande modellen kunt fine-tunen op jouw eigen data, zodat je betere prestaties behaalt in specifieke domeinen.

We combineren frameworks zoals PyTorch, Hugging Face Transformers, OpenAI Whisper, en LLMs zoals GPT-4, Gemini en Claude om afbeeldingen en video’s automatisch om te zetten naar gestructureerde en bruikbare inzichten.


Wat je leert tijdens deze training


1. Vision Transformers voor geavanceerde beeldherkenning

Je werkt met de nieuwste generatie deep learning-modellen voor beeldanalyse: Vision Transformers (ViTs).

  • Toepassen van pretrained ViTs zoals ViT-B/16, DINOv2 en SAM (Segment Anything Model)

  • Fine-tuning van vision transformers op domeinspecifieke data (bijv. medische beelden, satellietbeelden, productherkenning)

  • Objectclassificatie, segmentatie en beeldbeschrijving met transformers

  • Vergelijken van ViTs met traditionele CNN-benaderingen


2. Multimodale AI: combineren van beeld, tekst en audio

Ontdek hoe multimodale modellen beeld en video combineren met taal om contextueel rijkere inzichten te genereren.

  • Gebruik van modellen zoals CLIP, Flamingo en Gemini om beeldinformatie te koppelen aan tekst

  • Visuele vraag-antwoordsystemen bouwen: “Wat gebeurt er in dit beeld?”

  • Tekstgeneratie op basis van visuele input (image captioning en narratief genereren)

  • Automatische tagging van video’s of afbeeldingen op basis van inhoud


3. Videoanalyse en transcriptie met Whisper en LLM-integratie

Je leert hoe je AI inzet om video’s om te zetten naar tekst, en hoe je LLMs gebruikt voor diepere interpretatie.

  • Videobestanden automatisch transcriberen met Whisper

  • Sprekerherkenning, timestamping en structureren van videoinhoud

  • Gebruik van LLMs (zoals GPT of Claude) om de transcripten te analyseren, samenvatten en taggen

  • Detecteren van thema’s, sentiment en acties uit videobesprekingen of events


4. Fine-tunen van LLMs en visuele AI-modellen op eigen data

Je leert hoe je bestaande foundation models aanpast voor jouw specifieke use case of domein.

  • Fine-tuning van LLMs met instructiedata voor taakgerichte output (bijv. juridische, medische of technische contexten)

  • Fine-tuning van vision transformers met kleine datasets via transfer learning

  • Prompt engineering versus model training: wanneer gebruik je wat?

  • Gebruik van tools als LoRA, PEFT en Hugging Face Accelerate voor efficiënte fine-tuning


Hands-on projecten


Tijdens deze workshop werk je aan een complete AI-pipeline: van visuele input tot tekstuele inzichten. Je gebruikt echte datasets of je eigen materiaal om concrete toepassingen te bouwen.


Praktische oefeningen en experimenten


Vision Transformers in actie:

  • Je past een ViT toe op een beeldclassificatie- of segmentatietaak

  • Je fine-tunet een bestaand vision model op een eigen dataset

Multimodale analyse met CLIP en Gemini:

  • Je genereert tekstuele omschrijvingen van beelden en koppelt deze aan labels

  • Je bouwt een mini-VQA (Visual Question Answering) prototype

Video naar tekst met Whisper + LLM:

  • Je transcribeert een video naar tekst met Whisper

  • Je laat GPT of Gemini automatisch een samenvatting, tags of vragen genereren

Fine-tuning en personalisatie:

  • Je bereidt je eigen dataset voor op fine-tuning van een LLM of vision model

  • Je test de prestaties van het getrainde model op een specifieke taak


Aanpak en werkvorm


Deze workshop is intensief, technisch en hands-on. Je werkt met moderne open-source tools en frameworks, en krijgt de ruimte om experimenten uit te voeren op je eigen dataset of met voorbeeldmateriaal. De sessie is interactief en gericht op het bouwen, testen en optimaliseren van modellen.


Voor wie


Deze training is bedoeld voor AI-engineers, ML-specialisten, data scientists en developers met ervaring in Python en machine learning. Ideaal voor wie wil werken met cutting-edge technieken voor visuele en multimodale AI en zelf modellen wil aanpassen aan specifieke toepassingen.


Geïnteresseerd in deze training?


Neem gerust contact met ons op. We denken graag met je mee over een aangepaste invulling voor jouw team of organisatie.



1.jpg

Beschrijving:
Leer hoe je met de nieuwste AI-technieken beelden en video’s analyseert. Je werkt met vision transformers voor beeldherkenning, zet video's om naar tekst met Whisper, en gebruikt LLMs zoals GPT en Gemini voor samenvattingen en inhoudelijke inzichten.


Leerdoelen:

  • Beelden analyseren met modellen als ViT, DINOv2 en SAM

  • Objectherkenning en segmentatie toepassen met PyTorch of TensorFlow

  • Video's transcriberen met Whisper

  • Inzichten halen uit video's met multi-modale modellen zoals Gemini


Voor wie:
AI-engineers en developers die AI willen toepassen op visuele en audiovisuele data.

Computervisie: Van Beelden naar Inzichten

Introductie


In deze technische workshop leer je hoe je de nieuwste AI-technieken inzet voor het analyseren van beeld- en videomateriaal. Je werkt met vision transformers, multimodale AI-modellen en krachtige LLM-integraties om inzichten te halen uit visuele data. Daarnaast ontdek je hoe je bestaande modellen kunt fine-tunen op jouw eigen data, zodat je betere prestaties behaalt in specifieke domeinen.

We combineren frameworks zoals PyTorch, Hugging Face Transformers, OpenAI Whisper, en LLMs zoals GPT-4, Gemini en Claude om afbeeldingen en video’s automatisch om te zetten naar gestructureerde en bruikbare inzichten.


Wat je leert tijdens deze training


1. Vision Transformers voor geavanceerde beeldherkenning

Je werkt met de nieuwste generatie deep learning-modellen voor beeldanalyse: Vision Transformers (ViTs).

  • Toepassen van pretrained ViTs zoals ViT-B/16, DINOv2 en SAM (Segment Anything Model)

  • Fine-tuning van vision transformers op domeinspecifieke data (bijv. medische beelden, satellietbeelden, productherkenning)

  • Objectclassificatie, segmentatie en beeldbeschrijving met transformers

  • Vergelijken van ViTs met traditionele CNN-benaderingen


2. Multimodale AI: combineren van beeld, tekst en audio

Ontdek hoe multimodale modellen beeld en video combineren met taal om contextueel rijkere inzichten te genereren.

  • Gebruik van modellen zoals CLIP, Flamingo en Gemini om beeldinformatie te koppelen aan tekst

  • Visuele vraag-antwoordsystemen bouwen: “Wat gebeurt er in dit beeld?”

  • Tekstgeneratie op basis van visuele input (image captioning en narratief genereren)

  • Automatische tagging van video’s of afbeeldingen op basis van inhoud


3. Videoanalyse en transcriptie met Whisper en LLM-integratie

Je leert hoe je AI inzet om video’s om te zetten naar tekst, en hoe je LLMs gebruikt voor diepere interpretatie.

  • Videobestanden automatisch transcriberen met Whisper

  • Sprekerherkenning, timestamping en structureren van videoinhoud

  • Gebruik van LLMs (zoals GPT of Claude) om de transcripten te analyseren, samenvatten en taggen

  • Detecteren van thema’s, sentiment en acties uit videobesprekingen of events


4. Fine-tunen van LLMs en visuele AI-modellen op eigen data

Je leert hoe je bestaande foundation models aanpast voor jouw specifieke use case of domein.

  • Fine-tuning van LLMs met instructiedata voor taakgerichte output (bijv. juridische, medische of technische contexten)

  • Fine-tuning van vision transformers met kleine datasets via transfer learning

  • Prompt engineering versus model training: wanneer gebruik je wat?

  • Gebruik van tools als LoRA, PEFT en Hugging Face Accelerate voor efficiënte fine-tuning


Hands-on projecten


Tijdens deze workshop werk je aan een complete AI-pipeline: van visuele input tot tekstuele inzichten. Je gebruikt echte datasets of je eigen materiaal om concrete toepassingen te bouwen.


Praktische oefeningen en experimenten


Vision Transformers in actie:

  • Je past een ViT toe op een beeldclassificatie- of segmentatietaak

  • Je fine-tunet een bestaand vision model op een eigen dataset

Multimodale analyse met CLIP en Gemini:

  • Je genereert tekstuele omschrijvingen van beelden en koppelt deze aan labels

  • Je bouwt een mini-VQA (Visual Question Answering) prototype

Video naar tekst met Whisper + LLM:

  • Je transcribeert een video naar tekst met Whisper

  • Je laat GPT of Gemini automatisch een samenvatting, tags of vragen genereren

Fine-tuning en personalisatie:

  • Je bereidt je eigen dataset voor op fine-tuning van een LLM of vision model

  • Je test de prestaties van het getrainde model op een specifieke taak


Aanpak en werkvorm


Deze workshop is intensief, technisch en hands-on. Je werkt met moderne open-source tools en frameworks, en krijgt de ruimte om experimenten uit te voeren op je eigen dataset of met voorbeeldmateriaal. De sessie is interactief en gericht op het bouwen, testen en optimaliseren van modellen.


Voor wie


Deze training is bedoeld voor AI-engineers, ML-specialisten, data scientists en developers met ervaring in Python en machine learning. Ideaal voor wie wil werken met cutting-edge technieken voor visuele en multimodale AI en zelf modellen wil aanpassen aan specifieke toepassingen.


Geïnteresseerd in deze training?


Neem gerust contact met ons op. We denken graag met je mee over een aangepaste invulling voor jouw team of organisatie.



How It All Started

This is a space to share more about the business: who's behind it, what it does and what this site has to offer. It’s an opportunity to tell the story behind the business or describe a special service or product it offers. You can use this section to share the company history or highlight a particular feature that sets it apart from competitors.
 

Let the writing speak for itself. Keep a consistent tone and voice throughout the website to stay true to the brand image and give visitors a taste of the company’s values and personality.

bottom of page