Hoe de volmachtmarkt de AI-infrastructuur versterkt

Recente ontwikkelingen in Artificiële Intelligentie (AI)-systemen, vooral agentische AI's, hebben het gebruik van proxyservers veranderd en hebben het tot een toonaangevend innovatiegebied gemaakt. Proxy-providers reageren hierop door het nut van hun producten voor AI-toepassingen te verdubbelen.

AI's gegevensprobleem

AI-modellen hebben enorme hoeveelheden diverse en continu bijgewerkte gegevens nodig om te trainen. De technologie van Large Language Models (LLM's) zoals ChatGPT is gebaseerd op honderden miljarden woorden van het internet, boeken en verschillende andere databases.

Experts waarschuwen al enige tijd voor een tekort aan gegevens om LLM's te trainen en er wordt actief gediscussieerd over oplossingen. Als AI-tools meer specifieke, praktische problemen moeten oplossen, zijn er meer gegevens van betere kwaliteit nodig.

LLM's die zijn getraind op dezelfde algemene datasets zullen ongetwijfeld vergelijkbare resultaten opleveren. Een belangrijke trend om dit probleem op te lossen is om kleinere, gespecialiseerde modellen en AI-tools te ontwikkelen.

Zelfs kleinere, zelf gehoste LLM's, die bedrijven privé draaien op hun eigen infrastructuur, hebben te maken met een vergelijkbare honger naar gegevens. De nieuwste en meest veelbelovende innovatie, agentische AI-systemen die verschillende taken kunnen uitvoeren en in realtime beslissingen kunnen nemen, verhogen de inzet nog verder.

Vertrouwen op historische trainingsgegevens is ontoereikend gebleken. In plaats daarvan is het opbouwen van een continue live informatiefeed ontdekt als een mogelijke oplossing. De kwaliteit van gegevens is ook belangrijk, omdat modellen die alleen zijn getraind op gegevens uit één regio, taal of tijdstip beperkt zijn.

Proxy's en AI

Het verzamelen van gegevens voor doelgerichte AI-training is mogelijk dankzij de toegankelijkheid van web scraping. Dit is het proces van het automatisch verzamelen van online gegevens met behulp van bots die websites bezoeken, de inhoud crawlen en eruit halen wat nodig is. Het is al jaren het kat-en-muisspel van het internet.

Websites verhogen hun verdediging, alleen voor de web scraping gemeenschap om nieuwe omwegen uit te vinden. Proxyservers staan al sinds het begin in het middelpunt van deze strijd. Deze tussenpersonen stellen gebruikers in staat om hun oorspronkelijke IP-adressen te wijzigen om geografische beperkingen, IP-blokkades en beperkingen opgelegd door online bronnen te omzeilen.

Het is dan ook geen verrassing dat proxyservers gemakkelijk in web scraping software kunnen worden geïntegreerd en het grootste deel van de uitgaven voor het verzamelen van gegevens vertegenwoordigen. Toch worden moderne proxy-netwerken steeds vaker niet alleen gebouwd voor web scraping, maar ook voor het verzamelen van AI-trainingsgegevens en specifiek voor het ondersteunen van agentic AI. Deze strategische verschuiving is een bewuste keuze van grote proxy-aanbieders.

Reactie proxy-markt

Een blik op enkele van de grote proxy-providers laat zien dat web scraping al lang voor de AI-hausse een belangrijke proxy-server use case was. We namen contact op met IPRoyal, een toonaangevende residentiële proxy-aanbieder, om inzicht te krijgen in de reactie van de markt op de groeiende vraag naar AI-gegevens.

"We leveren gebruikers al sinds het begin gespecialiseerde web scraping proxy's als kernproduct. Daarnaast hebben we het als onze missie opgevat om gebruikers te helpen bij hun inspanningen om gegevens te extraheren met gidsen, video's en andere educatieve content," zegt Mindaugas Čaplinskas, Chief Executive Officer van IPRoyal.

De basis die is gelegd, is het resultaat van jarenlange inspanningen en kon niet alleen worden gelegd om te voldoen aan de vraag naar AI-gegevens. De populariteit van zelf gehoste LLM's, agentic AI's en andere tools heeft de behoefte aan web scraping van hoge kwaliteit verder aangewakkerd.

Het aanbod van API-first producten en infrastructuur die speciaal is gebouwd voor AI of datapijplijnen is explosief gestegen. In tegenstelling tot andere markten kunnen deze trends niet volledig worden toegeschreven aan reclamecampagnes. Proxy's werden lange tijd gebruikt voor geautomatiseerde gegevensverzameling en beïnvloedden zelfs fundamentele bedrijfspraktijken zoals prijsstrategie.

"Een van de mogelijke oplossingen voor meer inkomsten zonder een significant negatief effect op het consumentengevoel of de kosten zou geautomatiseerde gegevensverzameling kunnen zijn", concludeert medeoprichter Karolis Toleikis van IPRoyal in hunonderzoek naar prijsgevoeligheid voor 2025 .

AI-oplossingen geven al vorm aan essentiële bedrijfsprocessen en gegevensverzameling is daar een cruciaal onderdeel van. Hetzelfde geldt echter voor websites die hun data assets willen beschermen. Toen websites AI-gestuurde gegevensbescherming gingen gebruiken, reageerde de volmachtmarkt met AI-gestuurde tools voor gegevensverzameling.

"Onze nieuwste AI-gestuurde producten zijn gericht op het automatiseren van web scraping-taken, zodat onze gebruikers gegevens kunnen verzamelen met nog minder onderbrekingen en handmatig werk", aldus de heer Čaplinskas over de richting van de recente producten van IPRoyal.

Webdeblokkers en verschillende API's die automatisch proxies beheren en websitebeperkingen omzeilen, lijken de nieuwe norm voor gegevensverzameling te zijn. Zo wordt het genereren van aangepaste datasets voor AI-implementatie en latere training voor iedereen toegankelijk.

Natuurlijk zijn de grootste datasets nog steeds in handen van AI-koplopers, maar door proxy's aangedreven datacollectie ontsluit zeer gespecificeerde, lokaal getrainde tools voor elke gebruiker. Het is veilig om aan te nemen dat dit de toekomst is waar proxy-aanbieders zoals IPRoyal zich op voorbereiden met hun recente positionering ten opzichte van AI-trends.

Ethische en juridische overwegingen

Dataknelpunten ontstaan niet alleen omdat kwaliteitsgegevens schaars zijn. In veel gevallen kan het verzamelen van gegevens onethisch of zelfs illegaal zijn, en een groot deel van de verantwoordelijkheid ligt bij proxy-aanbieders.

De proxymarkt wordt regelmatig opgeschud door schandalen, zoals de recente takedownvan het IPIDEA-netwerk, waar schijnbaar betrouwbare aanbieders proxy's van zogenaamde botnets betrokken. Dergelijke netwerken van gekaapte apparaten maken gebruik van malware om op afstand bestuurd te worden zonder toestemming of medeweten van de gebruiker.

In minder radicale gevallen is proxy-infrastructuur afkomstig van software waarbij de clausule over het gebruik van apparaten voor het hosten van proxy's verborgen is achter juridisch jargon. Verantwoordelijke providers zijn transparant over het proces van IP-sourcing en zorgen ervoor dat IP-adressen die in hun pools worden gebruikt, met toestemming worden geleverd.

Grote providers zien het als hun verantwoordelijkheid om transparantie te tonen. Proxy sourcing-beleid, whitepapers, compliancenormen, audits door derden en verschillende andere maatregelen zijn al een tijdje de norm.

De andere kant van de zaak is de controle over hoe proxy IP-adressen worden gebruikt. Aanbieders moeten een duidelijk beleid voor aanvaardbaar gebruik afdwingen en klanten screenen op misbruik of onwettige scraping-activiteiten. Dergelijke vereisten komen vaak voort uit gegevensbescherming, zoals GDPR en CCPA, of vergelijkbare regelgeving.

Het gebruik van proxy's is daarom niet alleen een technische of financiële beslissing - het is een kwestie van compliance. Als je je AI-datapijplijnen uitvoert op een niet-gecompliceerde proxy-infrastructuur, leidt dat onvermijdelijk tot juridische problemen en problemen met je reputatie.

Regelgevers over de hele wereld proberen steeds meer controle uit te oefenen op AI-gegevensverzamelingspraktijken. Proxy-aanbieders die een evenwicht weten te vinden tussen de hoge normen voor gegevensbescherming en de steeds hogere eisen op het gebied van gegevensverzameling, zullen slagen.

Conclusie

Terwijl de nieuwste AI-tools de krantenkoppen halen, worden de proxy-netwerken die in de backline werken in stilte een fundamentele laag voor de AI-infrastructuur van morgen. Niemand kent de toekomst, maar de huidige positionering van de grote proxy-providers suggereert dat ze zich altijd al hebben voorbereid op een dergelijke groei.