Como o mercado de proxy está a capacitar a infraestrutura de IA

Os recentes desenvolvimentos em sistemas de Inteligência Artificial (IA), especialmente IAs agênticas, mudaram a utilização do servidor proxy e tornaram-no numa área líder de inovação. Os fornecedores de proxy estão a responder duplicando a utilidade dos seus produtos para aplicações de IA.

O problema dos dados da IA

Os modelos de IA requerem grandes quantidades de dados diversificados e continuamente actualizados para serem treinados. A tecnologia dos grandes modelos linguísticos (LLM), como o ChatGPT, baseia-se em centenas de milhares de milhões de palavras retiradas da Internet, de livros e de várias outras bases de dados.

Há já algum tempo que os especialistas alertam para o facto de se esgotarem os dados para treinar os LLM e estão a ser ativamente discutidas soluções. Para que as ferramentas de IA possam resolver problemas mais específicos e práticos, são necessários mais dados e de melhor qualidade.

As LLM treinadas com os mesmos conjuntos de dados gerais são susceptíveis de gerar resultados semelhantes. Uma das principais tendências para resolver este problema consiste em utilizar modelos e ferramentas de IA mais pequenos e especializados.

Mesmo os LLM mais pequenos e auto-hospedados, que as empresas gerem de forma privada na sua própria infraestrutura, enfrentam um apetite semelhante por dados. A inovação mais recente e mais promissora, os sistemas de IA agêntica que podem executar várias tarefas e tomar decisões em tempo real, aumentam ainda mais a parada.

A dependência de dados históricos de formação tem-se revelado insuficiente. Em vez disso, a criação de um fluxo contínuo de informações em direto foi considerada uma solução possível. A qualidade dos dados também é importante, uma vez que os modelos treinados apenas com dados de uma região, língua ou momento são limitados.

Proxies e IA

A recolha de dados para formação de IA com objectivos específicos é possível graças à acessibilidade da recolha de dados da Web. É o processo de recolha automática de dados em linha utilizando bots que visitam sítios Web, rastreiam o seu conteúdo e extraem o que é necessário. Há anos que este é o jogo do gato e do rato da Internet.

Os sítios Web aumentam as suas defesas, mas a comunidade de "web scraping" inventa novas formas de as contornar. Os servidores proxy têm estado no centro desta batalha desde o início. Estes intermediários permitem aos utilizadores alterar os seus endereços IP originais para evitar restrições geográficas, bloqueios de IP e limitações impostas pelos recursos online.

Não é de surpreender que os servidores proxy se integrem facilmente no software de recolha de dados da Web e representem a maior parte das despesas de recolha de dados. No entanto, as redes proxy modernas são cada vez mais construídas não só para a recolha de dados da Web, mas também para a recolha de dados de formação de IA e para apoiar especificamente a IA agêntica. Esta mudança estratégica é uma escolha consciente dos principais fornecedores de proxy.

Resposta do mercado proxy

Um olhar sobre alguns dos principais provedores de proxy mostra que a raspagem da Web era um importante caso de uso do servidor proxy muito antes do boom da IA. Entrámos em contacto com a IPRoyal, um dos principais fornecedores de proxy residencial, para obter informações sobre a resposta do mercado à crescente procura de dados de IA.

"Temos fornecido aos utilizadores proxies especializados em web scraping como produto principal desde o início. Além disso, assumimos como nossa missão ajudar os esforços de extração de dados dos usuários com guias, vídeos e outros conteúdos educacionais ", diz Mindaugas Čaplinskas, CEO da IPRoyal.

O trabalho de base que foi lançado é o resultado de anos de esforço e não poderia ter sido feito apenas para atender às demandas de dados de IA. A popularidade dos LLMs auto-hospedados, das IAs agênticas e de outras ferramentas alimentou ainda mais a necessidade de uma raspagem da Web de qualidade.

As ofertas de produtos API-first e de infra-estruturas criadas especificamente para IA ou pipelines de dados dispararam. Ao contrário do que acontece noutros mercados, estas tendências não podem ser totalmente atribuídas a campanhas publicitárias. Durante muito tempo, foram utilizados proxies para a recolha automática de dados, o que afectou até práticas comerciais fundamentais, como a estratégia de preços.

"Uma das soluções possíveis para aumentar as receitas sem um impacto significativamente negativo no sentimento ou nos custos dos consumidores poderia ser a aquisição automatizada de dados", conclui Karolis Toleikis, cofundador da IPRoyal, no seuestudo de investigação de 2025 sobre a sensibilidade aos preços.

As soluções de IA já estão a moldar processos empresariais essenciais e a recolha de dados é uma parte crucial dos mesmos. No entanto, o mesmo se aplica aos sítios Web que pretendem proteger os seus activos de dados. À medida que os sítios Web começaram a utilizar a proteção de dados baseada em IA, o mercado proxy respondeu com ferramentas de recolha de dados baseadas em IA.

"Nossos mais novos produtos alimentados por IA visam automatizar as tarefas de raspagem da web para que nossos usuários possam extrair dados com ainda menos interrupções e trabalho manual", comentou o Sr. Čaplinskas sobre a direção dos produtos recentes da IPRoyal.

Os desbloqueadores da Web e várias API que gerem automaticamente proxies e contornam as restrições dos sítios Web parecem ser a nova norma de recolha de dados. Como tal, a criação de conjuntos de dados personalizados para a implementação de IA e posterior formação torna-se acessível a todos.

É claro que os maiores conjuntos de dados ainda estão nas mãos dos pioneiros da IA, mas a recolha de dados com proxy desbloqueia ferramentas altamente especificadas e treinadas localmente para todos os utilizadores. É seguro assumir que é o futuro para o qual os fornecedores de proxy como a IPRoyal se estão a preparar com o seu recente posicionamento em relação às tendências de IA.

Considerações éticas e legais

Os estrangulamentos de dados surgem não só porque os dados de qualidade são escassos. Em muitos casos, a recolha de dados pode ser pouco ética ou mesmo ilegal, e grande parte da responsabilidade recai sobre os fornecedores de proxy.

O mercado de proxy é frequentemente abalado por escândalos, como o recente takedown da rede IPIDEA, em que fornecedores aparentemente fiáveis estavam a obter proxies a partir das chamadas botnets. Estas redes de dispositivos sequestrados utilizam malware para serem controladas remotamente sem o consentimento ou o conhecimento do utilizador.

Em casos menos radicais, a infraestrutura de proxy é obtida a partir de software em que a cláusula de utilização do dispositivo para alojar proxies está escondida atrás de jargão jurídico. Os fornecedores responsáveis são transparentes quanto ao processo de obtenção de IP, garantindo que os endereços IP utilizados nos seus pools são fornecidos com consentimento.

Os grandes fornecedores assumem a responsabilidade de mostrar sinais de transparência. As políticas de aprovisionamento de proxy, os documentos técnicos, as normas de conformidade, as auditorias de terceiros e várias outras medidas têm sido a norma desde há algum tempo.

O outro lado da questão é o controlo da forma como os endereços IP proxy são utilizados. Os fornecedores têm de aplicar políticas claras de utilização aceitável e de rastrear os clientes para detetar actividades de scraping abusivas ou ilegais. Muitas vezes, esses requisitos provêm da proteção de dados, como a GDPR e a CCPA, ou de regulamentos semelhantes.

O uso de proxies, portanto, não é apenas uma decisão técnica ou financeira - é uma questão de conformidade. Executar seus pipelines de dados de IA em uma infraestrutura de proxy não implícita está fadado a criar problemas legais e de reputação.

As entidades reguladoras de todo o mundo procuram cada vez mais exercer controlo sobre as práticas de recolha de dados de IA. Os provedores de proxy que equilibram altos padrões de proteção de dados com demandas cada vez maiores de coleta de dados terão sucesso.

Conclusão

Enquanto as mais recentes ferramentas de IA estão a fazer manchetes, as redes proxy que trabalham na linha de fundo estão a tornar-se discretamente uma camada fundamental para a infraestrutura de IA do futuro. Ninguém conhece o futuro, mas o posicionamento atual dos principais fornecedores de proxy sugere que estes se têm vindo a preparar para esse crescimento desde o início.