Hipótese da Representação de Platão e Modelos de Inteligência Artificial (IA)

maio 15, 2024

Hipótese da Representação de Platão e Modelos de Inteligência Artificial (IA)

Nos bastidores da acirrada competição no avanço das tecnologias baseadas em inteligência artificial, um fenômeno intrigante está ocorrendo enquanto os pesquisadores aprimoram suas técnicas, bem como seus modelos de aprendizado, tal como ocorre no desenvolvimento dos grandes modelos de linguagens (LLM) como o ChatGPT e entre outros. Trata-se da convergência das representações de aprendizado em diferentes modalidades de dados.

Em meio ao caos dessa corrida, pesquisadores* do MIT apresentaram a Hipótese da Representação Platônica, que busca iluminar esse curioso processo e suas implicações em busca de um melhor entendimento da inteligência artificial e da própria natureza do que denominamos "realidade".

* Minyoung Huh, Brian Cheung, Tongzhou Wang e Philip Isola.

Hipótese da Representação Platônica em IA

Platão, em seu famoso "Mito da Caverna", apresenta prisioneiros acorrentados que apenas veem sombras projetadas na parede, tomando-as como a única realidade. Ao serem libertados, eles descobrem que as sombras são apenas reflexos de objetos reais, iluminados por uma fonte de luz superior. Esta alegoria ilustra nos ajuda a ilustrar a busca pelo conhecimento verdadeiro e a compreensão da realidade.

A Teoria das Formas de Platão defende a existência de objetos abstratos ou universais que existem independentemente das experiências sensoriais. Esta estrutura filosófica encontrou relevância na IA moderna, onde investigadores como Minyoung Huh, Brian Cheung, Tongzhou Wang e Phillip Isola introduziram a noção de que diferentes modelos de IA, apesar dos seus variados objetivos de formação, tendem a desenvolver camadas semelhantes de representação. Essa convergência foi observada em modelos treinados com aprendizagem supervisionada e auto-supervisionada, reforçando ainda mais a hipótese e tem sugerido que as representações internas desses sistemas estão se alinhando, independentemente da natureza dos dados de entrada.

E de modo a ilustrar esse fenômeno, toma-se como ponto de partida um mundo imaginário (Z) observável de várias maneiras convencionais e por diferentes sistemas de inteligências artificiais, a saber por exemplo, por imagens (X), por texto (Y) e assim por diante. Onde, um sistema de visão lida com formas e cores, enquanto que um modelo de linguagem tem seu foco na sintaxe e na semântica.

E de acordo com os autores, é possível observar nos últimos anos que as arquiteturas e objetivos para "modelar" imagens e texto, incluindo outros sinais, em modelos de IA, estão se tornado cada vez mais semelhantes.

Emergindo, assim, a pergunta: as representações internas nestes sistemas também estão convergindo?

Bom, conforme os resultados apresentados, eles acreditam que sim e formularam ainda a seguinte hipótese:

"As redes neurais, treinadas com diferentes objetivos em diferentes dados e modalidades, estão convergindo para um modelo estatístico compartilhado da realidade em seus espaços de representação."

Onde a intuição por trás da hipótese acima é que os dados que consumimos (imagens, textos, sons, etc) são "projeções" de alguma realidade subjacente.

Por exemplo, um conceito como maçã pode ser visto de muitas maneiras diferentes (🍎, 🍏, pomme, apfel, תפוח, etc), entretanto o significado daquilo que é "representado" é aproximadamente o mesmo.

Assim, algoritmos de aprendizagem de "representação" podem também apontar a esse significado compartilhado.

Medindo se as representações estão convergindo

Para conferir se as representações estão convergindo nos modelos de aprendizado, os pesquisadores utilizam kernels, que podem ser utilizados para avaliar a distância ou similaridade entre as representações aprendidas entre as diferentes entradas de dados.

Quando as representações de diferentes modalidades estão alinhadas, isso sugere um padrão de convergência.

Por exemplo, duas representações são consideradas iguais se seus "kernels" forem iguais para as entradas correspondentes. Assim, diz-se, então, que as representações estão alinhadas.

Observe o seguinte caso, se um codificador de texto $f_{\textrm{texto}}$ está alinhado com um codificador de imagem $f_{\textrm{imagem}}$, então há relacionamentos tais como:

sim( $f_{\textrm{texto}}$( "maçã" ), $f_{\textrm{texto}}$( "laranja" )) ≈ sim( $f_{\textrm{imagem}}$(🍎), $f_{\textrm{imagem}}$(🍊))

No caso, as métricas de alinhamento do kernel buscam quantificar o grau em que afirmações tais como mostrado acima são verdadeiras, e se pode utilizar tais métricas para verificar se as representações em diferentes modelos estão convergindo.

Evidência de convergência

A literatura científica aponta diversos exemplos de convergência ao longo do tempo e em diversos domínios da representação de dados em modelos de IA.

Além disso, estudos empíricos demonstram que, por exemplo, à medida que os modelos de visão e linguagem crescem em complexidade, suas representações se tornam mais semelhantes, indicando uma convergência entre modalidades de dados.

Veja na figura a seguir este fenômeno, isto é, quanto "mais robustos" se tornam os modelos de linguagem e de visão, mais semelhantes se tornam a distância entre os pontos de dados.

O que está impulsionando a convergência?

O aumentando do grau de dificuldade de tarefas e dados, combinado com o aumento da capacidade do modelo, parece levar às forças motrizes por trás da convergência.

Veja o exemplo abaixo, à medida que os modelos se tornam mais generalistas e são treinados em uma variedade maior de tarefas, suas representações se aproximam de uma visão mais unificada da realidade.

Quanto mais tarefas se deve resolver, menos funções satisfazem todas elas ("Princípio da Contravariância"). Em outras palavras, à medida que os modelos se tornam de uso mais geral, eles se tornam mais parecidos.

Para qual representação se está convergindo?

Para responder a esta pergunta, os pesquisadores propõem um cenário idealizado, onde mostram que certos modelos de aprendizado convergem para uma representação cujo kernel é igual à função de informação mútua ponto a ponto sobre os eventos subjacentes que causam as "nossas" observações.

Isso sugere a existência de uma representação compartilhada da realidade, independente da modalidade dos dados.

Por exemplo, em um "mundo" de cores, onde os acontecimentos $z_{\textrm{vermelho}}$ e $z_{\textrm{laranja}}$ podem gerar observações visuais e textuais, tem-se

sim( $f$( "vermelho" ), $f$( "laranja" )) = sim( $f$( 🟥 ), $f$( 🟧 )) = PMI($z_{\textrm{vermelho}}$,$z_{\textrm{laranja}}$) + const.

Note que a análise acima faz várias suposições e é entendida apenas como um ponto de partida para uma teoria mais completa e geral.

No entanto, empiricamente se demonstrou que o PMI sobre cores de pixel recupera um kernel semelhante à percepção humana das cores, e este fato também se mostrou similar ao kernel que os LLMs recuperam.

Considerações finais

À medida que os modelos de IA, particularmente as redes neurais, avançam em complexidade e capacidade, tendem a convergir para uma forma compartilhada de representação que se assemelha ao conceito de Platão de uma realidade ideal. Esta ideia, inspirada na Teoria das Formas e na Alegoria da Caverna de Platão, sugere que os sistemas de IA se esforçam para capturar uma representação unificada da realidade subjacente, gerando dados observáveis, um fenômeno conhecido como "convergência representacional". O pensamento platônico influenciou significativamente várias disciplinas, incluindo matemática, metafísica e, agora, pesquisa em IA.

Conforme citação dos pesquisadores, a principal consideração é confirmar se de fato existe uma representação platônica em si, de modo que seja caracterizada inteiramente e permita responder aos diversos contra-argumentos que surgem, tais como: a existência de um conhecimento único para cada modelo ou técnica, e a questão dos sistemas especializados que não requerem representações generalistas.

As implicações práticas desta hipótese são profundas, impactando o desenvolvimento da inteligência artificial geral (AGI) e o campo mais amplo da ciência cognitiva. Se os modelos de IA estiverem de fato convergindo para uma representação unificada da realidade, isso poderá agilizar a criação de sistemas de IA mais versáteis e robustos, melhorando sua capacidade de transição entre diferentes tarefas e domínios. No entanto, a hipótese tem seus críticos. Alguns argumentam que diferentes modelos e modalidades possuem conhecimentos únicos que não estão em conformidade com uma representação universal e que os sistemas especializados podem não beneficiar de representações gerais.

Apesar desses contra-argumentos, a Hipótese da Representação Platônica continua a estimular vigorosos debates e pesquisas acadêmicas. O potencial dos modelos de IA convergirem para um modelo estatístico compartilhado da realidade levanta questões importantes sobre o futuro da IA, suas aplicações em vários setores e suas implicações éticas e sociais. À medida que as tecnologias de IA moldam cada vez mais os padrões sociais humanos e as práticas industriais, garantir seu desenvolvimento e implantação responsáveis continua a ser uma preocupação crítica.

Desse modo demonstrando ainda o esforço atual da comunidade científica em lançar luz sobre os processos fundamentais que impulsionam a aprendizagem de máquina, bem como sua relação com estudos profundos sobre a cognição humana.

E levanta importantes questões sobre a natureza da inteligência artificial, a Hipótese da Representação Platônica (HRP) também nos indaga, mais uma vez na história do pensamento humano, o que entendemos por "realidade".

⁂

Sugestões de Leitura

[1] Allegory of the Cave. Plato, c. 375 BC.

[2] The Platonic Representation Hypothesis. Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola, ICML 2024.

[3] Three Kinds of Scientific Realism. Putnam, The Philosophical Quarterly, 1982.

[4] Contrastive Learning Inverts the Data Generating Process. Zimmermann, Sharma, Schneider, Bethge, Brendel, ICML 2021.

[5] Revisiting Model Stitching to Compare Neural Representations. Yamini Bansal, Preetum Nakkiran, Boaz Barak, NeurIPS 2021.

[6] Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color. Abdou, Kulmizev, Hershcovich, Frank, Pavlik, Søgaard, CoNLL 2021.

[7] Explanatory models in neuroscience: Part 2 -- Constraint-based intelligibility. Cao, Yamins, Cognitive Systems Research, 2024.

[8] Robust agents learn causal world models. Jonathan Richens, Tom Everitt, ICLR 2024.

Pesquisar este blog

Caraumã: Reflexões em Arte, Ciência, Filosofia e Sociedade

Talvez você goste

Pintura: "Sementes", acrílico sobre madeira 77 x 50 cm

Hipótese da Representação de Platão e Modelos de Inteligência Artificial (IA)

Hipótese da Representação Platônica em IA

Medindo se as representações estão convergindo

Evidência de convergência

O que está impulsionando a convergência?

Para qual representação se está convergindo?

Considerações finais

Sugestões de Leitura

Comentários

Postar um comentário

Postagens mais visitadas

A Morte da Cachorra Baleia em Vidas Secas

Como Ser Um Bom Professor: Os Dez Mandamentos de George Pólya

Aplicação da Teoria Moderna de Portfólio de Markowitz com Python Utilizando Dados da Bolsa de Valores Brasileira (B3)

Pintura e Livreto: Amanhecer na Serra Grande

Caraumã: Modelo de Livro e-Book Gratuito em LaTeX

Criando sua Própria Estação Meteorológica de Baixo-Custo: FormigaWeather

Diálogo: O Silêncio entre nós

Quem não fecha os olhos quando sente dor?

Incompletude de Kurt Gödel

Mitologia Indígena: Olhar Tupinambá sobre a Origem do Cosmos