25

Máquinas que veem: visão computacional e agenciamentos do visível

  • Upload
    ufmg

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

cinemaapesar da imagem

org

gab

riel m

enot

ti . m

arcu

s ba

stos

. pa

tríci

a m

oran

Cinema apesar da imagem

GABRIEL MENOTTI | MARCUS BASTOS | PATRÍCIA MORAN DISTRIBUIÇÃO EM (CC) BY-SA 2.5 BR

1ª EDIÇÃO: MARÇO DE 2016

Editoração eletrônica, produção INTERMEIOS CASA DE ARTES E LIVROSRevisão JOSÉ IRMO GONRINGCapa MARCUS BASTOS

CONSELHO EDITORIALVINCENT M. COLAPIETRO (PENN STATE UNIVERSITY)DANIEL FERRER (ITEM/CNRS)LUCRÉCIA D’ALESSIO FERRARA (PUCSP)JERUSA PIRES FERREIRA (PUCSP)AMÁLIO PINHEIRO (PUCSP)JOSETTE MONZANI (UFSCAR)ROSEMEIRE APARECIDA SCOPINHO (UFSCAR)ILANA WAINER (USP)WALTER FAGUNDES MORALES (UESC/NEPAB)IZABEL RAMOS DE ABREU KISILJACQUELINE RAMOS (UFS)CELSO CRUZ (UFS) – IN MEMORIAMALESSANDRA PAOLA CARAMORI (UFBA)CLAUDIA DORNBUSCH (USP)JOSÉ CARLOS VILARDAGA (UNIFESP)•

Editora IntermeiosRua Valdir Niemeyer, 75 – SumarezinhoCEP 01257-080 – São Paulo – SP – BrasilFone: 2338-8851 – www.intermeioscultural.com.br

Dados Internacionais de Catalogação na Publicação – CIP M547 Menotti, Gabriel, Org.; Bastos, Marcus, Org.; Moran, Patrícia, Org. Cinema apesar da imagem / Organização de Gabriel Menotti, Marcus Bastos e Patrícia Moran. – São Paulo: Intermeios, 2016. 250 p.

Conferência Besides the screen (Telas à parte), Brasil, 2014. ISBN 978-85-8499-042-9

1. Cinema. 2. Comunicação. 3. Semiótica. 4. Artes. 5. Criação Artística. 6.ProcessodeCriação.7.ProduçãoCinematográfica.8.ProduçãoAudiovisual. 9.DistribuiçãoCinematográfica.10.Performance.I.Título. II.Imagens/Ontologias.III.Filme/Difusões.IV.Visão/Bricolagens. V.Materialidade/Performances.VI.Menotti,Gabriel,Organizador. VII. Bastos, Marcus, Organizador. VIII. Moran, Patrícia, Organizadora. IX. Intermeios – Casa de Artes e Livros.

CDU 791 CDD 791.43

Introdução GABRIELMENOTTI,MARCUSBASTOS,PATRÍCIAMORAN

parte 1 imagem/ontologiasVerdade, realismo SEANCUBITTIrreprodutível: cinema como evento ERIKA BALSOM

Máquinas do tempo BRUNOVIANNA

parte 2 filme/difusõesIntermediários escorregadios: expandindo conceitos sobre a distribuição cinematográficaVIRGINIA CRISP

FormalidadesdacirculaçãoinformaldecinemaeosgruposdetorrentcinéfilosANGELA MEILI

Entreaformalidadeeainformalidade:piratariaedistribuiçãocinematográficanoMéxicoSTEFANIAHARITOUCine Fantasma: o cinema morreu? Viva o cinema! PAOLABARRETOLEBLANC

parte 3 visão / bricolagensVídeo aberto em 360 graus LARISA BLAZIC

ETS–ExperimentosTécno-SinestésicosCARLOSAUGUSTOM.DANÓBREGA,MARIALUIZAP.G.FRAGOSO,BARBARAPIRESECASTROEFILIPIDIASOLIVEIRAMáquinas que veem: visão computacional e agenciamentos do visível ANDRÉMINTZ

parte 4 materialidade/performancesEntre sensores e sentidos: sobre a materialidade da comunicação na artemídia GRAZIELELAUTENSCHLAEGERMulheres continentais MONICATOLEDOCartografiaperformativa?STEPHENCONNOLYJogosdedistânciaeproximidade:micro-performancesviaSkypePATRÍCIAAZEVEDOECLARECHARNLEYSobre os autores

sumário

7

19 33 55

63

79

105

117

135143

157

179

201213221

231

Viemos nos acostumando, nos últimos anos, com máquinas capazes de

ver. Em estágio já bem adiantado em relação aos leitores de códigos de barras

– que talvez tenham representado sua primeira manifestação cotidiana, ainda rudimentar –, já não se fazem estritamente necessárias imagens ou grafismos feitos exclusivamente para as máquinas: estas já aprendem, e cada vez mais, a lidar com as mesmas imagens que nós. Em um exemplo corriqueiro, algumas

câmeras fotográficas mostram-se capazes de reconhecer rostos, detectar sorrisos e «piscadas» (indicando a necessidade de uma nova tomada). Algoritmos de reconhecimento de rostos identificam as pessoas retratadas em uma foto postada no Facebook, sugerindo quem devemos marcar naquela publicação. Interfaces de

controle de videogames como o Microsoft Kinect, por sua vez, incorporam a pose e o gesto do jogador à interação a partir de uma imagem de vídeo. Temos, também,

cada vez mais notícias da aplicação de algoritmos de visão computacional no contexto

da vigilância, como as denúncias realizadas em 2014 por Edward Snowden, que dão conta da utilização de programas de reconhecimento de rostos pelos serviços de inteligência dos EUA em inúmeras imagens coletadas diariamente em comunicações interceptadas na web (RISEN e POITRAS, 2014). “Imagem é tudo”, diz o título de uma das apresentações da Agência de Segurança Nacional que foram vazadas. Presenciamos, diante desses exemplos, a ascensão definitiva de máquinas que, por certa capacidade de ver, parecem recolocar questões sobre

o lugar da imagem e do visível na contemporaneidade.

Nomeia-se Visão Computacional a disciplina das Ciências da Computação dedicada ao desenvolvimento de tais algoritmos de interpretação automatizada

de imagens. Em uma perspectiva histórica, Lev Manovich (1993) indica como

máquinas que veem: visão computacional e agenciamentos do visível

andré mintz

158 cinema apesar da imagem

marco da emergência do campo a tese de doutorado de Lawrence G. Roberts, defendida no Massachussetts Institute of Technology na década de 1960. Trata-se de um dos primeiros esforços dedicados ao campo então denominado “machine perception” (“percepção maquínica1”). Como Roberts (1963) descreve em relatório derivado da tese, seu objetivo, então, era ultrapassar o limiar do reconhecimento de formas bidimensionais (como caracteres e códigos de barras) e enfrentar, efetivamente, o problema do reconhecimento de formas tridimensionais em imagens planas, encaminhando para o objetivo geral do “reconhecimento de dados pictóricos”. Diante deste desafio, ele desenvolve processos para o reconhecimento em fotografias de arestas de formas geométricas tridimensionais, com posterior processamento por

métodos de computação gráfica para gerar outros pontos de vista da mesma cena.Ao situar o desenvolvimento da visão computacional em sua narrativa sobre

a “engenharia da visão”, Manovich (1993) enfatiza sua relação a uma série de outras técnicas que aperfeiçoariam o uso da imagem enquanto uma instância

não apenas de representação, mas de controle sobre o espaço. Denominando

nominalismo visual a compreensão da imagem presumida por tais técnicas, o autor

(MANOVICH, 1993, p. 100) reúne, junto à visão computacional, tecnologias como o radar, as imagens de infravermelho e a ressonância magnética, destacando como em todas elas subentende-se uma via em mão dupla a conectar a imagem

a seu referente, uma vez que a eficiência instrumental de sua aplicação depende da possibilidade de reconstituirmos computacionalmente o espaço e os objetos

representados com precisão. O autor sugere, a partir de William Ivins (1975) e Bruno Latour (1986), que a perspectiva geométrica seria um dos mais importantes antecedentes de tais tecnologias ao elaborar uma representação instrumentalizada

e sistemática do espaço, desenvolvendo um método algorítmico para a passagem

calculada do espaço tridimensional à imagem, em um processo linear e, em certa

medida, reversível (MANOVICH, 1993, p. 111-116). A visão computacional, no desenvolvimento inicial de Roberts, visa a fazer justamente este caminho inverso, partindo da representação bidimensional para acessar aspectos da coisa

representada, aprofundando a compreensão da imagem como possibilidade de

domínio e de ação sobre o espaço.

1. Utilizamos o adjetivo “maquínica”, aqui, como substituto da locução adjetiva “da máquina”, pela qual poderíamos incorrer em uma ambiguidade pela qual também seria possível ler

como “a percepção da máquina por alguém”. Não se deve confundir este uso, contudo, com o sentido de maquínico de Deleuze e Guattari, que não se prestaria a uma contraposição humano/máquina, mas a seus agenciamentos coletivos (Cf. GUATTARI, 2003).

159gabriel menotti . marcus bastos . patrícia moran

Tomando o trabalho de Roberts como ponto de partida, Manovich sugere que a reconstituição computacional do espaço e de objetos tridimensionais a

partir de fotografias seria o traço definidor da visão computacional. Contudo, se observamos as diversas aplicações identificadas como pertencentes a este domínio, percebemos como ele não se restringe a tal operação, mas inclui

também outras, particularmente estratégicas na contemporaneidade, como o

reconhecimento de padrões e a classificação de imagens. Forsyth e Ponce (2012), autores de um livro técnico dedicado à visão computacional, sugerem um percurso

de vai de uma visão de “baixo nível” a uma visão de “alto nível”, realizando tarefas progressivamente mais abstratas à medida que se afastam de problemas

básicos, como a detecção de contornos, e alcançam a classificação de imagens ou o reconhecimento de objetos tridimensionais. Em uma definição mais abrangente que aquela oferecida por Manovich, Golan Levin (2006a, p. 462) define a visão computacional como uma ampla classe de algoritmos que permite ao computador

fazer “asserções inteligentes” sobre imagens digitais. Segundo sugere, o objetivo da visão computacional – de modo mais amplo que aquele definido por Manovich – seria o de superar a opacidade informacional da imagem:

Diferentemente de textos, os dados de vídeo digital, em sua forma básica, não contêm

nenhuma informação intrínseca semântica ou simbólica. Como resultado, um computador, sem programação adicional, não é capaz de responder mesmo às mais

elementares questões sobre se um clipe de vídeo contém uma pessoa ou objeto, ou se uma

cena exterior de vídeo retrata o dia ou a noite, etc. A disciplina da visão computacional foi

desenvolvida para responder a esta necessidade (LEVIN, 2006, p. 468, tradução do autor).

Deste modo, em um nível mais elementar, trata-se de um campo com grandes

interseções com a área do processamento de imagens, realizando procedimentos

de extração de fundo e detecção de contornos e de movimento a partir de

operações aritméticas simples com os valores numéricos dos pixels. Em um nível

mais elaborado, porém, a visão computacional aproxima-se dos domínios da

Inteligência Artificial e das Ciências Cognitivas, interessando-se, em certa medida, pelo desenvolvimento, na máquina, de competências humanas.

Não por acaso, inclusive, entre os iniciados, omite-se com frequência o

adjetivo computacional ao se tratar do assunto, dizendo-se apenas visão. David Marr

(1982) sugere claramente a possibilidade da passagem entre a visão humana e a da máquina através da via de uma equivalência potencial entre computação e

cognição. Ele propõe, afinal, que, mais do que uma área de aplicação tecnológica,

160 cinema apesar da imagem

trata-se de um estudo da visão por um viés computacional, de modo a se

compreender em maior profundidade a própria visão humana e animal. Não nos deteremos neste texto, porém, à discussão das possíveis relações e reconfigurações entre uma visão humana ou animal e uma visão da máquina – ainda que por vezes a tangenciemos. Trata-se, evidentemente, de um vetor fundamental e

instigante do campo abordado, mas o reservamos para outra ocasião enquanto

nos voltamos, neste momento, principalmente à descrição de alguns dos modos de

agenciamento do visível pela visão computacional a partir de suas manifestações

contemporâneas, diretas ou indiretas – em particular no âmbito da arte.

Buscamos, portanto, compreender como o modo de funcionamento da visão

computacional toma parte na configuração dos dispositivos2 de algumas obras,

sem perder de vista sua relação, em cada caso, com aplicações características

desta tecnologia em outros domínios, como na vigilância ou em mecanismos de

busca na web. Neste esforço, sugerimos a existência de pelo menos dois modos

de operação da visão computacional, relativamente distintos em seu modo de

agenciamento do visível, do espaço e dos sujeitos – embora necessariamente

relacionados e sobrepostos em exemplos efetivos de sua aplicação. De um lado,

temos as operações que reunimos sob o par localização–acionamento, mais próximas da

definição que Manovich faz do campo, as quais se caracterizam pela reconstituição computacional de um espaço concreto, com a precisa localização – e, em certos

casos, acionamento – dos corpos que o habitam a partir de parâmetros relacionados ao seu posicionamento no espaço. De outro, temos as operações que reunimos sob

o par reconhecimento–conexão3, que não se dirigem propriamente ao mapeamento de

um espaço circunscrito pelo campo de visão da câmera, mas à possibilidade de

reconhecer padrões registrados pela imagem (como rostos e objetos) e conectá-los a redes semânticas de dimensões variáveis, pela qual os programas realizam

diferentes percursos interpretativos do visível – conforme as conexões presentes

2. Não poderemos nos deter aqui ao desenvolvimento deste conceito que não assumirá um

papel central em nosso argumento. Em todo caso, dada a dispersão de suas definições, cabe circunscrevermos a qual perspectiva fazemos menção, na qual referimo-nos principalmente

ao sentido desenvolvido por Anne Marie Duguet (2012), que toma o dispositivo como conceito operatório para descrever as configurações e os modos de agenciamento espacial de algumas videoinstalações. Vale destacar, contudo, outras dependências fundamentais

de nossa compreensão mais abrangente do conceito, em particular: FOUCAULT, 1979; DELEUZE, 1999; e AGAMBEN, 2009.

3. Vale reiterar que, em ambos os casos, buscamos não uma categorização exclusiva ou exaustiva, mas apenas nomear diferentes modulações próprias ao funcionamento de

programas de visão computacional.

161gabriel menotti . marcus bastos . patrícia moran

na rede associada permitirem. Trata-se, é claro, de uma classificação sujeita aos riscos de qualquer esforço analítico, como a simplificação ou o reducionismo da abordagem, os quais esperamos ter minimizado em nosso percurso.

No primeiro modo de funcionamento sugerido, encontramos aplicações mais

tipicamente relacionadas ao contexto da vigilância, em que o campo de visão da

câmera circunscreve um território e a imagem traduz-se em uma instância de

mapeamento e rastreamento do espaço. Temos, então, uma atualização do regime

da videovigilância, como descreve Fernanda Bruno (2012), em que se delega à máquina tarefas de seleção, monitoramento e análise do espaço vigiado. Neste

contexto, a localização, o posicionamento ou o comportamento inadequado de

corpos no espaço mapeado disparam alertas a equipes de segurança e acionam

agentes humanos na tarefa de contenção. Esse seria o caso, por exemplo, da detecção de um corpo em uma zona de segurança em estações de metrô e aeroportos ou no

reconhecimento de outro em movimento ziguezagueante – impreciso, suspeito – em um estacionamento (BRUNO, 2012). Em outro sentido, tais sistemas também “acionam” os corpos vigiados ao lhes prescreverem posições e comportamentos considerados adequados naquele contexto – uma compreensão particularmente

adequada em alguns exemplos da artemídia.

É conhecida a importância que os sistemas de circuito fechado de televisão tiveram na emergência do gênero da videoinstalação, particularmente em

trabalhos das décadas de 1960 e 1970. Diversas obras do período, de artistas como Bruce Nauman, Dan Graham e Michael Snow servem, inclusive, de exemplos para a caracterização deste gênero por sua remissão aos dispositivos de vigilância

(RUSH, 2006, p. 111-118; DUGUET, 2012, p. 58-61). Experimentando com o tempo ao vivo das imagens de vídeo, uma configuração característica de muitos dos trabalhos desenvolvidos era, afinal, a da exibição de imagens do próprio espaço da instalação, simultaneamente, ou quase simultaneamente, à sua captura. De forma

similar à atualização que a visão computacional traz à videovigilância, observamos

como sua incidência mais característica e, talvez, paradigmática no contexto da

arte também vem atualizar a relação já constituída entre a videoinstalação e os

dispositivos de controle e supervisão.

A partir da integração da câmera a sistemas de interpretação automatizada

de imagens, mais do que incorporados à obra, o espaço instalativo, o tempo da

fruição e o corpo do espectador passam a ser mapeados e rastreados, tomados como

parâmetros e condições para o desencadeamento de respostas da obra à interação.

Operando desta maneira, Videoplace (1969), de Myron Krueger, é indicado por

162 cinema apesar da imagem

Golan Levin (2006a) como um dos primeiros trabalhos artísticos a se valer da visão computacional, tendo sido desenvolvido concomitantemente à emergência

das videoinstalações em circuito fechado e baseando-se, em larga medida, em uma configuração similar. Contudo, evidentemente, uma diferença importante é a participação de algoritmos de análise computacional das imagens capturadas, que

desempenham importante papel no dispositivo da instalação. Conforme descrição do próprio artista (KRUEGER, 2003, p. 384), Videoplace propõe a constituição de

um ambiente responsivo no qual uma câmera capta imagens dos participantes

para que seu programa extraia suas silhuetas, que servem como guias para repostas do ambiente, permitindo a interação gráfica com linhas e cores projetadas.

O dispositivo desta obra, com seu espaço mapeado e respostas visuais ao

espectador, que se observa como se diante de um espelho de realidade aumentada, parece ressoar em diversas outras obras posteriores, em particular na virada

dos anos 2000, como Text Rain (1999), de Camille Utterback e Romy Achituv, Tensión Superficial (1998), de Rafael Lozano-Hemmer, ou Hand from above (2009), de Chris O’Shea. Atualmente, com a ampla disponibilidade de bibliotecas de programação de código aberto para aplicações de visão computacional, além

da produção massiva de equipamentos especializados, como o Microsoft Kinect,

talvez seja impossível mapear a totalidade dessa incidência mais direta, já que se

trata de uma tecnologia de aplicação corriqueira e descomplicada, logo presente

não apenas em instalações artísticas, como também em estandes publicitários e

dispositivos museais.

Um aspecto a se destacar nesses casos, que em certa medida os contrapõe às obras da videoarte indicadas anteriormente – ou mesmo à configuração tradicional da videovigilância –, é o modo como à imagem, que é tomada na

entrada dos dispositivos constituídos, é destinado um papel secundário – quando

ela não é totalmente ocultada. Constituindo um intermediário transitório entre o espaço efetivo da instalação e as respostas de seu ambiente, em muitos casos,

a imagem capturada existe apenas no interior da própria câmera, inacessível

ao espectador, sendo tratada, posteriormente, apenas enquanto fluxos de dados nunca restituídos a um estado visível. A imagem é tomada, nestes dispositivos,

enquanto componente instrumental, que não tem um valor representacional em

sua forma visual mas, principalmente, em sua aplicação enquanto instrumento de

medição e mapeamento do que é enquadrado. A leitura da imagem é baseada,

nos exemplos indicados, em parâmetros bastante simples, que podem ser inclusive

expressos como instruções explícitas de como distinguir o que é capturado.

163gabriel menotti . marcus bastos . patrícia moran

São operações próprias a estes contextos, por exemplo: a separação entre corpos e fundo com base na análise de movimento da imagem; o contorno dos corpos a partir da sua sobreposição a um fundo previamente estabelecido ou

pela identificação de variações bruscas de cor e/ou luminância; ou quantidade e direção do movimento a partir da comparação entre frames consecutivos de uma

tomada contínua4. São operações que exibem, neste nível de refinamento da visão da máquina, seu caráter fundamentalmente analítico que é também ressaltado por

Fernanda Bruno (2012) em sua abordagem das chamadas “câmeras inteligentes”, aproximando-as dos experimentos de análise do movimento de Etienne-Jules Marey e dos estudos fisionômicos de Alphonse Bertillon, no século XIX. Haveria, ainda, certa herança da técnica da fotogrametria, desenvolvida no mesmo período, voltada para a recuperação de medições espaciais a partir de fotografias. Uma característica importante desse modo de operação, em todo caso, é a articulação da configuração espacial do ambiente monitorado ao modo de operação do próprio programa,

no dispositivo constituído. As instalações mencionadas, por exemplo, apresentam

uma configuração espacial especialmente preparada para o funcionamento dos algoritmos implementados, de modo a controlar a iluminação e a circulação de

pessoas. No âmbito das operações de localização–acionamento, tal articulação mostra-

se fundamental, dada a clara necessidade de correlação conhecida entre o espaço mapeado e sua representação visual no registro pela câmera.

Em instalações interativas que fazem uso da visão computacional nesse

modo de funcionamento, o campo de visão da câmera demarca um território no

espaço instalativo para o desenvolvimento das ações. Seu ponto de vista, em geral levemente superior ao dos espectadores – sendo, em alguns casos, situada a pino

–, favorece essa operação de mapeamento e circunscrição do espaço. Diante desse

olhar, os corpos dos espectadores, encontram-se como se rendidos: uma vez que adentram tal território, estão necessariamente disponíveis ao olhar da câmera, que, de certa maneira, lhes requisita que desempenhem determinadas ações – ou, de outro modo, lhes recompensa quando são desempenhadas. Golan Levin (2006b) explora essa questão em um bem humorado ensaio visual acerca de uma suposta “pose da artemídia” (“media art pose”), indicando como, com frequência, trabalhos interativos como os destacados (Levin inclusive cita Videoplace e Text rain

entre seus exemplos) nos levam a interagir levando nossas mãos ao alto. Passando por vários possíveis significados desse gesto – do exercício de controle do maestro

4. Golan Levin (2006a) indica algumas destas operações básicas da visão computacional.

164 cinema apesar da imagem

diante da orquestra à invocação dos poderes divinos pelo Papa – Levin inverte,

ao final, o sentido geralmente atribuído às obras interativas ao sugerir que, longe de conferir ao espectador uma posição de controle, a artemídia lhe requisita uma “postura da rendição total” (LEVIN, 2006b). Em certo sentido, afinal, para além do acionamento interno, pelo qual o programa da instalação dispararia certas

funções de acordo com a pose do interator, haveria um outro tipo de acionamento, incidindo sobre os próprios sujeitos à medida em que lhe é requisitado interagir, uma vez que se adentra o campo de visão da câmera.

No âmbito das operações que localizamos em torno do par reconhecimento–

conexão, de outro modo, a circunscrição de um espaço de monitoramento já

não é tão fundamental. Ainda que o campo de visão da câmera siga como uma

demarcação importante daquilo que pode ser percebido, não há necessidade de inscrição deste território demarcado no modo de funcionamento do programa. As

operações de reconhecimento–conexão se situam em um nível de maior abstração, em que o campo de atuação dos programas seria mais bem descrito como a rede

semântica que conecta determinado padrão percebido a outros pertencentes a

uma mesma categoria, podendo esta ser mais ou menos específica: um programa pode, por exemplo, tanto detectar um rosto em uma imagem quanto reconhecer de quem ele é. Pode, ainda, classificá-lo com relação a determinados parâmetros como gênero, idade, etnia, expressão facial, etc. Em todo caso, tais operações já

não dizem respeito a um ponto de vista específico da câmera sobre o ambiente registrado – se tratamos de algoritmos aplicados no contexto da internet, inclusive,

com frequência já nem se trata de uma ou outra câmera, pois lhe são alimentados, mais do que um determinado ponto de vista, inúmeros deles, oriundos das diversas

imagens em circulação, estáticas ou moventes, tomadas nos mais diversos contextos.

O caráter distribuído das operações de reconhecimento–conexão, mais do que uma particularidade do contexto atual de aplicação da visão computacional

na internet, constitui uma importante estratégia de seu próprio desenvolvimento.

O método pelo qual são gerados tais programas, chamado de aprendizado de máquinas

(do inglês machine learning), do domínio da Inteligência Artificial, compreende, em linhas gerais, a implementação de sistemas computacionais capazes de aprender a desempenhar determinadas tarefas pela inferência de regras gerais através do treino. No âmbito da visão computacional, um dos modos de aplicação desse

método envolve a alimentação ao sistema de centenas de imagens de rostos, por

exemplo, para que o algoritmo aprenda a reconhecê-los em outras imagens. Diferentemente das operações que indicamos anteriormente, em que são

165gabriel menotti . marcus bastos . patrícia moran

oferecidas instruções explícitas ao sistema, no desenvolvimento do aprendizado

de máquinas cabe ao próprio algoritmo inferir as instruções que deve seguir,

tomando como referência as imagens oferecidas na fase de treino.

Um dos modos de fazê-lo – o chamado aprendizado supervisionado – consiste em

produzir diversas imagens de objetos pertencentes a determinada categoria, os

quais servirão como base de treinamento para o programa aprender a reconhecê-la. Podem ser encontrados na web alguns bancos de imagens disponibilizados por laboratórios de pesquisa em visão computacional5 para serem utilizados por

pesquisadores e estudantes no treinamento ou no teste de seus próprios programas.

Compostas por enormes conjuntos de imagens de objetos e pessoas – sempre recortados, isolados e deslocados de seu contexto e de sua história –, essas bases se apresentam como uma espécie de memória visual das máquinas de visão. Trata-se,

potencialmente, da totalidade da experiência visual de que se valem alguns destes

programas para darem sentido às imagens com que tomam contato. A natureza

das imagens que desempenham esse papel talvez indique, então, o critério de eficiência que guia o desenvolvimento das máquinas, cuja experiência dos objetos do mundo se faz de forma absolutamente descontextualizada e fragmentada –

distanciando-se, assim, das imagens tomadas em circunstâncias comuns, jamais

clivadas, de tal maneira, de um contexto ou de uma história.Contudo, com a massiva disponibilidade de imagens tomadas nas mais

diversas situações, ganham espaço outros métodos de treinamento que se valem deste acervo crescente de potenciais bases de treinamento. Métodos de

aprendizado chamados de não supervisionados, complementares aos previamente

descritos, são baseados principalmente na alimentação ao programa de

imagens de treinamento que já não se constituem como exemplos – como

seriam as centenas de imagens de maçãs – mas, de outro modo, apresentam

casos diversos, sem seleção prévia, entre os quais o programa deve buscar

encontrar padrões recorrentes sem que a ele sejam oferecidos, de antemão,

enquadramentos a partir dos quais analisar a informação. Essa é a estratégia

atualmente utilizada por companhias como a Google, o Facebook e a Microsoft no treinamento de seus algoritmos de visão no que vem sendo chamado de deep

learning (aprendizado profundo), fazendo uso da extensa base de imagens da própria internet. Assistimos, afinal, a um contexto cada vez mais favorável a tais desenvolvimentos, especialmente com o uso crescente dos chamados serviços de

5. Cf. Amsterdam Library of Object Images <http://aloi.science.uva.nl>.

166 cinema apesar da imagem

armazenamento em nuvem e com a tendência geral de que potencialmente toda

e qualquer imagem produzida seja em alguma medida disponibilizada na rede.

Por tais métodos de aprendizado, para além das operações analíticas

que indicamos anteriormente, a leitura das imagens parece incluir também

uma dimensão de síntese, pela qual a máquina elaboraria internamente uma

representação daquilo que infere como sendo os aspectos característicos do que

busca reconhecer. Mais do que partir de instruções explícitas que, neste sentido, indicariam regras gerais para que fossem analisadas imagens singulares, parte-se,

em alguma medida, dessas mesmas imagens para encontrar, em seu conjunto, os

parâmetros que guiam a análise. A Google publicou em 2011 uma imagem que apresenta um subproduto de seu projeto Google Vision, no qual foram aplicadas

técnicas de aprendizado não supervisionado para a interpretação de mais de

10 milhões de imagens do YouTube, com seu algoritmo buscando identificar autonomamente alguns dos objetos figurados (LE, 2011 e MARKOFF, 2012). Após apenas alguns dias de processamento intensivo desse repertório por 16 mil processadores, o programa da Google tornou-se apto a reconhecer, entre outros padrões, gatos, permitindo que também se gerasse uma representação visual

daquilo que passou a identificar como tal (Fig. 1). Em seus tons acinzentados e sua forma tênue, fugaz, nos é trazida a estranha imagem de um “gato médio”, um abstrato conceito estatístico estranho ao nosso olhar6. Trata-se de uma imagem

que escapa a qualquer possibilidade de singularização, são todos e nenhum gato.

Fig. 1 – O modelo visual de um gato gerado pelo programa de aprendizadoprofundodaGoogle.Fonte: LE, 2011.

6. O experimento chamado pela Google de Inceptionism ou Deep Dream (“sonho profundo”), em alusão ao deep learning, serviria, aqui, como um outro exemplo, talvez ainda mais contundente

e de maior repercussão do que este que apresentamos (cf. http://googleresearch.blogspot.com.br/2015/06/inceptionism-going-deeper-into-neural.html). Contudo, como foi publicado durante a revisão deste artigo, não pudemos abordá-lo neste momento.

167gabriel menotti . marcus bastos . patrícia moran

Há, evidentemente, uma diferença substancial entre a visualidade inscrita

neste “gato médio” e aquela que Manovich busca na perspectiva renascentista para compreender a visão computacional nos termos do que indica por nominalismo

visual – vertente incluída nas operações que reunimos sob localização–acionamento.

Se por tal denominação o autor busca remontar a uma relação com a imagem que se atenha mais aos objetos individuais nela figurados do que à representação de ideias abstratas, talvez seja justamente a este movimento contrário que se prestam

os processos de aprendizagem aplicados à visão computacional. Afinal, no caso destes, parte-se de inúmeros casos singulares para chegar a um modelo em certa medida ideal, pela via da estatística. De tal modo, algoritmos deste tipo buscam

extrair do conjunto de fotografias algo como um idealismo visual – afastando-as,

inclusive, da indexicalidade que constituiria uma de suas características mais

destacadas7. A visão computacional, neste modo particular de funcionamento,

opera pela via da descontextualização de cada imagem superposta, formando essa

estranha figura que nos é apresentada como o gabarito em que se baseia a visão da máquina. O gato que vemos, neste sentido, consiste naquele que emerge de uma

ampla rede de figurações similares dispersas no YouTube, conexões que seriam ativadas a cada detecção de um padrão similar pelo programa da Google, a cada novo reconhecimento.

Se estranhamos essa manifestação particular da visualidade estatística da máquina que se expressa por meio da imagem do gato pardo da Google, isso não significa, contudo, que de todo estranhemos esse modo de ver. Afinal, lidamos com seus efeitos de modo cada vez mais frequente à medida que os algoritmos que

lhe dão forma se fazem presentes de modo disperso, porém, em certa medida, coordenado8, em diversos dispositivos com os quais produzimos e acessamos

imagens. A interpretação visual automatizada vem sendo usada pela Google já há algum tempo nas tarefas de busca e indexação de imagens na rede, inclusive oferecendo, desde 20099, o recurso de pesquisa inversa que permite nos valermos

7. Trata-se de compreensão trabalhada por vários autores a partir do referencial da semiótica peirciana, mas que tem em Dubois (2012) um dos mais destacados expoentes.

8. Há dispersão na medida em que são diversos os agentes institucionais (governos,

corporações) que aplicam tais metodologias de aprendizado. Contudo, em sua maioria, partem de uma estratégia comum, relacionada ao que convencionou-se chamar de big data: mineração, coleta e análise contínua de dados diversos a fim de elaborar perfis (de risco ou de consumo, o princípio é o mesmo) para embasar tomadas de decisão de ordens diversas.

9. Embora menos conhecido, outro exemplo deste tipo de serviço, que antecedeu brevemente o da Google, é o canadense TinEye, lançado em 2008 (cf. http://tineye.com/).

168 cinema apesar da imagem

de uma imagem como chave para a busca tanto de sites e conteúdos da web em geral, quanto de imagens similares. A publicação massiva de imagens na web se torna, então, tanto um problema a se enfrentar – como dar sentido a esse arquivo

gigantesco e em expansão? – quanto o próprio substrato em que são gestadas as

ferramentas para fazê-lo. A visão computacional parece ser, então, um componente

chave tanto para sermos capazes de gerir tal volume de imagens quanto para compreendermos o modo de ver requisitado por esse contexto. Esse domínio é,

inclusive, uma importante frente contemporânea da pesquisa em cultura visual,

sendo adotada enquanto instrumento de análise para dar sentido a esse volume

massivo que se produz diariamente10.

Fig. 2 – I›m Google,deDinaKelberman(fragmento).Fonte: KELBERMAN, 2011.

10. Lev Manovich reconhecidamente empreende algumas das pesquisas neste domínio, com destaque recente em torno de análises feitas de imagens compartilhadas em redes sociais, como o projeto Selfiecity, que analisou, em um dispositivo misto, de analistas humanos e computacionais, um dia de imagens postadas na rede Instagram em cinco cidades do

mundo (cf. http://selfiecity.net/).

169gabriel menotti . marcus bastos . patrícia moran

I’m Google (2011-), obra da artista estadunidense Dina Kelberman, brinca com aspectos dessa visualidade. Trata-se de um trabalho on-line hospedado como um blog da plataforma Tumblr, em um layout limpo, austero: sobre o fundo branco, estendem-se apenas três colunas de imagens, em sua maioria estáticas. Valendo-

se do recurso infinte scroll, o blog da artista expande-se de forma aparentemente

infinita: quando levamos a barra de rolagem até o final, a página automaticamente carrega as próximas imagens. São centenas delas. A seleção e a organização das imagens são feitas pela própria artista a partir de sua coleta na rede. Apesar da

evidente heterogeneidade do conjunto, dando conta dos mais diversos temas e estilos – fotos amadoras, registros de atividades agrícolas e industriais, trabalhos manuais, culinária, esportes –, o passeio pela obra revela cuidadosos trabalhos de agrupamento e de transição. Em geral, a sequência segue um certo padrão: séries de imagens reunidas segundo agrupamentos semânticos – como, por

exemplo, séries de peças de croché, de balões cortados, de luvas – entre os quais são construídas transições em que o salto temático parece ser amortecido por

uma associação superficial entre as imagens, através de correspondências de cores, formas, texturas e enquadramentos.

Em uma passagem que nos chama especialmente a atenção (Fig. 2), imagens do que parecem massas de pão dão lugar a uma sequência de jipes e bugues

em meio a dunas de areia: a transição se dá entre a massa amorfa de farinha e uma nuvem de areia lançada ao ar pela manobra de um dos carros. De forma

similar passamos, noutros momentos, de boias de sinalização marítima a imagens

de trabalhos escolares feitos com bolas de isopor; de aparelhos auditivos a sapatos de bonecas; de ginásios de treinamento de ginástica olímpica a caixas de papelão recém-abertas após a chegada de encomendas. Em todas essas transições, a passagem se dá por associações presentes apenas na superfície das imagens, como

que estabelecendo uma barreira ao nosso olhar, impedindo-o de buscar a coisa representada e forçando-o a se ater a seus aspectos formais. Diante das relações

estabelecidas e mesmo da profusão heterogênea de temas e contextos, não conseguimos nos deter a cada uma das imagens e nossa leitura, assim, oscila entre

estes níveis, entre a superfície e a profundidade, sem se estabelecer firmemente em nenhum dos dois. O movimento de leitura a que somos conduzidos pela obra parece se sugerir uma dinâmica refinada em que não jogam apenas nosso olhar e o olhar da artista. O processo, quase algorítmico, com que são construídas as relações entre as imagens, com seus vínculos cromáticos e sutis jogos de

semelhança, sugere-nos, afinal, a participação de um olhar da máquina. Os saltos

170 cinema apesar da imagem

realizados entre os conjuntos sugerem algo como falhas da ordenação realizada pela máquina – em nossa perspectiva –, como se derivassem de um equívoco na

aplicação do gabarito através do qual as imagens seriam classificadas. Existe algo de poético, tanto quanto de cômico, em tais passagens elaboradas pela artista.

O método com que se elabora a sequência de imagens da obra coloca em

evidência algumas das dinâmicas relacionadas ao jogo entre agentes de visão

humanos e não humanos – nós e as máquinas – que acontece, atualmente, por causa da presença crescente dos agentes computacionais de visão. Ainda que se

valha de certo instante de estranhamento que ainda – e talvez sempre – emergiria em nossa relação com tais dispositivos, a obra de Kelberman segue um caminho distinto daquele que se insinua, por exemplo, em trabalhos de Mark Shepard, Adam Harvey ou Zach Blas11, que exploram as brechas nas quais ainda seria possível erigirmos uma barreira, ainda que transitória, à sua visibilidade. São trabalhos que, cada um a seu modo, oferecem respostas para os desafios que nos colocam as máquinas que veem, tomadas enquanto materializações de um desejo

de visibilidade irrestrita. Shepard, com LEDs infravermelhos que obstruem a capacidade de leitura, pelos algoritmos, de formas humanas. Harvey, com design

de maquiagem e cabelos que ocultam traços fisionômicos fundamentais para a detecção e o reconhecimento de rostos. E Blas, com máscaras radicalmente obstrutivas, geradas a partir de dados acumulados de diversos rostos distintos,

ou, ainda, com objetos que nos permitem visualizar os atributos biométricos

usados na identificação como um instrumento de tortura. Todos eles, ainda que com abordagens distintas, têm em comum com I’m Google, de Kelberman, serem respostas a um modo de funcionamento da visão computacional pautado

nas tarefas de reconhecimento e classificação de padrões visuais, de caráter fundamentalmente estatístico e em uma topologia de rede, em que determinadas

configurações cromáticas dos pixels ativam percursos particulares, produzindo

associações semânticas (classes e identidades).Em ainda outro exemplo, a instalação The giver of names (1990-)12, de David

Rokeby, traz uma incidência particular desse tipo de operação. Nela, o espectador é convidado a escolher alguns objetos – de uma diversidade deles, espalhados pelo

11. Sentient City Survival Kit (2010), de Shepard (http://survival.sentientcity.net/). CVDazzle (2010-) de Harvey (http://cvdazzle.com). Facial Weaponization Suite (2011-2014) e Face Cages

(2013-2015) de Blas (http://www.zachblas.info/projects/facial-weaponization-suite/ e

http://www.zachblas.info/projects/face-cages/).12. Cf.: http://www.davidrokeby.com/gon.html.

171gabriel menotti . marcus bastos . patrícia moran

chão – dispondo-os sobre um pedestal diante de uma câmera conectada a um computador. O programa analisa a imagem captada, extraindo-lhe os contornos, analisando sua cor e textura, e busca identificar, a partir dos traços descritos, quais seriam aqueles objetos entre os que constam em uma base conhecida. O reconhecimento ativa uma rede conceitual, composta por uma base de nomes de objetos, sensações e ideias – extraídas, entre outras fontes, de textos escritos pelo

artista e obras da literatura – que são articuladas a partir das formas percebidas,

de forma a elaborar uma frase em alguma medida afetada pela percepção visual,

pela máquina, daquela cena. Destaca-se como a operação da obra se distancia

daquelas típicas do par localização–acionamento, pois não se trata de recompor, a

partir da imagem, um espaço concreto, como é o caso das aplicações que indicamos

anteriormente, ou dos trabalhos de artemídia derivados. Trata-se, antes, de uma operação de abstração pela qual acessamos, a partir da imagem, um espaço difuso,

conceitual, em que, mais do que circunscrever regiões ou monitorar movimentos,

estabelecem-se conexões e ativam-se percursos, fazendo emergir sentidos a partir

das relações estabelecidas.

Por todo o conjunto de casos que pudemos abordar, percebe-se tanto

a diversidade de modos de agenciamento do visível operados pela visão

computacional quanto aquilo que têm em comum. Se, de um lado, as operações reunidas sob o par localização–acionamento dedicam-se a um contexto particular

de operação, circunscrevendo e mapeando um determinado espaço e nele

localizando e rastreando corpos específicos, concretos, vemos como as operações de reconhecimento–conexão realizam uma abstração destas individualidades, buscando conectá-las a categorias ou formulações genéricas, inferidas de

uma enorme quantidade de instâncias singulares. Evidentemente, efetuamos

nesta clivagem uma categorização apenas transitória, já que tais modos de

funcionamento manifestam-se, com frequência, de modo indistinto em diversas

aplicações – na vigilância, por exemplo, tanto a localização de um corpo quanto

a sua identificação ou classificação mostram-se fundamentais.Em todo caso, incidindo transversalmente a tal diversidade de manifestações,

haveria um eixo comum a percorrer as aplicações da visão computacional, o qual talvez pudéssemos compreender pela definição de Golan Levin (2006a) que trouxemos ao início: trata-se de transpor a opacidade computacional da imagem, de traduzir seus conteúdos figurativos a uma representação quantificável e computável. Forsyth e Ponce (2012, p. 107) apresentam um exemplo elucidativo: “Figuras de zebras e de dálmatas têm pixels brancos e pretos, e em torno do mesmo

172 cinema apesar da imagem

número, inclusive. A diferença entre as duas tem a ver com a aparência característica

de pequenos grupos de pixels, mais do que valores de pixels individuais” (tradução do autor). Partimos, então, da representação numérica da imagem, expressa pixel a pixel, para chegar a seu nível figurativo (aquilo que ela aparenta, o espaço e dimensões representadas, etc.) e, então, traduzir esta figuração novamente em um valor numérico, registrável e computável. Essa definição, embora precisa, atém-se a um nível técnico que talvez não sintetize todas as questões que pudemos

perceber no percurso de nossa argumentação – afinal, não basta descrevermos esta operação sem atentarmos aos modos de agenciamento implicados.

Vem ao nosso auxílio, nesta leitura, a definição de Sean Cubitt (2011, p. 9) do que seriam, em nosso tempo, as mídias dominantes (entendidas como aquelas

utilizadas para o exercício do poder). Segundo ele, já não seriam mais a narrativa ou a imagem, mas aquelas que indica como os três pilares contemporâneos da economia

política: planilhas, bancos de dados e sistemas de informação geográfica (GIS). Seriam estas que, em última medida, serviriam aos propósitos atuais de elaboração de perfis estatísticos e de controle e gerenciamento de riscos, presentes em instâncias de governo tanto estatais quanto corporativas. Poderíamos compreender a Visão

Computacional, então, como um agente de passagem, de transição, responsável pela tradução entre dois paradigmas das tecnologias de controle e conhecimento, subsumindo a imagem a uma destas formas indicadas por Cubitt, em especial os bancos de dados e os sistemas de georreferenciamento – situados a apenas um passo

em relação aos desenvolvimentos que pudemos descrever.

De um lado, há evidentemente uma forte reconfiguração do papel desempenhado pela imagem, que, passível de ser traduzida automaticamente em informação, desdobra-se enquanto uma fonte de dados estatísticos e deixa de

ser, neste sentido, um objeto de difícil tratamento, indexação ou arquivamento.

De outro, há também um ganho significativo para as mídias identificadas por Cubitt, com a entrada da imagem em seu domínio. Operando tradicionalmente por meio de dados numéricos e abstratos, a elas lhes é permitido, a partir da imagem, circunscrever e particularizar a informação ao operar a partir de um

registro singular. De outro modo, também lhes torna possível fazer o caminho inverso e generalizar a partir destas mesmas instâncias singulares, na medida

que é pelo enfrentamento de múltiplos registros do individual fotográfico que o método do aprendizado de máquinas permite aos algoritmos da Visão Computacional realizar o reconhecimento de padrões e a sua conexão a instâncias relacionadas. De toda forma, mais ou menos relevante, a imagem tem seu lugar reconfigurado

173gabriel menotti . marcus bastos . patrícia moran

nesse contexto, sendo levada a assumir o papel de componente intermediário e

transitório de uma operação na qual, por vezes, nem aparece.

ReferênciasAGAMBEN, Giorgio. O que é um dispositivo?. In: ______. O que é o contemporâneo? e outros ensaios.

Chapecó, SC: Argos Editora, 2009. p. 25-51.

BRUNO, Fernanda. Contramanual para câmeras inteligentes: vigilância, tecnologia e percepção. Galáxia, São Paulo, n. 24, p. 47-63, dez. 2012. Disponível em: < http://revistas.pucsp.br/index.php/galaxia/article/view/9807/9426>. Acesso em: 15 nov 2014.

CRARY, Jonathan. Techiniques of the observer: on vision and modernity in the nineteenth century.

Cambridge, Mass.: MIT Press, 1992.

CUBITT, Sean. Time to live. ISEA2011 Istanbul Conference Proceedings, Leonardo Electronic

Almanac, v. 18, n. 4, 2011. p. 8-15. Disponível em: <http://www.leoalmanac.org/wp-content/uploads/2012/04/ISEA_proceedings-sean-cubitt.pdf>. Acesso em: 15 nov 2014.

DELEUZE, Gilles. ¿Qué es un dispositivo?. In: BALBIER, Etienne; et al. Michel Foucault, filósofo. Barcelona: Gedisa, 1999. p. 155-163.

DUBOIS, Philippe. O ato fotográfico. 14ª ed. Campinas, SP: Papirus, 2012.

DUGUET, Anne-Marie. Dispositivos. In: MACIEL, Kátia (org.). Transcinemas. Rio de Janeiro: Contracapa, 2012. p. 49-70.

FORSYTH, David A.; PONCE, Jean. Computer vision: a modern approach. New Jersey: Pearson, 2012.

FOUCAULT, Michel. Vigiar e punir: o nascimento da prisão. Petrópolis, RJ: Vozes, 1999.

__________. Microfísica do poder. Rio de Janeiro: Edições Graal, 1979.

GEUSEBROEK, Jan-Mark; BURGHOUTS, Gertjan J.; SMEUL-DERS, Arnold W. M. The Amsterdam library of object images. International Journal of Computer

Vision, v. 61, n. 1, Jan 2005. p. 103-112. Disponível em: <http://link.springer.com/article/10.1023%2FB%3AVISI.0000042993.50813.60>. Acesso em: 15 nov 2014.

GUATTARI, Félix. A paixão das máquinas. Cadernos de subjetividade: O reencantamento do concreto, São Paulo, v. 1, n. 1, 2003. p. 39-51.

174 cinema apesar da imagem

INTELLIGENT SENSORY INFORMATION SYSTEMS. University of Amsterdam. The

Amsterdam library of object images. Amsterdam, 2004. Disponível em: < http://aloi.science.uva.nl/>. Acesso em: 15 nov 2014.

IVINS, William M. On the rationalization of sight: with the examination of three Renaissance texts on

perspective. New York: Da Capo Press, 1975.

KELBERMAN, Dina. I’m Google. 2011. Obra de arte digital. Disponível em: <http://dinakelberman.tumblr.com>. Acesso em 15 nov 2014.

KRUEGER, Myron W. Responsive environments. In: WARDRIP-FRUIN, Noah; MONTFORT, Nick (eds.). The new media reader. Cambridge, MA: MIT Press, 2003. p. 379-389.

LATOUR, Bruno. Visualization and cognition: drawing things together. Knowledge and Society 6, 1986. p. 1-40.

LE, Quoc V. et al. Building high-level features using large scale unsupervised learning. arXiv:1112.6209 [cs], arXiv: 1112.6209, 28 dez. 2011. Disponível em: <http://arxiv.org/abs/1112.6209>. Acesso em: 9 jan. 2015.

LEVIN, Golan. Computer vision for artists and designers: pedagogic tools and techniques for novice programmers. Journal of Artificial Intelligence and Society, v. 20.4, 2006a. p. 462-482.

__________. Hands up! A visual essay on the ‘media art pose’. Texto originalmente apresentado no simpósio Emoção Art.ficial. São Paulo, Brasil; 24 jul 2006b. Disponível em: <http://www.flong. com/texts/essays/essay_pose/>. Acesso em: 10 maio 2014.

MANOVICH, Lev. The engineering of vision from constructivism to computers. Tese (doutorado). University of Rochester. 1993. Disponível em: <http://manovich.net/EV/EV.PDF>. Acesso em: 12 set 2013.

MARKOFF, John. How many computers to identify a cat? 16,000. In: The New York Times,

25 jun 2012. Disponível em: <http://www.nytimes.com/2012/06/26/ technology/in-a-big-network-of-computers-evidence-of-machine-learning.html>. Acesso em: 14 jul 2014.

MARR, David. Vision: a computational investigation into the human representation and processing of visual information. New York: W. H. Freeman, 1982.

RISEN, James; POITRAS, Laura. N.S.A. collecting millions of faces from web images. In: The

New York Times, 31 maio 2014. Disponível em: <http://www.nytimes.com/2014/06/01/us/nsa-collecting-millions-of-faces-from-web-images.html>. Acesso em: 7 jul 2014.

ROBERTS, Lawrence G. Machine perception of three-dimensional solids. MIT Lincoln

175gabriel menotti . marcus bastos . patrícia moran

Laboratory, 1963. Disponível em: <http://www.packet.cc/files/mach-per-3D-solids.html>. Acesso em: 8 jul 2014.

RUSH, Michael. Novas mídias na arte contemporânea. São Paulo: Martins Fontes, 2006.