8
ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS COMERCIAIS ATRAVÉS DE UM MODELO ADITIVO GENERALIZADO LUCAS T. FARIA, JOEL D. MELO, ANTONIO PADILHA-FELTRIN Laboratório de Planejamento de Sistemas de Energia Elétrica LaPSEE, Depto de Engenharia Elétrica DEE, Faculdade de Engenharia de Ilha Solteira FEIS, Universidade Estadual Paulista UNESP Caixa Postal 031, (18) 3743-1000, Ramal: 1626, Ilha Solteira, SP, BRASIL Emails: [email protected],[email protected],[email protected] Abstract This work incorporates the geographical area to the analysis of the problem of non-technical losses. These losses are modeled as point events considering socioeconomic variables that help explain the spatial distribution of them. These variables are used in a Generalized Additive Model (GAM) associated with a case-control study carried out from a set of cases and a set of controls. The set of cases consists of the consumer units caught in irregularities over four years. The control set is formed by randomly regular consumer units in the customer base of the power utilities. The model has the advantage of allowing the estimation of the spatial distribution of non-technical losses using socioeconomic covariates that characterize the sub-regions where these losses occur. Moreover, it is easy to interpret and can be extended to add new covariates. The result of this work is a probability map indicating areas of the city most vulnerable to non-technical losses. This study highlights the socioeconomic variables that are statistically significant and therefore directly influence the spatial distribution of non-technical losses. This model was applied in a city with approximately 200,000 inhabitants and the results allow us to affirm that the regions with highest average residents with more rented houses and with more extensive distribution network are more likely to possess consumer units with higher non-technical losses. With this result, power utilities are better able to take measures not only to combat energy theft, as well as preventing the onset and exacerbation of non-technical losses in the city analyzed. KeywordsNon-technical Losses, Commercial Losses, Power Distribution System, Spatial Point Analysis. Resumo Neste trabalho incorpora-se o espaço geográfico à análise do problema de perdas comerciais. Essas perdas são mode- ladas como eventos pontuais considerando variáveis socioeconômicas que auxiliem na explicação da disposição espacial das mesmas. Tais variáveis são utilizadas em um modelo aditivo generalizado associado a um estudo casos-controles que realiza a comparação entre dois processos espaciais pontuais. Um deles é representado pelo conjunto dos casos que são as Unidades Con- sumidoras (UCs) flagradas em irregularidades. O outro processo é representado pelo conjunto de controles que é composto por UCs regulares obtidas aleatoriamente a partir da base de clientes da concessionária. O modelo possui a vantagem de permitir a estimação da distribuição espacial das perdas comerciais utilizando covariáveis socioeconômicas que caracterizam as sub-regiões em que ocorrem essas perdas. Ademais, é de fácil interpretação e pode ser estendido para adição de novas covariáveis. O resulta- do deste trabalho é um mapa de probabilidades indicando as regiões do município mais vulneráveis às perdas comerciais. Além de indicar as regiões mais vulneráveis, este estudo destaca as variáveis socioeconômicas que são estatisticamente relevantes e que, portanto, influem diretamente na disposição espacial das perdas comerciais. Este modelo foi aplicado em um município com aproximadamente 200 mil habitantes e os resultados permitem constatar que as regiões com maior média de moradores, com mais domicílios alugados e com rede de distribuição mais extensa, têm maior probabilidade de possuírem UCs com maiores per- das comerciais. Com tal resultado, as concessionárias têm melhores condições de adotar não apenas medidas de combate, bem como de prevenção ao surgimento e/ou agravamento das perdas comerciais no município analisado. Palavras-chave Perdas Comerciais, Perdas Não Técnicas, Sistema de Distribuição, Análise Espacial de Pontos. 1 Introdução As perdas comerciais ou perdas não técnicas o- casionam prejuízos relevantes e, por isso, são motivo de grande preocupação no Sistema de Distribuição de Energia Elétrica (SDEE) de países emergentes como o Brasil (ANEEL, 2008). Denominam-se perdas comerciais a energia não faturada descontadas as perdas técnicas que são inerentes ao sistema elétrico. As perdas comerciais existem predominantemente devido às fraudes embu- tidas nos medidores de energia, às ligações clandes- tinas, aos erros do leiturista e à obsolescência dos equipamentos de medição energia (Faria et al., 2012). Tais perdas causam prejuízo financeiro à empre- sa distribuidora de energia e à sociedade. Destacam- se: redução da arrecadação de impostos, aumento da tarifa de energia e injustiça social (ANEEL, 2008). Um dos primeiros trabalhos relevantes em per- das comerciais foi Jiang et al. (2002). Neste utilizam- se múltiplos classificadores e coeficientes wavelets para identificação de fraudes em clientes a partir do histórico de consumo mensal. Os trabalhos posterio- res têm a mesma estrutura básica, isto é, utilizam alguma técnica da área de sistemas inteligentes tais como: redes neurais artificiais (Faria et al., 2012), lógica nebulosa ou lógica fuzzy (Cabral et al., 2004), algoritmos de aprendizado de máquina (Cometti; Varejão, 2005), mineração de dados (Nizar et al., 2008), mineração de texto (Guerreiro et al., 2010), redes Bayesianas (Bastos, 2011) para detectar Uni- dades Consumidoras (UCs) com indícios de fraudes. Utilizam como dados de entrada basicamente o histó- rico de consumo mensal, dados cadastrais e comentá- rios dos leiturista e inspetores. Em Smith (2004) amplia-se a discussão através de uma abordagem qualitativa na qual analisam-se aspectos socioeconômicos de diversas regiões do mundo. Estima-se o furto de eletricidade em 102 países entre 1980 e 2000. Também é reconhecida a característica complexa e multifacetária do problema de perdas comerciais o qual é associado a aspectos Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014 2873

ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS COMERCIAIS ATRAVÉS DE UM

MODELO ADITIVO GENERALIZADO

LUCAS T. FARIA, JOEL D. MELO, ANTONIO PADILHA-FELTRIN

Laboratório de Planejamento de Sistemas de Energia Elétrica – LaPSEE, Depto de Engenharia Elétrica – DEE,

Faculdade de Engenharia de Ilha Solteira – FEIS, Universidade Estadual Paulista – UNESP

Caixa Postal 031, (18) 3743-1000, Ramal: 1626, Ilha Solteira, SP, BRASIL

Emails: [email protected],[email protected],[email protected]

Abstract This work incorporates the geographical area to the analysis of the problem of non-technical losses. These losses are

modeled as point events considering socioeconomic variables that help explain the spatial distribution of them. These variables

are used in a Generalized Additive Model (GAM) associated with a case-control study carried out from a set of cases and a set of controls. The set of cases consists of the consumer units caught in irregularities over four years. The control set is formed by

randomly regular consumer units in the customer base of the power utilities. The model has the advantage of allowing the

estimation of the spatial distribution of non-technical losses using socioeconomic covariates that characterize the sub-regions where these losses occur. Moreover, it is easy to interpret and can be extended to add new covariates. The result of this work is a

probability map indicating areas of the city most vulnerable to non-technical losses. This study highlights the socioeconomic

variables that are statistically significant and therefore directly influence the spatial distribution of non-technical losses. This model was applied in a city with approximately 200,000 inhabitants and the results allow us to affirm that the regions with

highest average residents with more rented houses and with more extensive distribution network are more likely to possess

consumer units with higher non-technical losses. With this result, power utilities are better able to take measures not only to combat energy theft, as well as preventing the onset and exacerbation of non-technical losses in the city analyzed.

KeywordsNon-technical Losses, Commercial Losses, Power Distribution System, Spatial Point Analysis.

Resumo Neste trabalho incorpora-se o espaço geográfico à análise do problema de perdas comerciais. Essas perdas são mode-ladas como eventos pontuais considerando variáveis socioeconômicas que auxiliem na explicação da disposição espacial das

mesmas. Tais variáveis são utilizadas em um modelo aditivo generalizado associado a um estudo casos-controles que realiza a

comparação entre dois processos espaciais pontuais. Um deles é representado pelo conjunto dos casos que são as Unidades Con-sumidoras (UCs) flagradas em irregularidades. O outro processo é representado pelo conjunto de controles que é composto por

UCs regulares obtidas aleatoriamente a partir da base de clientes da concessionária. O modelo possui a vantagem de permitir a

estimação da distribuição espacial das perdas comerciais utilizando covariáveis socioeconômicas que caracterizam as sub-regiões em que ocorrem essas perdas. Ademais, é de fácil interpretação e pode ser estendido para adição de novas covariáveis. O resulta-

do deste trabalho é um mapa de probabilidades indicando as regiões do município mais vulneráveis às perdas comerciais. Além de indicar as regiões mais vulneráveis, este estudo destaca as variáveis socioeconômicas que são estatisticamente relevantes e

que, portanto, influem diretamente na disposição espacial das perdas comerciais. Este modelo foi aplicado em um município com

aproximadamente 200 mil habitantes e os resultados permitem constatar que as regiões com maior média de moradores, com mais domicílios alugados e com rede de distribuição mais extensa, têm maior probabilidade de possuírem UCs com maiores per-

das comerciais. Com tal resultado, as concessionárias têm melhores condições de adotar não apenas medidas de combate, bem

como de prevenção ao surgimento e/ou agravamento das perdas comerciais no município analisado.

Palavras-chave Perdas Comerciais, Perdas Não Técnicas, Sistema de Distribuição, Análise Espacial de Pontos.

1 Introdução

As perdas comerciais ou perdas não técnicas o-

casionam prejuízos relevantes e, por isso, são motivo

de grande preocupação no Sistema de Distribuição de

Energia Elétrica (SDEE) de países emergentes como

o Brasil (ANEEL, 2008).

Denominam-se perdas comerciais a energia não

faturada descontadas as perdas técnicas – que são

inerentes ao sistema elétrico. As perdas comerciais

existem predominantemente devido às fraudes embu-

tidas nos medidores de energia, às ligações clandes-

tinas, aos erros do leiturista e à obsolescência dos

equipamentos de medição energia (Faria et al.,

2012).

Tais perdas causam prejuízo financeiro à empre-

sa distribuidora de energia e à sociedade. Destacam-

se: redução da arrecadação de impostos, aumento da

tarifa de energia e injustiça social (ANEEL, 2008).

Um dos primeiros trabalhos relevantes em per-

das comerciais foi Jiang et al. (2002). Neste utilizam-

se múltiplos classificadores e coeficientes wavelets

para identificação de fraudes em clientes a partir do

histórico de consumo mensal. Os trabalhos posterio-

res têm a mesma estrutura básica, isto é, utilizam

alguma técnica da área de sistemas inteligentes tais

como: redes neurais artificiais (Faria et al., 2012),

lógica nebulosa ou lógica fuzzy (Cabral et al., 2004),

algoritmos de aprendizado de máquina (Cometti;

Varejão, 2005), mineração de dados (Nizar et al.,

2008), mineração de texto (Guerreiro et al., 2010),

redes Bayesianas (Bastos, 2011) para detectar Uni-

dades Consumidoras (UCs) com indícios de fraudes.

Utilizam como dados de entrada basicamente o histó-

rico de consumo mensal, dados cadastrais e comentá-

rios dos leiturista e inspetores.

Em Smith (2004) amplia-se a discussão através

de uma abordagem qualitativa na qual analisam-se

aspectos socioeconômicos de diversas regiões do

mundo. Estima-se o furto de eletricidade em 102

países entre 1980 e 2000. Também é reconhecida a

característica complexa e multifacetária do problema

de perdas comerciais o qual é associado a aspectos

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2873

Page 2: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

governamentais e sociais tais como: instabilidade

política, baixa efetividade governamental, altos ní-

veis de corrupção, alto nível de pobreza, alta taxa de

natalidade, baixo Índice de Desenvolvimento Huma-

no (IDH), etc.

Portanto, há indícios de que as características

socioeconômicas da região onde ocorrem as perdas

comerciais são importantes. Por isso, neste trabalho,

em contraposição aos trabalhos supracitados, tais

características são incorporadas à análise espacial das

perdas comerciais. Conforme Drucks et al. (2004),

em alguns problemas específicos, a localização espa-

cial dos fenômenos é muito importante e em alguns

casos imprescindível à completa compreensão do

problema.

Neste estudo utilizam-se variáveis socioeconô-

micas do censo demográfico IBGE (2010) e dados

oriundos de Faria et al. (2014) o qual caracteriza

espacialmente as perdas comerciais através da análise

espacial de pontos aplicada em históricos de inspe-

ções reais. O trabalho de Faria et al. (2014) apresen-

tou uma análise exploratória para constatação de

aglomerados espaciais ou clusters das perdas comer-

ciais na zona de estudo. A partir dessa constatação,

este estudo visa responder as seguintes questões: as

variáveis socioeconômicas influenciam na disposição

das perdas comerciais em aglomerados espaciais?

Em caso afirmativo, qual a relevância de cada variá-

vel? E, em último, quais regiões do município em

análise são mais vulneráveis, nas quais há maior

probabilidade de que existam perdas comerciais?

Neste trabalho utiliza-se uma abordagem deno-

minada casos-controles. Nesta, realiza-se a compara-

ção entre dois processos espaciais pontuais. Um

deles é representado pelo conjunto dos casos que são

as UCs flagradas em irregularidades ao longo de

quatro anos – de 2009 até 2012. O outro processo é

representado pelo conjunto de controles que é com-

posto por UCs regulares obtidas aleatoriamente a

partir da base de clientes da concessionária. Tal a-

bordagem é comumente utilizada na área de epide-

miologia (Diggle; Rowlingson, 1994; Shikamura et

al., 2001; Kiffer et al., 2011).

De posse de um estudo de casos-controles utili-

za-se um Modelo Aditivo Generalizado ou Generali-

sed Additive Models (GAM) que leva em considera-

ção variáveis socioeconômicas para produzir o mapa

de probabilidades.

Na próxima seção deste trabalho abordam-se as-

pectos fundamentais da análise espacial de pontos e

seu relacionamento com o problema de perdas co-

merciais. Na seção 3, há uma apresentação teórica

detalhada da metodologia empregada: medida de

risco e significância estatística. Por fim, na seção 4,

apresenta-se o mapa de probabilidades – resultado do

GAM – e as covariáveis relevantes que auxiliam na

explicação da disposição espacial em aglomerados

das perdas comerciais no município em análise.

2 Análise espacial de pontos incorporada ao

problema de perdas comerciais

A análise espacial permite a incorporação do es-

paço ao problema e o conhecimento a respeito das

características das sub-regiões nas quais se localizam

as perdas comerciais. Tal conhecimento é determi-

nante para maior eficiência na prevenção e no com-

bate a tais perdas. Ela é constituída por um conjunto

de procedimentos encadeados cuja finalidade é a

escolha de um modelo inferencial que considere

explicitamente os relacionamentos espaciais existen-

tes no fenômeno em estudo.

Ao avaliar um processo pontual, o primeiro teste

comumente realizado é a Aleatoriedade Espacial

Total ou Complete Spatial Randomness (CSR) (Dig-

gle, 1983). Sob CSR, os eventos estão distribuídos

independentemente, aleatoriamente e uniformemente

na área em análise. Essa formulação permite uma

comparação entre uma distribuição completamente

aleatória (que é gerada por um processo de Poisson)

e os dados coletados em campo.

2.1 Análise espacial de eventos pontuais

Um processo pontual é um processo estatístico

no qual se observam alguns eventos de interesse

dentro de uma região limitada A (Diggle, 1983).

Cada UC é vista como um ponto no espaço – evento

pontual. O termo evento refere-se a qualquer tipo de

fenômeno localizável no espaço geográfico por coor-

denadas geográficas s.

A localização dos eventos gerados por um pro-

cesso pontual na área de estudo A denomina-se pa-

drão de ponto (Diggle, 1983). Em alguns casos, co-

variáveis adicionais podem ser requeridas e associa-

das à localização onde os eventos foram observados.

A fim de avaliar a distribuição espacial global

dos eventos, pode-se trabalhar com a intensidade

do processo pontual. Ajusta-se uma função

bidimensional sobre os eventos considerados cuja

superfície é proporcional à intensidade de amostras

por unidade de área. Tal função efetua a contagem de

todos os pontos dentro de uma região de influência,

ponderando-os pela distância de cada um em relação

à localização de interesse, conforme ilustrado na

Figura 1.

Figura 1. Estimador de intensidade de distribuição de pontos.

Sejam as localizações de n eventos ob-

servados em uma região A e s representa uma locali-

zação genérica cujo valor da intensidade deseja-se

estimar. O estimador de intensidade é avaliado a

partir dos n eventos que estão contidos em um raio

em torno de s. Na equação (1), tem-se o estimador de

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2874

Page 3: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

intensidade ponderado (Shikamura et al., 2001). O

raio de influência define a área centrada no ponto

de estimação s e indica quantos eventos contribu-

em para a estimativa da função de intensidade e é

o vetor de ponderações. Em (1), ao contrário dos

estimadores de intensidade ordinários, há um peso

específico para cada localização espacial que pon-

dera cada evento pontual.

(1)

Neste estudo associam-se os eventos pontuais ao

processo de Poisson homogêneo ou Homogeneous

Poisson Processes (HPP) e ao processo de Poisson

não homogêneo ou Inhomogeneous Poisson Proces-

ses (IPP). Tanto o HPP quanto o IPP assumem que os

eventos ocorrem independentemente e são distribuí-

dos conforme a intensidade dada. A diferença entre

ambos é que no HPP, a função de intensidade é cons-

tante; no IPP, ela varia espacialmente.

Um HPP é aquele no qual os eventos estão dis-

tribuídos independentemente e uniformemente na

região A. Isso significa que a localização de um e-

vento não influencia nas probabilidades de outros

surgirem em sua vizinhança. Ademais, não há região

onde há maior probabilidade de ocorrerem.

O IPP é uma generalização do HPP, no qual a in-

tensidade não é constante. O princípio de indepen-

dência entre os eventos permanece; no entanto, a

variação espacial pode ser mais diversa, ou seja, há

maior probabilidade de os eventos aparecerem mais

em algumas regiões do que em outras.

A interação entre dois pontos arbitrários em pe-

quena escala de distância é avaliada pelas proprieda-

des de segunda ordem. Elas mensuram a força e o

tipo de interação entre eventos do processo pontual.

Se os mesmos estão dispostos espacialmente em

aglomerado ou dispersos.

Uma alternativa para mensurar a propriedade de

segunda ordem quando o processo espacial é HPP é

por meio da função K. Ela mensura o número de

eventos encontrados a uma dada distância de um

evento particular qualquer conforme equação (2).

(2)

E[.] é o operador de esperança e represen-

ta o número de outros eventos até uma distância r ao

redor de um evento arbitrário.

O valor da função K para um HPP é .

Existem algumas funções para estimar o valor de

. Comparando o valor estimado de com o

valor teórico pode-se avaliar o tipo de interação exis-

tente. Assume-se que as interações ocorrem em pe-

quena escala; logo, interessa apenas pequenos valo-

res de r. Valores de maiores do que caracte-

rizam um processo em aglomerado, enquanto que

valores menores indicam competição entre os even-

tos (Bivand et al., 2008).

A fim de avaliar o grau de similaridade com o

padrão CSR, várias funções são utilizadas junto com

métodos para medir a incerteza relacionada aos da-

dos observados. Para mensurar efeitos globais ou em

larga escala utiliza-se a função denominada

Função de Distribuição Cumulativa. A função é

uma das alternativas para mensurar efeitos em pe-

quena escala. Tais funções são utilizadas por Faria et

al. (2014) e conclui-se que as perdas comerciais

estão dispostas em aglomerados espaciais tanto em

larga quanto em pequena escala. Os aglomerados são

mais evidentes a partir de distâncias r superiores a

100 metros, aproximadamente.

3 Estudo do conjuntos de casos e de controles em

perdas comerciais

Têm-se o conjunto constituído por casos e

controles. Assume-se que ambos são realizações de

dois processos de Poisson não homogêneos ou IPPs

com intensidades e , respectivamente.

Neste contexto, assume-se que a distribuição de

casos e de controles é a mesma. Isso significa que as

intensidades e são iguais a uma constante

de proporcionalidade que é igual à razão entre e

, isto é, .

3.1 Descrição dos dados utilizados no modelo

Neste trabalho utilizam-se dados advindos do

censo demográfico IBGE (2010) e de Faria et al.

(2014). São constituídos por históricos de inspeções

realizadas em UCs de um município do interior do

Estado de São Paulo ao longo de quatro anos – de

2009 até 2012. Na Tabela 1 consta o número de UCs

inspecionadas e de UCs irregulares por ano.

Observa-se a irregularidade na quantidade de

UCs inspecionadas anualmente. Um ano com um

número significativo de inspeções é seguido por um

ano com menos inspeções. Em 2010, por exemplo,

realizou-se pouco mais de um terço das inspeções de

2009 e em 2012 realizou-se pouco mais da metade

das inspeções de 2011. Não há um critério padrão

para definir a quantidade e a localização das UCs

inspecionadas. A maior parte das inspeções são reali-

zadas em UCs denunciadas por leituristas, pela popu-

lação ou em UCs suspeitas a partir de análises preli-

minares dos históricos de consumo mensais em pla-

nilhas eletrônicas com regras heurísticas empíricas.

Tabela 1. Distribuição das inspeções e de irregularidades em UCs ao longo de quatro anos.

Inspeções

Anuais UCs

Inspecionadas UCs

Irregulares

2009 3.068 173

2010 1.298 101

2011 4.613 505

2012 2.387 461

Total 11.366 1.240

Observa-se também que o sucesso das inspeções

por ano, ou seja, a razão percentual entre o número

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2875

Page 4: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

de UCs irregulares encontradas e o número total de

UCs inspecionadas é crescente sendo de 5,6%, 7,8%,

10,9% e 19,3%, respectivamente, nos anos de 2009,

2010, 2011 e 2012. Tal fato demonstra o aperfeiçoa-

mento empírico da concessionária na seleção das

UCs a serem inspecionadas anualmente (Faria et al.,

2014).

Na Tabela 2, consta o resultado das inspeções

conforme padrão da concessionária de energia que as

realizou. Entre as irregularidades mais recorrentes

destacam-se: UCs com lacre do medidor violado,

desvio fora da medição, auto-religação, diversas

modalidades de fraudes no medidor e medidor avari-

ado. Observa-se que há irregularidades que não im-

plicam em prejuízo financeiro à concessionária de

energia. Adicionalmente, o medidor avariado pode

ser consequência de tentativas de fraudes mal suce-

didas ou então por obsolescência natural do equipa-

mento. O fato concreto é que a porção majoritária

das 1.240 UCs rotuladas irregulares o são por conse-

quência de uma ação suspeita de tentativa de fraude

daqueles que têm acesso a mesma.

Tabela 2. Diagnóstico das inspeções realizadas.

Resultado das Inspeções Ocorrências

Desvio fora da medição 57

Auto-religação 237

Medidor avariado 324

Fraude no medidor 472

Outras irregularidades 150

Normal 10.126

No estudo de casos-controles utilizou-se um es-

quema de amostragem (5:1) similar à Diggle; Ro-

wlingson (1994), isto é, para cada caso de UCs irre-

gular há cinco UCs normais denominadas eventos de

controle. Tais eventos representam a distribuição

espacial da população de risco. Neste trabalho, a

população de risco é constituída por todas as UCs do

município, pois, em princípio, podem existir UCs

irregulares em qualquer parte. Conforme Bivand et

al. (2008), a distribuição dos casos é influenciada

pela distribuição heterogênea da população. Devido a

isso, é preciso estimar a distribuição espacial da

população e compará-la aos casos. Isso é feito por

meio de um conjunto de controle que é selecionado

aleatoriamente a partir da população de risco.

Neste contexto, os casos são as 1.240 UCs fla-

gradas em irregularidades e os controles são 6.200

UCs normais selecionadas aleatoriamente entre as

81.640 UCs do município sob análise.

As UCs da base de dados de perdas não estão

georreferenciadas. Devido a isso, elas são agrupadas

pelos transformadores ao qual se conectam. Isso pois,

ao contrário das UCs, os transformadores são georre-

ferenciados, viabilizando a análise espacial de pontos

proposta neste trabalho.

As cinco covariáveis utilizadas no GAM e a des-

crição detalhada de cada uma delas consta na Tabela

3. Entre as centenas de variáveis socioeconômicas

disponibilizadas pelo censo demográfico 2010 para

cada setor censitário, foram selecionadas três variá-

veis. São elas: domicílios alugados, média de mora-

dores e renda média. Além das variáveis do censo,

têm-se duas variáveis advindas do histórico de inspe-

ções. São elas: PERTRAFO e NTRAFO cujas descri-

ções constam também na Tabela 3.

Tabela 3. Descrição das Covariáveis.

Covariáveis Descrição

Domicílios Alugados

Nº Domicílios particulares alugados

Média de

moradores Nº médio de moradores em domicílio particular

Renda Média Rendimento médio mensal das pessoas a partir

de 10 anos (com e sem renda)

NTRAFO Nº Transformadores por setor censitário

PERTRAFO Perdas percentuais por transformador em

relação ao Nº total de UCs conectadas nele

Conforme IBGE (2010), o setor censitário é a

menor unidade territorial nas cidades, com limites

físicos identificáveis e com dimensão adequada para

levantamento das informações do censo demográfi-

co. A malha de setores censitários 2010 apresenta as

seguintes unidades territoriais: municípios, distritos,

subdistritos e setores censitários. Conforme descrição

do IBGE (2010) selecionou-se 254 setores censitá-

rios com o seguinte perfil: situação urbana tipo 1

(área urbanizada de cidade ou vila); tipo 2 (área não-

urbanizada de cidade ou vila); tipo 3 (área urbana

isolada) e situação rural tipo 4 (aglomerado rural de

extensão urbana). A concessionária inspeciona prio-

ritariamente a população urbana do município devido

a maior facilidade de acesso e a maior concentração

das perdas comercias na região de maior densidade

populacional.

3.2 Variação espacial do risco de perdas comerciais

Sejam as localizações na região

sob análise A dos casos e as

localizações dos controles como sendo observa-

ções de dois IPPs com intensidades e , respectivamente. Define-se o logaritmo do risco

relativo na localização s conforme equação (3).

Sob a hipótese nula de distribuição espacial i-

gual, a razão é constante, isto é: (Kelsall;

Diggle, 1998).

(3)

Seja um indicador binário ao ponto no espaço

tal que se , o evento i é um caso e se

é um evento de controle. Considera-se que são realizações das variáveis aleatórias inde-

pendentes de Bernoulli com probabilidade conforme equação (4).

(4)

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2876

Page 5: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

Observa-se que é relacionado ao logaritmo

do risco relativo conforme equação (5).

(5)

Nota-se que é uma constante

aditiva que não modifica as características da distri-

buição espacial da probabilidade de perdas comerci-

ais na região sob análise.

3.3 Modelo Aditivo Generalizado para análise espa-

cial das perdas comerciais

A abordagem semi-paramétrica de Modelos Adi-

tivos Generalizados ou GAM permite a inclusão de

covariáveis que caracterizam a região para investigar

a variação espacial do risco de perdas comerciais por

meio de regressão logística padrão. A variação espa-

cial residual é modelada através de uma função de

suavização – spline. O modelo é de fácil interpreta-

ção e pode ser facilmente estendido para adição de

novas covariáveis.

Neste trabalho utiliza-se a biblioteca do software

R® mgcv para produzir o GAM (R Development

Core Team, 2011; Wood, 2006). Esta biblioteca

implementa o estimador não paramétrico apresentado

em Kelsall e Diggle (1998).

A inclusão dos efeitos das covariáveis no mode-

lo, conforme Kelsall e Diggle (1998) consta na equa-

ção (6). Nesta é o vetor das covariáveis, são seus

coeficientes que modelam seus efeitos, é uma

função suave das coordenadas espaciais que leva

em consideração outros fatores não considerados

como covariáveis.

(6)

A equação (6) é uma forma de estimar uma su-

perfície de probabilidade considerando a

influência das covariáveis e de uma variação espa-

cial devida a outros fatores não considerados como

covariáveis representados por . Se o risco é assumido constante na região, então

e o modelo da equação (6) se reduz a um

modelo de regressão logística padrão.

Portanto, em (6), tem-se um modelo de regressão

logística estendido por uma componente aditiva que varia suavemente no espaço (Shikamura et al.,

2001).

O procedimento para estimação de e ba-

seia-se em métodos iterativos usuais de modelos

aditivos generalizados (Wood, 2006).

Na Figura 3 tem-se o fluxograma com todos os

passos para obtenção do mapa de probabilidades. Os

dados de entrada são as UCs flagradas em irregulari-

dades (casos), as UCs obtidas aleatoriamente a partir

da base de clientes da concessionária (controles) e as

covariáveis obtidas do censo demográfico 2010.

Seguem os passos da metodologia:

1. Utiliza-se a equação (6) para determinar a

probabilidade de cada ponto da base dados

casos-controles considerando sua localiza-

ção espacial s e as covariáveis x.

Figura 3. Fluxograma do modelo para geração do mapa de proba-bilidades.

2. Cálculo da probabilidade inicial utilizando a equação (4). e são as intensidades ponderadas calculadas

pela equação (1).

3. Sorteiam-se a partir da base de dados n1

pontos que são rotulados como casos e n0

pontos que são rotulados como controles.

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2877

Page 6: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

4. Recalcula-se a probabilidade calcu-

lada no Passo 2 para o novo conjunto obtido

aleatoriamente no Passo 3 de casos e contro-

les. Utiliza-se novamente a equação (4) para

determinar a probabilidade de cada ponto da

base de dados casos-controles considerando

sua localização espacial s e a influência das

covariáveis x.

5. Se a probabilidade calculada no Passo 4

for superior à probabilidade calcula-

da no Passo 2 – – então incremen-

ta-se . Os passos de 3 a 5 se

repetem até um número predefinido de ite-

rações.

6. Desenha-se o gráfico do mapa de probabili-

dades armazenado em .

3.4 Teste global do risco de perdas comerciais

O teste global do risco e a identificação de áreas

de baixo e alto risco são efetuados via método de

simulação de Monte Carlo, conforme Bivand et al.

(2008) e Kelsall, Diggle (1998).

O teste de Monte Carlo baseia-se no fato de que

casos e controles estão distribuídos igualmente sob a

hipótese nula – . Neste contexto, os casos tornam-

se controles e vice-versa. O novo conjunto de casos e

de controles ainda terá a mesma distribuição espacial

e a mesma probabilidade . Se este não for o

caso, a renomeação de casos e controles produzirá

diferentes valores.

Testa-se em (7) a significância, porque se assu-

me que a variação da probabilidade – equação (4) – é

não homogênea – igual a .

Em (7), avalia-se em uma grade regular de

pontos com n quadrículas. Calcula-se

a soma dos valores

onde k é o número de renomeações de casos e de

controles, é a área de cada quadrícula, é o

valor estimado da probabilidade inicial e

são as probabilidades estimadas por renome-

ação de casos e de controles.

(7)

Neste teste, avaliam-se k valores do teste estatís-

tico T por renomeação de casos e controles. Os casos

tornam-se controles e vice-versa, mantendo-se e

fixos. Calcula-se a nova probabilidade

para cada novo conjunto de casos e controles.

Isto produzirá uma série de valores sob a

hipótese nula. Se é o valor de T para os conjunto

de dados observados, a significância (pvalor) pode

ser avaliada por , onde t é

o número de valores de maiores do

que .

O processo avalia para cada ponto , a propor-

ção de valores que são menores do que

onde são as probabilidades esti-

madas por renomeação de casos e controles.

4 Resultados e Discussões

O modelo GAM ajustado assume um efeito line-

ar do total de cinco covariáveis no logaritmo do risco

relativo. Sendo três covariáveis oriundas do censo

demográfico IBGE (2010); as demais, obtidas a par-

tir de Faria et al. (2014). Três referem-se às caracte-

rísticas socioeconômicas do setor censitário (Domicí-

lios Alugados, Média de Moradores e Renda Média).

PERTRAFO está diretamente relacionada à ocorrên-

cia de perdas comerciais e NTRAFO está associada à

extensão da rede de distribuição do setor censitário.

Na Figura 4, estão representadas as amostras dos

eventos de casos e controles no mapa do território do

município em análise.

Figura 4. Distribuição espacial dos eventos casos e controles na região urbana do município sob análise.

O pvalor corresponde à menor significância para

a qual a hipótese poderia ser rejeitada. Logo é

rejeitada se o pvalor for menor ou igual a um nível

de significância de referência. Neste trabalho, tal

nível de significância é igual a 0,1, pois a taxa média

de sucesso das inspeções é de 10% (Cometti; Vare-

jão, 2005).

Na Tabela 4 tem-se as estimativas, desvios pa-

drão e significâncias estatísticas de cada covariável

para o modelo GAM da equação (6). As covariáveis

significantes são PERTRAFO (pvalor inferior a

), Média de Moradores (pvalor 0,0173),

NTRAFO (pvalor 0,0364) e Domicílios Alugados

(pvalor 0,0861).

Tabela 4. Estimativas, desvio padrão e significâncias estatísticas das covariáveis.

Covariáveis Estimativa Desvio

Padrão pvalor

Média de Moradores 0,37790 0,15870 0,01730

Domicílios Alugados 0,00302 0,00176 0,08610

Renda Média -0,00001 0,00006 0,83290

NTRAFO -0,00874 0,00418 0,03640

PERTRAFO 35,55900 1,26800 0,00000

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2878

Page 7: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

Na Figura 5 tem-se o mapa de probabilidades

gerado a partir dos processos ilustrados no fluxogra-

ma da Figura 3. Observa-se que a probabilidade de

perdas comerciais é alta na região central do municí-

pio – região inscrita no círculo – e aumenta à medida

que se desloca para a direção oeste – região de maior

crescimento da cidade.

Figura 5. Mapa de probabilidades para a distribuição espacial das perdas comerciais com pvalor de 0,01.

A aplicação do teste estatístico – seção 3.4 – in-

dica variação espacial significativa da probabilidade

de perdas comerciais sob o município analisado, com

pvalor de 0,01.

Deduz-se a partir da Tabela 4 e da Figura 5 que

as regiões com maior probabilidade de perdas co-

merciais estão em setores censitários localizados nas

regiões centrais e oeste do município sob análise.

Os setores censitários da região do centro do

município estão localizados em uma zona comercial

da cidade, na qual a rede de distribuição é extensa e,

por conseguinte, há elevado número de transforma-

dores. Tal fato é corroborado pela significância da

covariável NTRAFO. Ademais, nesta região, há ele-

vada densidade populacional. Grande parte das UCs

pertencem a edifícios alugados por comerciantes.

Tais constatações são ratificadas pela significância

das covariáveis Média de Moradores e Domicílios

Alugados. Finalmente, a significância da covariável

PERTRAFO é um indicativo da concentração das

UCs irregulares em transformadores com altas perdas

comerciais percentuais (em relação ao número total

de UCs conectadas nele) as quais estão localizados

majoritariamente na região central e oeste do muni-

cípio em análise.

A covariável Renda Média (pvalor 0,8329) não

apresenta associação estatisticamente significativa

com as perdas comerciais no município analisado.

Todavia, conforme Bailey e Gatrell (1995), em-

bora existam covariáveis que não possuam signifi-

cância estatística, não é possível afirmar conclusiva-

mente que tal variável não esteja influenciando de

algum modo na presença de perdas comerciais. A

interpretação da significância estatística deve ser

feita com critério no momento da análise exploratória

do problema. Ademais, a significância de cada cova-

riável é modificada na medida em que se inclui (ou

exclui) covariáveis da análise. A significância tam-

bém depende da amostragem do conjunto de casos-

controles adotada.

Observa-se também que o termo residual da fun-

ção de suavização splines não é significante (pvalor

0,327). Isso sugere que o modelo aditivo linear gene-

ralizado proposto com estas covariáveis é suficiente

para explicar a variação espacial das perdas comerci-

ais para o caso particular do município analisado.

Considerando a simplicidade do modelo, o tem-

po computacional para gerar o mapa de probabilida-

des é irrelevante (inferior a 10 segundos) em um

computador com processador Intel Core i7; 2,8 GHz

e com 4 GB de memória RAM.

5 Conclusão

Neste estudo apresenta-se uma análise a partir da

qual estimou-se um mapa de probabilidades do risco

de perdas comerciais em um município do interior de

São Paulo. Utilizaram-se as localizações pontuais de

casos e de controles e as condições socioeconômicas

dos setores censitários modeladas por covariáveis

selecionadas a partir do censo demográfico 2010.

Os setores censitários localizados nas regiões

central e oeste do município são mais vulneráveis às

perdas comerciais, pois possuem maior probabilidade

de possuir UCs irregulares. As covariáveis estatisti-

camente significantes foram: Média de Moradores,

Domicílios Alugados, NTRAFO e PERTRAFO.

Conclui-se, que as covariáveis socioeconômicas

influem diretamente na dimensão das perdas comer-

ciais. Como cada região, possui quadros socioeco-

nômicos específicos; logo, a incorporação do espaço

à análise é uma alternativa viável no sentido de escla-

recer os fatores espaciais que têm significância esta-

tística.

O resultado da análise indica as regiões de maior

risco da cidade, possibilitando o planejamento de

ações mais específicas de combate e de prevenção às

perdas comerciais pelas concessionárias de energia.

O modelo apresentado neste trabalho de análise

espacial de distribuição de padrões é compacto e de

fácil implementação em softwares de análise estatís-

tica.

Agradecimentos

Os autores deste trabalho agradecem à CAPES,

CNPq e ao professor Eduardo Camargo do programa

de pós-graduação em Sensoriamento Remoto e Geo-

informação do INPE.

Referências Bibliográficas

ANEEL. (2008) Metodologia de tratamento

regulatório para perdas não-técnicas de energia

elétrica. Brasília, DF: SER/ANEEL, 2008. (Nota

Técnica, n. 342/2008).

BAILEY, T. C. and GATRELL A. C. (1995)

Interactive spatial data analysis: Prentice Hall.

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2879

Page 8: ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS … › CBA2014 › anais › PDF › 1569935669.pdf · 2.1 Análise espacial de eventos pontuais . Um processo pontual é um processo

BASTOS, P. R. F. M. (2011) Diagnóstico de perdas

comerciais de energia elétrica na distribuição

usando rede Bayesiana. Tese de Doutorado.

Centro de Engenharia Elétrica e Informática.

Paraíba: Universidade Federal de Campina

Grande.

BIVAND, R. S., PEBESMA, J. and GÓMEZ-

RUBIO, V. (2008) Applied spatial data analysis

with R. NY: Springer Verlag.

CABRAL, E., GONTIJO, E. M., PINTO, J. O. P.

(2004) Fraud Detection in Electrical Energy

Consumers Using Rough Sets. In Proc. Of the

IEEE International Conference on systems, Man

and Cybernetics, pp. 3625-3629.

COMETTI, E. S., VAREJÃO, F. M. (2005)

Melhoramentos na identificação de perdas não-

técnicas através da análise computacional

inteligente do perfil de consumo e dos dados

cadastrais de consumidores. Vitório-ES:

Relatório técnico final do projeto de P&D.

DIGGLE, P. J. (1983) Statistical Analysis of Spatial

Point Patterns. London: Academic Press.

DIGGLE, P. J. and ROWLINGSON, B. (1994) A

conditional approach to point process modelling

of elevated risk. Journal of the Royal Statistical

society.

DRUCKS, S.; SÁ CARVALHO, M.; VIEIRA, A. M.

(2004) Análise espacial de dados geográficos.

EMBRAPA.

FARIA, L. T., PADILHA-FELTRIN, A., MINUSSI,

C. R. (2012) Sistema Inteligente Híbrido

Intercomunicativo para Detecção de Perdas

Comerciais em Sistemas de Distribuição de

Energia Elétrica. In IV Simpósio Brasileiro de

Sistemas Elétricos – IV SBSE. Goiânia-GO, 15 a

18 de maio de 2012, pp. 1-6.

FARIA, L. T., MELO, J. D., PADILHA-FELTRIN,

A. (2014) Análise Espacial de Pontos para

Mapeamento de Perdas Comerciais. In V

Simpósio Brasileiro de Sistemas Elétricos – V

SBSE, Foz do Iguaçu-PR, 22 a 25 de abril de

2014, pp. 1-6.

GUERREIRO, J. I., LEÓN, C., BISCARRI, F.

(2010) Increasing the Efficiency in Non-

Technical Losses Detection in Utility

Companies. 15th

IEEE Mediterranean

Electrotechnical Conference, pp. 136-141.

IBGE. (2010) Censo demográfico 2010 – Agregado

por setores censitários 3ª edição. Avaliado em:

<http://www.ibge.gov.br>. Acesso em novembro

de 2013.

JIANG, R., TAGARIS, H., LACHSZ, A., Jeffrey M.

(2002) Wavellet base Feature Extraction and

Multiple Classifiers for electricity Fraud

Detection. In Transmission and Distribution

Conference and Exhibition, pp. 2251-2256, vol.

3.

KELSALL, J. E., DIGGLE, P. J. (1995) Kernel

estimation of relative risk. Bernoulli, 1:3-16.

KELSALL, J. E., DIGGLE, P. J. (1998) Spatial

variation in risk of disease: A nonparametric

binary regression approach. Applied Statistics,

47:559-573.

KIFFER, C. R. V., CAMARGO, C.G.,

SHIKAMURA, S.E. et al.. (2011) A spatial

approach of the epidemiology of antibiotic use

and resistance in community-based studies: the

emergence of urban clusters os Escherichia coli

quinolone resistance in São Paulo, Brasil.

International Journal Of Health Geographics.

MELO, J. D., CARRENO, E. M., PADILHA-

FELTRIN, A. (2012) Análise espacial de

eventos pontuais na alocação de transformadores

da rede elétrica secundária de distribuição. In

XIX Congresso Brasileiro de Automática – CBA.

Campina Grande-PB, 02 a 06 de setembro de

2012, pp. 2684-269.

NIZAR, A. H., DONG, Z. Y., ZHANG, P. (2008)

Detection Rules for Non-Technical Losses

Analysis in Power Utilities. IEEE Power and

Energy Society General Meeting. Pittsburgh, pp.

1-8.

R Development Core Team. (2011) R: A language

and environment for statistical computing. R

Foundation for Statistical Computing, Vienna,

Austria. ISBN 3-900051-07-0, URL

<http://www.R-project.org/>.

SHIKAMURA, S. E., CARVALHO, M. S.,

AERTES, D. R. G. C. e Flores, R. (2001)

Distribuição espacial do risco: modelagem de

mortalidade infantil em Porto Alegre, Rio

Grande do Sul, Brasil, Caderno de Saúde

Pública, Rio de Janeiro, vol. 17, pp. 1251-1261.

SMITH, T. B. (2004) Electricity theft: a comparative

analysis. Energy Policy, vol. 32, pp. 2067-2076.

WOOD, S. N. (2006) Generalized Additive Models:

An Introduction with R. Boca Raton: CRC.

Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014

2880