Acreditamos que transferir conhecimento é a melhor forma de adquiri-lo!: outubro 2016

sexta-feira, 28 de outubro de 2016

Data Mining - Lei de Newcomb-Benford

Lei de Newcomb-Benford

Outubro/2016

Autor: Willian Hofner

Parceria nas análises: Patrícia de Fátima e Almeida

Resumo

Os fatos atuais ocorridos no cenário político do Brasil demonstram um crescimento assutador da corrupção. O Poder Público tem atuado de forma preventiva e coercitiva a fim de investigar e descobrir os esquemas ilegais. A Policia Federal, o TCU, TCE, MP e vários outros órgãos estão aplicando inteligência às estratégias de investigação e reunindo provas de forma meticulosa, inclusive contra servidores da própria instituição. Este artigo propõe uma metodologia para análise das contas do Poder Público, e tem por fundamento a regularidade estatistica dos dígitos de 1 a 9, conhecida por Lei Newcomb-Benford. Essa Lei estuda as frequências dos primeiros dígitos que aparecem em listas numéricas.

Palavras-chave: Artigo. Lei. Newcomb. Benford. Corrupção. Poder Público. Fraude.

Introdução

Os números estão sempre presentes nas nossas vidas. Mas estariam eles distribuídos na mesma proporção?

Em 1881, o astrônomo e matemático, Simon Newcomb observou que as primeiras tábuas de logaritmos estavam mais desgastadas e que o desgaste ia diminuindo na medida em que os números aumentavam. Esta observação colocou em dúvida o entendimento de que a distribuição de dígitos numéricos era uniforme, isto é, que os dígitos de 1 a 9 teriam a mesma probabilidade de ocorrência.

Newcomb calculou a probabilidade de ocorrência dos números de 1 a 9 no primeiro dígito dos números analisados com a equação abaixo:

P (primeiro dígito significativo = d) = Log10

(1 + 1/d)

Em que:

d = primeiro digito significativo pertencente ao conjunto dos números inteiros entre 1 e 9.

P(d) = probabilidade de ocorrência do dígito d em um número qualquer.

Portanto, para n = 1, tem-se:

P (primeiro dígito significativo = 1) = Log10

(1 + 1/1) = 0,301...

Para n = 2, tem-se:

P (primeiro dígito significativo = 2) = Log10

(1 + 1/2) = 0,176...

Para n = 9, tem-se:

P (primeiro dígito significativo = 9) = Log10

(1 + 1/9) = 0,046...

O resultado destas operações resultou na seguinte distribuição:

Probabilidade de ocorrência do Primeiro Dígito Significativo

Dígito (d)	1	2	3	4	5	6	7	8	9	Total
P(d)	30,1%	17,6%	12,5%	9,7%	7,9%	6,7%	5,8%	5,1%	4,6%	100%

Mas Newcomb não forneceu evidências comprovando esta descoberta.

Mais de meio século depois, em 1938, Frank Benford utilizou diversas fontes e analisou os primeiros dígitos dos números coletados e mostrou que a distribuição dos números de 1 a 9 nestes dígitos é proporcional ao intervalo de uma escala logarítmica.

O gráfico abaixo, com a distribuição da Lei de Benford, deixa clara a diminuição exponencial da probabilidade de ocorrência dos números de 1 a 9:

Portanto, segundo a Lei de Benford, se selecionarmos uma quantidade razoável de números (quanto maior a lista, mais o resultado se aproxima da distribuição definida pela lei) e analisarmos o primeiro dígito, verificaremos que o número 1 aparecerá mais que o 2, o 2 mais que o 3 e assim sucessivamente até o número 9. Além disso, a medição pode ser em qualquer escala que não altera os pressupostos da lei.

Caso o resultado fique muito distante da distribuição definida pela lei, podemos deduzir que existem indícios de que os números podem ter sido manipulados e que precisam ser auditados.

Para mensurar se a diferença resultante da comparação representa ou não uma desconformidade com a Lei, utiliza-se testes estatísticos tais como: Teste-Z, Qui-Quadrado e Média dos Desvios Absolutos.

Os conjuntos de dados para serem analisados pela lei de Benford devem ter as seguintes características:

- Devem ser compostos por pelo menos de 1000 registros;

- Os números devem ter no mínimo 4 dígitos;

- Os números devem ser gerados de forma natural;

- Os números não podem ser restritos (Exemplos: números de telefone e altura das pessoas);

A Lei de Benford pode ser usada, por exemplo, para testar software, analisar o resultado das eleições, auditar as declarações de imposto de renda e orçamentos de obras públicas.

Ela pode ser identificada também pelo nome de “Lei contra a fraude” e “Lei dos Primeiros Dígitos” e atualmente ela é muito utilizada como uma ferramenta de data mining.

Abaixo alguns exemplos de utilização da lei:

- Rastreamento de fraudes tributárias nos EUA é legalmente admissível pela aplicação da Lei de Benford;

- Análise dos dados macroeconômicos reportados pelos países membros da União Européia ao seu Gabinete de Estatística que resultou no ranking de desvios de 27 países e teve a Grécia vitoriosa neste quesito (manipulação confirmada oficialmente pela Comissão Européia).

Segue abaixo mais algumas conclusões da Lei:

- Dados fraudulentos e aleatórios possuem poucos valores 1 e muitos 6;

- Valores de despesas nas declarações de IR que aparecem com dígitos 3 acima dos 12% é indício de manipulação;

Para aplicarmos a Lei Newcomb-Benford, foi utilizada a planilha retirada do portal da transparência da Prefeitura Municipal de Corinto – MG, no endereço eletrônico:

http://corinto.mg.gov.br/transparencia/fronttransparencia_controle

A consulta teve como base as Despesas da Prefeitura Municipal de Corinto de janeiro a setembro de 2016.

Para a carga da planilha no Rstudio (software utilizado na analise da Lei Newcomb-Benford que possui uma biblioteca intitulada "benford.analysis") foi necessária algumas adaptações no arquivo, sem alterações dos dados:

- Transformação dos dados da coluna analisada para numérico com 2 casas decimais;

- Exclusão dos cabeçalhos entre as linhas;

- Arquivo .XLS salvo como arquivo .CSV.

Instalando, executando e analisando o pacote:

## Instala o pacote no RStudio

> install.packages('benford.analysis')

## Carrega a biblioteca

> library(benford.analysis)

## Seleciona e carrega o arquivo “Despesas Corinto primeiro semestre 2016.csv”

> Despesas_Corinto_2016 <- read.csv(file.choose(), sep = ';', header = TRUE,
as.is = TRUE, skipNul = TRUE, dec = ",", na.strings = "NA")

## Aplica a lei nas variáveis selecionadas para análise

> Benf_Corinto_2016 <- benford(Despesas_Corinto_2016$Valor.Pago, number.of.digits = 1,discrete = FALSE)

## Lista os principais resultados da análise

> Benf_Corinto_2016

Benford object:

Data: Despesas_Corinto_2016$Valor.Pago => nome da base de dados

Number of observations used = 7365 => número de observações

Number of obs. for second order = 3957 => número de observações para segunda ordem

First digits analysed = 1 => primeiro dígito analisado

=>Na sequência as principais estatísticas da mantissa do log dos dados pesquisados. Se a lista de dados analisada segue a Lei de Benford, os valores devem ser próximos dos seguintes:
- média: 0.5;

- var: 1/12 (0.083333...);

- curtose: 1.2;

- assimetria: 0.

Mantissa:

Statistic Value

Mean 0.509

Var 0.082

Ex.Kurtosis -1.158

Skewness -0.074

=> Segue os 5 maiores desvios que são os valores que podem merecer uma análise minuciosa, pois o mais importante não é saber se os dados seguem ou não a lei, mas sim verificar o tamanho do desvio e a sua importância prática.

O conjunto de dados suspeitos pode ser analisado com a função getSuspects.

The 5 largest deviations:

digits absolute.diff

1 3 538.83

2 2 219.91

3 4 173.74

4 7 168.89

5 1 138.09

=> Finalizando, segue um conjunto estatístico de grau de ajuste. Uma das verificações interessante é o p-valor do qui-quadrado que quanto mais perto de zero mais indicará um desvio em relação ao esperado.

Stats:

Pearson's Chi-squared test

data: Despesas_Corinto_2016$Valor.Pago

X-squared = 518.27, df = 8, p-value < 2.2e-16

Mantissa Arc Test

data: Despesas_Corinto_2016$Valor.Pago

L2 = 0.0016959, df = 2, p-value = 3.762e-06

Mean Absolute Deviation: 0.02274956

Distortion Factor: 1.222325

Remember: Real data will never conform perfectly to Benford's Law. You should not focus on p-values!

## Gera os gráficos

> plot(Benf_Corinto_2016)

Digits Distribution

Comparação entre os dados pesquisados (barras em azul) e os valores esperados pela Lei de Benford (Linha vermelha tracejada).

Digits Distribution Second Order Test

Análogo ao Digits Distribution, porém faz a contagem para a diferença dos dados ordenados.

Summation Distribution by Digits

Este gráfico mostra a soma dos valores das observações agrupados por primeiros dígitos com o objetivo de identificar grupos de valores influentes.

A função getSuspects gera uma tabela com os dados dos dígitos com maior discrepância. Veja abaixo o exemplo:

> suspects <- getSuspects(Benf_Corinto_2016, Despesas_Corinto_2016)

Considerações Finais

A análise Benford facilita o trabalho de auditoria na medida que permite a verificação de toda a população de dados, retornando apenas a relação de dados suspeitos, permitindo assim um estudo mais direcionado a esses dados.

Os desvios aqui identificados em relação à Lei de Newcomb-Benford não constituem prova conclusiva de manipulação, entretanto uma não conformidade com a lei indica que os dados precisam de uma investigação mais minuciosa.

Outras funcionalidades podem ser consultadas no pacote de acordo com a análise necessária.

Bibliografia

http://portal.tcu.gov.br/inovatcu/noticias/aplicacoes-da-lei-de-benford-a-auditoria-de-obras-publicas.htm

http://www.mudancasabruptas.com.br/Benford.html

https://www.nibo.com.br/blog/lei-de-benford-e-auditoria-fiscal/

http://www.scielo.br/pdf/rcf/v20n49/06.pdf

https://cran.r-project.org/web/packages/benford.analysis/benford.analysis.pdf

https://analisereal.com/2014/01/26/benford-analysis-0-1/

sexta-feira, 21 de outubro de 2016

Big Data - Big Data e a sua aplicabilidade em Instituições Financeiras

Artigo escrito em maio de 2015 quando os bancos totalmente digitais eram uma ameaça no território nacional, e hoje, apenas 17 meses depois, já são uma realidade.

Outubro/2016

http://www.cetrix.com.br/blog/wp-content/uploads/2016/01/7982700.jpg

BIG DATA E A SUA APLICABILIDADE EM INSTITUIÇÕES FINANCEIRAS

Nome do orientador: Haroldo Luiz dos Santos

Nome do acadêmico: Patrícia de Fátima e Almeida

Revisão, dicas, apoio e.... muitas idéias: Willian Hofner

RESUMO

Este trabalho apresenta informações sobre o conceito big data e a sua aplicabilidade em instituições financeiras que buscam evoluir na mesma velocidade das mudanças comportamentais dos clientes para manterem sua relevância no mercado.

PALAVRAS CHAVE: BIG DATA, HADOOP, NOSQL, INTERNET DAS COISAS, ANALYTICS.

ABSTRACT

This paper presents information about the Big Data concept and its applicability to financial institutions seeking to evolve at the same rate of behavioral changes of customers to maintain their relevance in the market.

KEYWORDS: BIG DATA, HADOOP, NOSQL, INTERNET OF THINGS, ANALYTICS.

INTRODUÇÃO

Big data é um conceito que utiliza um conjunto de ferramentas capazes de capturar, armazenar e analisar em tempo hábil um enorme volume de dados estruturados e não estruturados, transformando-os em informações úteis que podem ajudar as organizações a operar de forma mais eficiente e rentável.

Diariamente volumes enormes de dados são gerados no mundo através de transações bancárias, e-mails, logs, sensores, redes sociais, sistemas ERP (Enterprise Resource Planning) entre outros. Se as empresas souberem como utilizar esses dados poderão saber o que precisa ser feito para melhorar e personalizar os seus produtos e serviços, entender melhor o seu cliente, desenvolver campanhas de marketing direcionadas, disponibilizar serviços para clientes especiais, escolher os melhores talentos para a sua empresa, melhorar a segurança digital e assim por diante.

Grande parte destas informações são disponibilizadas atualmente pelas gerações Y e Z que nasceram em uma época de grandes avanços tecnológicos. Estas gerações são compostas por pessoas acostumadas a criar, consumir e divulgar conteúdos e que pela quantidade de acessos às informações são consumidores extremamente exigentes.

Esta ‘explosão de dados’ será ainda maior com a Internet das Coisas (rede de dispositivos conectados que se comunicam entre si), quando vários dispositivos das nossas casas tais como TVs, lavadoras de roupa, cafeteiras, computadores e smartphones estiverem conectados à internet e gerando dados.

Inicialmente a IBM definiu que uma solução big data se baseava em 3 Vs: Volume (quantidade de dados que crescem exponencialmente), Velocidade (obtenção, gravação e transformação dos dados em tempo hábil ou até mesmo em tempo real) e Variedade (formato estruturado ou não). Veracidade (qualidade dos dados) e Valor (agregação de valor que compense o investimento) surgiram posteriormente.

Antes as empresas já trabalhavam com soluções de Business Intelligence, Data Mining e CRM pra analisar dados e gerar suporte às tomadas de decisões.

O big data aparece neste cenário agregando volume de dados, inteligência às soluções e utilizando-se de análise preditiva para antecipar possíveis comportamentos, permitindo assim a geração de insights poderosos com os quais as empresas podem obter vantagens de negócio.

A previsão é que as marcas que se prepararem melhor para obter inteligência a partir das informações geradas pelos consumidores nesse novo ambiente, estarão na dianteira dessa nova era e serão as empresas do futuro.

Como usuárias deste poderoso conceito surgem as instituições financeiras que enfrentam o desafio de alcançar o seu espaço neste universo online o quanto antes já que inovações como bancos totalmente digitais, Google Wallet e Square, iZettle e Alipay estão penetrando no território bancário, apresentando um novo desafio competitivo.

Segundo a Accenture, até 2020 mais de 30% das receitas bancárias estarão em risco para esses novos competidores e tendências e que 40% dos clientes gostariam que empresas como Apple e Amazon oferecessem serviços financeiros.

PROBLEMA DE PESQUISA

Como o big data pode ajudar as instituições financeiras a se destacarem no mercado e a não sucumbirem diante dos novos concorrentes?

OBJETIVO PRINCIPAL

Identificar as aplicabilidades do conceito big data nas Instituições Financeiras com objetivo de torná-las ainda mais competitivas.

OBJETIVOS ESPECÍFICOS

- Compreender o conceito Big Data, seus benefícios, aplicabilidades e as questões de ética e de privacidade que o envolvem;

- Descrever de forma sucinta a infraestrutura e tecnologia necessárias para utilização do conceito Big Data, as formas de geração, captura, armazenamento, processamento e análise dos dados e identificar quem são os consumidores dos dados e informações geradas;

- Identificar como o big data pode ajudar as Instituições Financeiras na tomada de decisões estratégicas, na geração de informações gerenciais para fins regulatórios e na redução de perdas com operações fraudulentas.

REFERENCIAL TEÓRICO

BIG DATA – Um pouco de história

Atualmente temos várias suposições sobre o nascimento do conceito Big Data. Seguem abaixo alguns deles:

"A história de como os dados se tornaram grandes começa muitos anos antes da atual febre em torno do conceito big data. Há 70 anos atrás, encontramos as primeiras tentativas de quantificar a taxa de crescimento do volume de dados ou o que popularmente é conhecida como a ‘explosão da informação’". (Gil Press da Forbes Magazine, 2013).

"O termo big data nasceu no início da década de 1990, na NASA, para descrever grandes conjuntos de dados complexos que desafiam os limites computacionais tradicionais de captura, processamento, análise e armazenamento informacional." (Rodrigo Arrigoni, 2013).

"O conceito big data começou a ser discutido a cerca de 70 anos, a produção escrita da humanidade crescia a taxas exponenciais e o acesso à informação enfrentava grandes desafios devido ao seu volume. Essa discussão restringia-se ao universo da filosofia, já que a tecnologia da informação ainda estava em etapa embrionária." (Marcos Vieira, 2014).

"O termo big data é relativamente novo e ao mesmo tempo velho, surgindo por volta de 2005 com o Google e recebeu uma alavancada em 2008 com o pessoal do Yahoo que transformou a plataforma Hadoop em Open Source." (Alexandre Tarifa e Diego Nogare, 2015).

"Big data é um nome relativamente recente (ou, ao menos, começou a aparecer na mídia recentemente) [...] Há tempos que departamentos de TI contemplam aplicações de Data Mining, Business Intelligence e CRM (Customer Relationship Management), por exemplo,

para tratar justamente de análise de dados, tomadas de decisões e outros aspectos relacionados ao negócio." (Emerson Alecrim, 2015).

BIG DATA – Um conceito

Abaixo conceitos de big data segundo alguns autores:

"Big data é um termo utilizado para descrever o conjunto de soluções tecnológicas ou uma ciência feita a partir das megabases de dados disponíveis na internet, que analisam e dão sentido a essas informações." (Carolina Cunha, 2015).

"Um conceito criado pelo mercado relacionando novas arquiteturas tecnológicas à capacidade de analisar qualquer volume e variedade de informações em uma velocidade próxima ao tempo real, abrindo novas possibilidades a nível de negócio." (Jefferson Stela).

"Podemos definir o conceito de big data como sendo conjuntos de dados extremamente amplos e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil." (Emerson Alecrim, 2015).

"É a ponta do iceberg de uma tendência maior que a gente esta vivendo na sociedade hoje. É a tendência de automação do processo de produção de bens de informação... desde os dados brutos até os resultados das análise [...] Big data é um pedacinho deste contexto." (Thoran)

BIG DATA – 5 Vs

Em 2001, Doug Laney (analista da Gartner) baseou a definição do termo big data em três Vs: Volume, Velocidade e Variedade.

Cézar Taurion definiu big data inicialmente como sendo a soma destes mesmos 3 ‘Vs’. Posteriormente acrescentou os ‘Vs’ veracidade e valor e ressaltou que as oportunidades que esses 5 ‘Vs’ trazem não podem ser desperdiças.

O Sebrae Nacional define os 5 ‘Vs’ conforme abaixo:
Volume – São informações medidas em Zetabytes que são compostas por e-mails, mensagens, vídeos, fotos, imagens e comentários que circulam na rede.

Variedade – São dados estruturado e não estruturados que por não terem padrão exigem um maior esforço na análise.

Velocidade – É a possibilidade de obter dados sobre determinado fenômeno em tempo real diminuindo o tempo entre a obtenção da informação e a tomada de decisão.

Veracidade – São dados fidedignos porque representam interações reais em redes sociais ou rastros de navegação.

Valor – As informações devem gerar valor para o negócio.

BIG DATA – Diferenças para o CRM e BI

Em 2014, Edson Cardoso diferenciou o conceito big data do BI e CRM de forma brilhante.

Para ele, CRM é uma ferramenta para análise de comportamento e relacionamento com os clientes com a qual é possível criar um banco de dados

que permite conhecer o perfil do público atendido, separado por critérios como regiões de atuação, ramo de vendas e horários de frequência e compras.

O Big Data é mais abrangente porque engloba ferramentas que permite interagir e coletar dados de diversas fontes tais como: bancos de dados internos, sistemas ERP, redes sociais e até mesmo do CRM.
O BI normalmente entrega análise de informações passadas que são extraídas das bases locais e analisadas e entregues em dashboards. Já o big data interpreta cenários e faz projeções antecipando possíveis acontecimentos tornando a vida corporativa mais fácil.

Todas as soluções que possuem os 5 V’s podem ser consideradas big data.

BIG DATA – Geração de conteúdo

As fontes de geração de conteúdo que impulsiona e serve como base para os resultados do conceito big data são diversas. Em 2014, a IBM definiu que estas fontes podem vir de todos os canais e podem ser internos e externos às empresas.

Segundo a IBM (2013), 90% das informações disponíveis no mundo foram geradas entre 2010 e 2012 e dobrará até o final de 2015 com uma geração diária 2,5 exabytes de conteúdo. Esta quantidade de dados é tão grande que a única maneira de aproveitá-la é utilizando automação máquina a máquina ou consulta inteligente de big data.

Cézar Taurion afirmou em 2012 que o volume de dados do planeta dobra a cada 18 meses e que a geração diária chega a petabytes de dados. Ele ressaltou também o ‘V’ variedade ao escrever que estes dados são gerados a partir de sistemas estruturados e não estruturados tais como: emails, mídias sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos, apresentações estilo Powerpoint, mensagens instantâneas, sensores, etiquetas RFID e câmeras de vídeo.

Em seu site, a Hekima (2015) descreve que tudo é matéria prima para o big data. Segundo ela, as empresas podem utilizar desde banco de dados de call center até conteúdo de planilhas financeiras e contábeis para conhecerem melhor os seus clientes e concorrentes e preverem tendências.

Carolina cunha (2015) atribui a grande geração de informação atual à utilização de aplicativos de celular e tablet, GPS e câmeras, à interação em canais digitais tais como sites e redes sociais além da geração de dados pelos sensores e equipamentos médicos. Ela ainda afirma que um dos impulsionadores do conceito big data é a ascensão da Internet das Coisas com dispositivos que podem gerar dados sobre meio-ambiente, cidades, energia, saúde, entre outros.

A revista Super Interessante (2012) cita os cookies como imprescindíveis ao big data ao ajudarem a conhecer melhor o internauta.

Jefferson Stela acrescenta que grande parte das informações usadas em decisões são estruturadas e que as informações não estruturadas podem agregar ainda mais valor para as empresas e os consumidores. Ele cita como exemplo de dados não estruturados o conteúdo de redes sociais, vídeos, sensores, voz e dados de maquinas.

Em 2014, Paschoal Pipolo mencionou também a importância dos dados não estruturados. Vide abaixo sua opinião sobre os dados gerado a partir da interação com o mundo digital:

"Aplicativos sociais como Facebook, Twitter, Linkedin, Waze, Foursquare, YouTube, TripAdvisor, permitem que nos expressemos livremente e que nossas opiniões possam ser vistas e ouvidas em qualquer lugar do planeta. Ao interagirmos com esse mundo digital passamos, ainda que inconscientemente, a deixar marcas e revelar quem somos, como agimos e como nos posicionamos perante qualquer assunto, permitindo o estabelecimento de conexões em todos os níveis. [...] Diariamente, por meio desses dispositivos e conexões, compartilhamos 30 bilhões de informações, 10 bilhões da quais relativas a novas mensagens no Facebook e 500 milhões de tweets [...]."

Marcos Panichi (2012), líder da área de soluções de Information Management da IBM, conclui que esta grande geração de informações, que foi a impulsionadora da era big data, está diretamente relacionada com a forma de trabalhar da geração Y, sempre em equipe e conectada em redes sociais.

BIG DATA - Tecnologia e Infraestrutura

Cézar Taurion esclareceu em 2012, que tecnologias como o modelo relacional utilizado pelas empresas para armazenarem e gerenciarem os dados gerados pelos sistemas internos não suportam dados não estruturados e em grande volume utilizados pelo big data.

Segundo ele, as tecnologias que sustentam o conceito big data são as Analytics, tendo Hadoop e MapReduce como nomes principais, e as tecnologias de infraestrutura como os bancos de dados NoSQL (Not Only SQL) que armazenam e processam os petabytes de dados. Cita também:

- Sistemas colunares como o Big Table que são usados internamente pelo Google;

- Modelo Key/value como DynamoDB da Amazon;

- Modelo document database baseado no conceito proposto pelo Lotus Notes da IBM e aplicado em softwares como MongoDB;

- Modelo baseado em grafos como o Neo4j.

Para a IBM (2013), os aplicativos de big data precisam muitas vezes de soluções que incluem APIs baseadas na nuvem para fazer interface com pesquisas colunares avançadas, algoritmos de aprendizado de máquina e analítica avançada, como visão de computador, analítica de vídeo e ferramentas de visualização.

BIG DATA – Captura de conteúdo

Segundo a IBM (2014), os dados são coletados diretamente ou através de provedores de dados, em tempo real ou em modo em lote.

Marcos Vieira (2014) relata a fase de captura de dados como uma etapa em que o trabalho varia muito de acordo com o volume e a complexidade dos dados.

Segundo ele, algumas fontes como Google Analytics, Facebook, Twitter, ferramentas de Email Marketing e alguns publicadores de conteúdo possuem extratores já programados, caso contrário será necessário o desenvolvimento de um webservice para tal função.

"Quando se faz necessário coletar dados de páginas, sejam estáticas ou dinâmicas, é necessário entender a estrutura dos dados contidos nessa página a fim de desenvolver um crawler capaz de buscar e armazenar esses dados. Quando a página não possui API de consumo ou a API possui limites indesejados, é possível utilizar ferramentas para capturar as páginas e extrair os dados sem a utilização de APIs.". (Node, 2014).

A Graph API e a Public Feed API são utilizadas para consumo de dados disponibilizados pelo Facebook. A diferença entre as duas é que a Public Feed API possui acesso restrito a um conjunto de editores de mídia e seu uso requer aprovação prévia. (Facebook, 2014).

Segundo Eduardo Harada (2015), a Data API v3 é a API mais recente do YouTube e conta com suporte à utilização de comentários nos vídeos, legendas e notificações.

Abaixo Tiago Cruz França, Fabrício Firmino de Faria, Fabio Medeiros Rangel, Claudio Miceli de Farias e Jonice Oliveira (2014) descrevem formas e dão exemplos de APIs de acesso à dados do Twitter:

"Normalmente, há duas formas diferentes de coleta de dados das redes sociais online. A primeira forma consiste em determinar termos e coletar por citações destes termos no passado. Desta forma, existe a possibilidade de restrições na obtenção de dados antigos,

pois normalmente há um período de tempo viável para a coleta dos dados. A segunda se baseia em um conceito de streaming, onde a aplicação criada funciona como um ‘ouvinte’ da rede e captura os dados à medida que estes surgem.[...] O Twitter é uma rede social online que possui duas APIs diferentes para a captura dos seus dados: REST API e Streaming API. [...] O Twitter trabalha com o padrão de arquivo JSON (JavaScript Object Notation). Todos os dados são recebidos nesse formato."

BIG DATA - Armazenamento

Carolina Cunha (2015) reforça que os Sistemas de Gerenciamento de Banco de Dados Relacional, embora tenha sido um dos grandes desenvolvimento tecnológicos em computação do século passado, não são compatíveis com os dados não estruturados.

Para solucionar este problema, a IBM (2014) cita o distributed file storage (DFS), nuvem e NoSQL como opções de armazenamento para estes dados.

Emerson Alecrim justifica que os bancos de dados tradicionais não são adequados para tratar grandes volumes de dados não estruturados por serem menos flexíveis. Como solução ele cita também o conceito NoSQL que possibilita o armazenamento de diversas formas e é compatível com um grupo de premissas que compete com as propriedades ACID (Atomicity, Consistency, Isolation e Durability): a BASE (Basically Available, Soft state, Eventually consistency).

A seguir alguns exemplos de bancos de dado NoSQL segundo Emerson Alecrim: Cassandra, MongoDB, HBase, CouchDB e o Redis.

BIG DATA - Processamento e análise

Renna Setti ressalta que o grande diferencial das soluções big data é a análise de dados não estruturados que dependem do contexto para terem sentido.

Na revista FEBRABAN de 2014, Paschoal Pipolo menciona que uso do big data através de analytics (um conjunto de técnicas sofisticadas de análise quantitativa e estatística) aliada ao uso de modelos preditivos pode aumentar a competitividade das empresas e proporcionar diferenciação num mercado saturado de produtos similares.

Segundo a IBM (2014), esta é uma tarefa complexa que exige processos eficientes de alto desempenho com mecanismo de análise com vários fluxos de trabalho, algoritmos e ferramentas que apoiam o processamento paralelo.

Para Carolina Cunha (2015), os sistemas e ferramentas implementados para o conceito big data devem combinar matemática, estatística e ciência da computação e gerarem resultados em tempo hábil para tomada de decisões.

Marcos Vieira (2014) descreve a etapa de processamento e análise da seguinte forma:

"Uma vez que os dados já estão todos armazenados e disponíveis de forma adequada, passamos para a etapa de tratamento e enriquecimento.

A matéria de tratamento algorítmico abrange: criação de índices, aplicação estatística indutiva (análise de comportamento e clusters), modelagem preditiva (estimativa resultados futuros) e de algoritmos relativos a natureza de dados (processamento de imagens, análise semântica de textos, etc).

Esses processos têm grande dependência do resultado final que se deseja. Cada empresa possui uma necessidade e/ou uma capacidade técnica de aplicar alguns ou vários dos métodos citados.
As habilidades necessárias nessa etapa se dividem sobretudo entre conhecimentos de economia (econometria), computação, matemática e estatística. Como se pode imaginar é muito difícil que uma empresa possua uma equipe que domine todas essa técnicas, tanto mais difícil é encontrar um profissional que, sozinho, consiga resolver todas elas. O padrão no mercado é terceirizar projetos com empresas especializadas que já acumulam expertise nas soluções desejadas."

Marcos Vieira ainda lista algumas técnicas que podem ser utilizadas na busca dos dados. São elas: Análise Semântica, Análise Preditiva e Análise de Cluster

Emerson Alecrim cita a plataforma open source Hadoop como uma solução para o processamento e análise de grandes volumes de dados estruturados e não estruturados e a tecnologia de MapReduce como um modelo de programação que distribui o processamento a ser realizado entre vários computadores para ajudar o seu mecanismo de busca a ficar mais rápido e livre da necessidades de servidores poderosos e caros.

Abaixo as razões, segundo Emerson Alecrim, do Hadoop ser considerado uma solução adequada para o big data:

- Por ser um projeto open source, permite modificações para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração;

- Não exige o pagamento de licenças e suporta hardware convencional tornando os projetos mais baratos;

- Tem recursos de tolerância a falhas, como replicação de dados;

- É escalável, isto é, permite o acréscimo de computadores sem necessidade de realizar reconfigurações complexas no sistema.

BIG DATA - Consumidores dos dados e informações

Em 2014 a IBM definiu como consumidores das informações geradas pelo conceito big data os aplicativos de visualização, seres humanos, processos de negócios ou serviços.

Paschoal Pipolo ressalta, na revista FEBRABAN de 2014, a importância das ferramentas de visualização. Segundo ele, estas ferramentas auxiliam as áreas de negócio a interpretarem as informações geradas pelo big data e muitas vezes possibilitam a descoberta e exploração visual de padrões e a identificação de relacionamentos, de maneira eficiente e sem necessidade de programação. Ele cita o tableau como exemplo de ferramenta.

BIG DATA - Benefícios

Jefferson Stela esclarece que:

"Big data não é uma tecnologia específica e, quando tratamos deste assunto focando nessa parte técnica, abstraímos aquilo de melhor que este novo conceito traz ao mercado: a capacidade real de transformar o negócio mudando a maneira como analisamos as informações usadas em tomadas de decisão. Consumidores passarão a serem tratados como únicos e serão mais entendidos em relação a anseios, desejos e comportamento. [...] Do outro lado empresas passarão a se beneficiar dessas informações e entenderão qual cliente precisa de qual produto ou serviço. Os benefícios, de ambos os lados, são inúmeros, basicamente depende da criatividade de quem cria e atrelado a necessidade de quem usa."

Para Manyika, o grande benefício do big data é permitir a análise de qualquer tipo de informação digital em tempo real, gerando base para a tomada de decisões e consequentemente melhorando a competitividade, produtividade, inovação e benefícios ao consumidor.

Segundo Dyche Apud Computerworld (2013), o verdadeiro fascínio do big data para os executivos é a promessa de inovação.

BIG DATA - Aplicabilidades e Cases

Carolina Cunha cita comos aplicabilidades mais comum do conceito big data: a geração de informação para apoio na tomada de decisões, o maior

conhecimento do comportamento do consumidor ou de determinado público e a identificação de tendências.

Jefferson Stela afirma que:

"Não há uma indústria ou área específica que não se possa aplicar este novo conceito. Basicamente, em todo lugar onde há informação, trabalhada de uma forma criativa e estratégica, e que possa trazer um valor agregado como objetivo final, terá credito na utilização de Big Data. Temos desde casos complexos como a utilização na análise de sedimentos coletados no fundo de oceanos identificados possíveis melhores pontos de perfuração de poços petrolíferos, como na utilização de lojas que querem entender se um consumidor que comprou um determinado produto pode ser o futuro consumidor de um outro produto ou serviço específico."

Segundo a Hekima, as soluções big data estão para os gestores modernos como um radar está para um piloto de aeronave pois auxiliam a gerarem respostas imediatas às mudanças.

O site da Hekima cita também muitas outras aplicabilidades do big data. Seguem algumas:

"O big data pode ser usado para coibir fraudes em sistemas corporativos, compreender o consumidor, identificar processos internos ineficientes, entre outras funções. Porta de entrada para entender mudanças ainda mais profundas na maneira como o ser humano se relaciona com a tecnologia, essa solução e suas variáveis (como o Social Big Data, que trabalha exclusivamente com mineração de dados em mídias sociais) é hoje a mais importante arma de diferencial competitivo às empresas ousadas — independentemente do porte — e de gestores modernos."

"Dados capturados de redes sociais como LinkedIn, Facebook e Twitter, por exemplo, podem trazer metadados que acrescentam informações adicionais sobre os usuários, como geolocalização, o que permitie a um departamento de marketing compreender de quais regiões surgem o maior percentual de hashtags de engajamento. Essa percepção mais apurada possibilita direcionar diferentes trabalhos de outbound marketing para mercados consumidores específicos (garantindo retorno sobre o investimento muito mais elevado do que o que seria alcançado em uma campanha feita ‘às cegas’)."

Para Emerson Alecrim, os benefícios que o big data pode proporcionar com a geração mais eficiente de informações são: geração de produtos melhores, estratégias de marketing mais eficientes, redução de gastos, melhoria no processo de produção, superação de concorrentes e atendimento personalizado dos clientes.

Michael Slaby, diretor de inovação da campanha de reeleição de Barack Obama nos EUA, conta como o big data foi utilizado na campanha de 2012:

"Campanha de Obama teve 35 milhões de pessoas na fan page oficial do Facebook e 26 milhões de seguidores no Twitter. [...] Hoje, a tecnologia desempenha um papel que não permite que seja vista como um departamento apartado dentro de uma organização. [...] Nossos voluntários foram capazes de se comunicar com mais pessoas, fazendo bom uso de mídias e das funcionalidades das ferramentas. [...] Outro pilar da campanha de Obama foi a estratégia de aplicar ferramentas de analytics, usadas para medição, coleta, análise e produção de relatórios de dados. Parte do sucesso deve-se à capacidade de apoiar a tomada de decisão em dados mais abrangentes e precisos, um benefício inerente da arquitetura de integração. As ferramentas de analytics passaram a trabalhar sobre uma base integrada de informações e puderam correlacionar o que ocorria online e off-line. [...] A mobilidade e a geolocalização acabam abrindo mais uma frente para as disciplinas relacionadas a big data e analytics. Há um velho adágio que diz que toda atividade política é local. Eu acrescentaria que toda atividade política é pessoal. Precisamos usar os avanços dessa tecnologia para interagir com cada vez mais gente e prover uma experiência pessoal a cada um."

Cezar Tourion cita como aplicabilidade para o conceito big data a análise de fraudes com o objetivo de minimizar os riscos e um case de uma empresa de fabricação de semicondutores que monitora em tempo real o processo de detecção e classificação de falhas possibilitando que os wafers defeituosos sejam reprocessados e ajustes sejam feitos em tempo real nos próprios processos de fabricação.

Abaixo mais algumas aplicabilidades e cases do big data segundo Renna Setti:

- Geoprocessamento para identificação de vagas de estacionamento e situação de navios atracados em portos;

- Decifração da linguagem humana em redes sociais pela ONU para prever o desemprego, a situação econômica e epidemias;

- Monitoramento de hábitos de consumo;

- Detecção da concentração de chips de celulares em ações humanitárias como aconteceu no terremoto ocorrido no Haiti;

- Uso de monitoramento em tempo real de bebês pré-maturos no Canadá que possibilitaram o cruzamento de dados e a antecipação de ações que salvaram a vida de diversas crianças.

Cases de sucesso premiados em 2013 pelo IDC Brazil BI & Big Data Conference segundo a Exame Info:

- Projeto Intelligere que tem como objetivo melhorar o processo de aprendizagem e assegurar o sucesso do aluno em completar seu percurso acadêmico no prazo definido e dentro dos parâmetros de qualidade especificados. Isto é possível com aplicação de estudos analíticos aos processos de aprendizagem, avaliação e acompanhamento da vida do aluno.

- Escritório de Prioridades Estratégicas de Minas Gerais que disponibiliza informações da gestão pública com o objetivo de conseguir desenvolver novas políticas públicas com participação da população.

O Uber é mais um usuário do conceito Big Data conforme informado pelo site da Hekima.

"No minuto em que você clica no seu aplicativo, o big data também está lá, dando suporte para que se ache um motorista nas cidades onde está o serviço, cruzando os dados da carona mais próxima, tornando o serviço mais ágil. Antes de você entrar no carro, os serviços de GPS já cruzaram outros tantos dados de quilometragem, ruas, tarifas e tempo em um algorítimo refinado, que determinam previamente o tempo estimado de viagem e quanto ela custará. E se você mudar de ideia sobre o seu destino no meio do trajeto, não tem problema. Em tempo real, o aplicativo refaz o caminho, vê as condições de tráfego e você já está em um novo trajeto com um novo preço.".

BIG DATA – Ética e Privacidade

O big data cria um contexto em que as questões de privacidade precisam ser repensadas pois ainda não há entendimento consolidado sobre a viabilidade ética de replicação e uso de dados de algumas fontes.

Para a Hekima, esta discursão ficou em maior evidência quando os EUA revelaram em 2013 que a Agência Nacional de Segurança dos Estados Unidos e o FBI possuíam acesso direto aos servidores centrais das mais importantes empresas de internet do mundo. Segundo o site, dados oriundos do Google, do Facebook, do Skype e do Aol, por exemplo, eram totalmente monitorados pelas agências de inteligência norte-americanas.

Mas o site da Hekima ressalta também que inúmeros juristas no Brasil e no exterior defendem a idéia de que as informações inseridas em mídias sociais não podem ser posteriormente reivindicadas como confidenciais porque já foram expostas ao acesso livre.

Carolina Cunha (2015) discorda quando afirma que o Marco Civil da internet regulamenta que a privacidade é um direito e uma condição para ‘o pleno exercício do direito de acesso à internet’. Segundo ela, embora o usuário tenha direito à inviolabilidade da intimidade e da vida privada, a facilidade de acesso às informações públicas tornou mais frequente a coleta de informações particulares sem autorização.

BIG DATA – Futuro

Para Carlos Barbieri (2011), quando as empresas começam a se fundir, comprar ou buscar parcerias com outras com o objetivo de dominar uma tecnologia específica é sinal que esta tendência tecnológica está em evolução. Ele cita como exemplo desta tendências o conceito big data e analytics.

Feinberg em 2013, afirmou que as empresas que tiverem a capacidade de predição serão recompensadas pois conseguirão antecipar as necessidades e desejos dos clientes.

Cézar Tauron (2012) ressalta que o conceito big data disponibiliza um novo território com conhecimentos, experiências e expertise profissional que é inevitável para os CIOs das empresas.

Jefferson Stela pontua que o mercado global já movimenta mais de US$70 bilhões anuais em tecnologias do conceito big data e que a tendência de crescimento supera o percentual de 40% até 2016.

Mas Edson Cardoso informa que, conforme um estudo da Bain & Company, o mercado de big data movimentará cerca de R$ 47 bilhões em 2018. Segundo ele, este grande investimento será motivado pela capacidade de garantir aos executivos tomadas de decisões até cinco vezes mais rápidas.

Para a Hekima, os investimento com big data tende a crescer 6 vezes mais do que o setor de TI em 2018 e Carolina Cunha (2015) faz uma previsão que o Brasil movimentará US$ 965 milhões em 2018 nesta área.

A revista FEBRABAN, em 2014, ressaltou que a maior evolução desses serviços se dará com a computação cognitiva ou deep learning, isto é, quando as máquinas tiverem a capacidade de tomar suas próprias decisões após auto aprendizagem.

BIG DATA – Aplicabilidade nas Instituições Financeiras

Segundo a Revista FEBRABAN (2014), quando a frase em que dizia que os dados sabem bem mais sobre nós do que nós mesmos surgiu em 2008, o conceito big data deixou de ser tratado apenas em discussões acadêmicas para ganhar espaço também nas áreas de TI das grandes instituições financeiras.

Abaixo algumas informações que foram divulgadas na publicação anual do CIAB FEBRABAN 2012:

Tendências e prioridades na visão dos executivos de TI dos grandes bancos brasileiros:

TENDÊNCIA	NÍVEL DE PRIORIDADE	RETORNO SOBRE INVESTIMENTO E MATURIDADE
Automação de Processos	Alto	A) Tecnologias emergentes com grande oportunidade de maior utilização e ROI (return on investment) pelos bancos.
Big Data
Revisão da Arquitetura	Médio	B) Iniciativas importantes e já presentes nas agendas, mas sem a mesma oportunidade de ROI que o grupo A.
Segurança
Internet Anywhere
Cloud Computing	Baixo	C) Importantes tecnologias, mas sem uma perspectiva de maior utilização no curto prazo.
Redes Sociais

"O tema big data tem sido usado mais frequentemente para denotar grandes programas que as instituições têm executado para criação de bases de dados que serão usadas para geração das informações para Basileia II e III, atrelada a uma demanda ainda crescente por informações gerenciais que devem ser reconciliadas com dados para fins regulatórios. A visão de comportamento de clientes também está presente aqui, uma vez que as necessidades de informações regulatórias sobre riscos de clientes tem gerado uma necessidade de compartilhar essas informações também com dados antes exclusivos de bases para Customer Relationship Management (CRM)."

Importância do big data na indústria de serviços financeiros:

Explosão de dados	Enquanto as empresas financeiras têm trabalhado por anos em maneiras de utilizar a enorme quantidade de dados que são extraídos de clientes, mercados, canais, informações financeiras e riscos, as fontes e volumes de informação expandiram de maneira exponencial nos últimos anos – especialmente de maneira pouco estruturada.

Novas oportunidades de mercado	Com a recuperação da economia global, as empresas financeiras necessitam de acesso a maiores quantidades de dados para auxiliar na prospecção de novas oportunidades de mercado, tendências dos consumidores e para definir novas possibilidades de produtos. Isso implica maior necessidade por análise de padrões, correlação e data mining para identificação de novas demandas do mercado e dos consumidores.


Análise em tempo real	Atualmente, existe uma mudança no paradigma de análises, migrando de uma abordagem baseada em modelos para análises em tempo real, implicando em maior disponibilidade de informações atualizadas. Isso se torna relevante em áreas como CRM, cross sell, detecção de fraudes e gestão de riscos.

Fonte: Wall Street e Technology 2011

Iniciativas de big data específicas de setores financeiros:

SETOR	INICIATIVA	EXEMPLOS RELEVANTES
Bancos de Varejo	Produtos baseados em dados (cartões de crédito, empréstimos), conforme análises detalhadas dos clientes nas interações. Visão do grau de vinculação dos clientes e retenção. Análise do perfil de risco dos clientes para crédito.	Amex: análise de dados exclusivos para melhorar a aquisição e retenção de clientes. PNC: visão única do cliente e análise preditiva de requerimentos. PayPal, Amazon: Detecção de fraude em tempo real.
Mercado de Capitais	Desenvolvimento de novos produtos alavancando dados exclusivos e de mercado. Análise preditiva para a elaboração de estratégias e gestão de risco. Detecção de fraudes em trading – baseado histórico de transações. Cálculo de VAR de ativos de diversas naturezas.	Fidelity: análise de investimentos pessoais para detecção de mudanças de cenários. State Street: análise em tempo real de dados de front-office em todo o ciclo de investimentos. Northen trust: armazenamento de dados em “nuvem” para melhor informação de clientes.
Seguradoras	Seguros baseados em dados (imóvel, auto) conforme análises detalhadas dos clientes. Processamento e gestão de sinistros. Detecção de fraude.	American Family Insurance: maior tratamento dos dados dos clientes com foco na retenção de clientes, precificação de cross sell e redução de riscos. Accident Fund Insurance Company of America: análise preditiva para maior agilidade na identificação de acidentes para gestão de custos.

Fonte: Booz e Company

A publicação anual CIAB FEBRABAN 2012 destacou também os desafios enfrentados pelas empresas financeiras para operacionalizar o conceito Big Data. São eles:

- Falta de uma abordagem ou plano estruturado para a operacionalização do Big Data;

- Pouca definição quanto à organização da gestão de dados nas empresas, seus papéis, responsabilidades e capacitações;

- Falta de um plano para mudança de cultura ou construção de capacitações;

- Falta de profissional capacitado;

- Pouca de agilidade para identificar e se adaptar a soluções, plataformas e infraestrutura de big data de última geração, dificultando o processo de implementação das soluções;

- Poucas empresas possuem as capacitações para lidar com a escala, variedade e complexidade das informações atuais.

Em 2013 a Revista FEBRABAN fez várias referências importantes sobre a aplicabilidade do conceito big data nas instituições financeiras. Abaixo algumas delas:

- "Hoje, dois terços dos bancos no mundo todo já têm projetos de big data em funcionamento." (Panichi, da IBM, 2013 – Revista FEBRABAN).

- A Booz&Company destacou que o menor número de visitas dos clientes às agências bancárias incentivou o incremento expressivo da capacidade de armazenamento de dados nas instituições financeiras com o objetivo de apurar tendências e particularidades dos clientes, de forma individual ou segmentada.

- Jason White, gerente de desenvolvimento de negócios da HP-3PAR na América Latina, alertou que os grandes bancos brasileiros devem sofrer modificações para se alcançar a rapidez esperada para soluções de big data pois possuem sistemas altamente diversificados e compostos de sistemas antigos convivendo com novos. Ele ainda ressaltou que a arquitetura deve ser convergente, suportando várias camadas em funcionamento simultâneo e capaz de agregar o poder de processamento de vários servidores.

- Mike Huckaby, diretor sênior da RSA, sinalizou que as tecnologias de big data têm se mostrado úteis não só para elevar receitas, mas também para reduzir perdas. Ele citou o exemplo do "e-fraud network" (rede de especialistas de segurança de instituições financeiras do mundo inteiro) criada pela RSA que permite o bloqueio de operações suspeitas segundos após terem sido flagradas, graças a velocidade de análise de dados originados em diversos países.

- Carlos Cunha, presidente da EMC, alertou que no mercado financeiro começam a surgir novos agentes com soluções tais como a Lenddo que criou uma aplicação baseada em big data que consegue fazer análise de crédito das pessoas de baixa renda e oferecer empréstimos. Por causa da regulamentação menos rigorosa, esta solução está sendo utilizada por enquanto apenas nas Filipinas, na China e no México.

Em 2014 a Revista FEBRABAN mencionou alguns cases de bancos brasileiros que estão usando o conceito big data para aumentar a eficiência e gerar novos negócios. Segue a descrição de alguns deles:

- De acordo com Geraldo Afonso Dezena, vice-presidente de TI do BB, o banco desenvolveu uma solução para melhorar sua comunicação com correntistas a partir de dados coletados das 10 contas no Twitter e 7 fan pages no Facebook que a área de marketing e comunicação gerencia. Ainda segundo ele, o maior objetivo da empresa é usar esses dados e posts públicos disponíveis em redes sociais, como fonte para gerar novos negócios como oferecer seguros com melhores condições que as praticadas pela concorrência.

- Paulo Maia da Costa, gerente executivo da Caixa Econômica Federal (CEF), relatou que o desafio maior da CEF foi renovar sua infraestrutura e criar sistemas capazes de coletar dados por meio de diferentes soluções de software e tecnologias de transmissão de informações. Toda esta renovação foi feito com o objetivo de melhorar o nível de atendimento da Caixa e oferecer novos produtos de forma segmentada e direcionada para

o público certo com um custo ajustado de acordo com o perfil de risco do cliente.

- De acordo com Pedro Danati, superintendente de sistemas do Itaú Unibanco, o desafio da empresa é integrar os dados comportamentais coletados a partir de todas as telas usadas pelo cliente, como celular, tablet, notebook e caixa de autoatendimento. O objetivo desta integração de dados coletados de múltiplas interfaces é prever os hábitos e as preferências de seus clientes e gerar informações que darão suporte para o banco oferecer produtos no momento mais propício para aceitação e com um menor risco de inadimplência e perdas com fraudes.

- Maurício Machado de Minas informou que o Bradesco tem um projeto que integra dispositivos móveis, internet das coisas e big data com o objetivo de analisar o comportamento dos clientes. Segundo ele, o projeto ainda prevê a instalação de chips nos veículos de clientes segurados pelo Bradesco Auto que permitirá o banco compreender quais clientes merecem um desconto maior ao renovar o seguro e, ainda, diminuir o risco de fraudes.

Alexis Zlocowski cita as seguintes melhorias que o uso do big data viabiliza na área de finanças:

- Combate a fraudes internas e externas;

- Uso estratégico da informação para antecipar e atender melhor as necessidades dos clientes;

- O desenvolvimento de novos segmentos de clientes baseados em comportamentos;

- A realização de cálculos de custos e rendimentos baseados em milhões de transações reais possibilitando o aumento da rentabilidade do cliente;

- Criação de redes sociais entre os próprios clientes a partir de análise de Clusters e de afinidade de produtos;

- Otimização dos níveis de solvência e rentabilidade dos bancos a partir da melhoria da exatidão e velocidade dos modelos de risco;

- Análise das interações multicanal (Omni Channel) que permitem, por exemplo, entender como melhorar o site na web afim de gerenciar mais negócios e aumentar a satisfação do cliente.

"Ao que tudo indica, os dados sabem mais sobre a carteira de clientes de um banco do que o próprio banco. É hora de equilibrar esse conhecimento.". (Revista FEBRABAN, 2014).

CONCLUSÃO

A utilização do conceito big data permite que as instituições financeiras analisem grandes volumes de dados de variados tipos gerando informações mais precisas dos seus clientes. Estas informações são fundamentais para antecipar necessidades, oferecer serviços e produtos personalizados e gerar companhas de marketing bem direcionadas que contribuem para a fidelização destes clientes.

O produto da análise preditiva auxilia na redução dos custos à medida que identifica comportamentos que caracterizam perfis fraudulentos possibilitando ações proativas que geram sistemas mais seguros que bloqueiam operações suspeitas.

Além dos benefícios citados acima, o investimento no conceito big data também é justificado pelo fornecimento de informações gerenciais mais precisas e em tempo hábil que auxiliam no atendimento mais eficaz das questões regulatórias (Sarbanex Oxley e Basiléia, entre outros) e nas tomadas de decisões estratégicas agregando maior valor às instituições financeiras.

Tendo como base este estudo, conclui-se que a possibilidade de implementar ferramentas de análise de dados oriundos de múltiplos canais se tornou uma estratégia fundamental para a competitividade das instituições financeiras neste mercado altamente competitivo.

Porém, para se beneficiarem do conceito big data, as instituições financeiras precisam investir em arquiteturas e tecnologias mais modernas e com um maior poder de processamento.

REFERÊNCIAS BIBLIOGRÁFICAS

Press, Gil. A Very Short History Of Big Data. Postado em maio de 2013. URL: http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/

Arrigoni, Rodrigo. Uma entrevista didática sobre Big Data. Postado em 25/07/2013. URL: http://www.adnews.com.br/tecnologia/uma-entrevista-didatica-sobre-big-data

Vieira, Marcos. Entendendo Big Data. Postado em 11/02/2014. Postado em 28/08/2014. URL: https://www.ecommercebrasil.com.br/artigos/entendendo-big-data/

Tarifa, Alexandre e Nogare, Diego. Big Data: descubra o que é e como usar na sua empresa. URL: https://endeavor.org.br/big-data-descubra-o-que-e-e-como-usar-na-sua-empresa/

Alecrim, Emerson. O que é Big Data?. Atualizado em 13/01/2015. URL: http://www.infowester.com/big-data.php

Taurion, Cézar. O caos conceitual e os 5 Vs do Big Data. Postado em 11/05/2012. URL: http://cio.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/

Setti, Rennan. Jornal O Globo. Edição de 24/12/2012. Coluna Digital e Mídia.

Cardoso, Edson. Big Data, CRM e BI: o que é o quê?. Postado em 01/12/2014. URL: http://www.binarionet.com.br/blog/?p=1449

MANYIKA, J. Big data: The next frontier for innovation, competition, and productivity. Postado em 2011. URL: http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

Saiba como o Uber utiliza (e bem) o big data. e O Big Data pode prejudicar a privacidade das pessoas? Postado pela Hekima em 08/2015. URL: http://bigdatabusiness.com.br/

Stela, Jefferson. Tudo sobre Big Data: a revolução da análise de dados. URL: http://www.t-systems.com.br/imprensa-analistas/tudo-sobre-big-data-a-revolu-o-da-an-lise-de-dados/1303392

Big Data - O que é e por que é importante? URL: Big http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html

Taurion, Cézar. (eBook) BIG DATA. BIG DATA. Ano de edição: 2013.

Cunha, Carolina. Big Data: Como a inteligência de dados vai mudar o nosso dia a dia. Postado em 10/04/2015. URL: http://vestibular.uol.com.br/resumo-das-disciplinas/atualidades/big-data-como-a-inteligencia-de-dados-vai-mudar-o-nosso-dia-a-dia.htm

SEBRAE NACIONAL. Como usar o Big Data para aprimorar seu negócio. URL: http://www.sebrae.com.br/sites/PortalSebrae/artigos/Como-usar-o-Big-Data-para-aprimorar-seu-neg%C3%B3cio

IBM. Big Data na nuvem. Postado em 2013. URL: http://www.ibm.com/developerworks/br/library/bd-bigdatacloud/

Nodejs. Node.js. Postado em Junho de 2014. URL: http://nodejs.org.

Taurion, Cézar. Você realmente sabe o que é Big Data? Postado em 2012. URL: https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/voce_realmente_sabe_o_que_e_big_data?lang=en

Gartner prevê o fim do big data. Postado em maio de 2014. URL: http://essenceit.com/gartner-preve-o-fim-do-big-data/

Barbieri, Carlos. BI2-Big Data- Parte V- Movimentos do mercado. Postado em 2011. URL: blogdobarbi.blogspot.com

Harada, Eduardo, Update de API vai fazer YouTube parar de funcionar em alguns dispositivos. Postado em abril de 2015. URL: http://www.tecmundo.com.br/youtube/78635-update-api-fazer-youtube-parar-funcionar-dispositivos.htm

Tiago Cruz França, Fabrício Firmino de Faria, Fabio Medeiros Rangel,

Claudio Miceli de Farias e Jonice Oliveira. Big Social Data: Princípios sobre Coleta, Tratamento e Análise de Dados Sociais. Postado em 2014. URL: http://www.inf.ufpr.br/sbbd-sbsc2014/sbbd/proceedings/artigos/pdfs/127.pdf

Arquitetura e Padrões de Big Data, Parte 3: Entendendo as camadas de arquitetura de uma solução de big data. Postado em 2014. URL: http://www.ibm.com/developerworks/br/library/bd-archpatterns3/

Zlocowski , Alexis. Como o big data muda o modelo de negócio das instituições financeiras. Postado em 2013. URL: http://corporate.canaltech.com.br/noticia/big-data/Como-o-big-data-muda-o-modelo-de-negocio-das-instituicoes-financeiras/

Revistas CIAB FEBRABAN – 2013 – Edição 46 e 47

Revistas CIAB FEBRABAN – 2014 – Edição 52 e 53

Pesquisa Anual FEBRABAN – Edição 2012