Vamos falar do Bendito Big Data

Por favor, considere que este artigo é escrito a partir da visão dos DBAs. O que não é importante para um tipo de profissional, é importante para outro (sei lá, talvez o cara do Marketing).

Temos quatro grandes modas no momento, em TI: Cloud Computing, Social Media, Mobile, e Big Data.

Social Media e Mobile realmente são grandes mudanças em nossa vida. Mas são mudanças que afetam muito menos os DBAs do que Cloud e Big Data.

Eu já falei aqui sobre Cloud Computing, e agora será a vez do Big Data. Pelo menos, ao contrário do Cloud Computing (que nada mais é do que reciclagem dos conceitos de Hosting e Virtualização), o Big Data existe. Mas não tanto assim.

Os Posts, Artigos e afins estão muito, MUITO exagerados sobre o Big Data. Eu me lembro muito bem de um Tweet da IBM, que dizia que os dados seriam mais importantes para a humanidade do que água potável. E a Information Week disse que “Em dois anos 25% das empresas adotarão Big Data”. Não, não vão.

Quem já está em TI a mais de uma década, ou mesmo duas, já viu muitas dessas modas. As modas tem seu papel no mundo dos negócios, ajudam a impulsionar as vendas de todo tipo de equipamento e programa. Nós, técnicos, temos que aprender a reconhecê-las e não nos assustar com elas.

Seguem abaixo algumas modas de que eu me lembro, e a impressão que os “Analistas” nos davam a respeito:

– Banco orientado a objetos: Esqueçam tabelas, colunas e linhas, isso é coisa do passado, é um pensamento retrógrado. E lá vão todos bancos relacionais implementar funcionalidades para orientação a objetos, funcionalidades estas que quase ninguém usa.
– XML: quando surgiu, ouvíamos que TUDO seria em XML, tudo mesmo. Bancos de Dados relacionais só tratariam de XML. Ou você dominava XML, ou já era, estava fora do mercado. Arquivos txt nunca mais seriam vistos. E toca todos os bancos de dados relacionais incorporarem funcionalidades para ler, gravar e armazenar XML, funcionalidades estas que quase ninguém usa.
– Java: todas linguagens de programação irão desaparecer, e tudo será em Java. Me lembro muito bem do exemplo que foi muito falado, que logo nossa geladeira terá Java, e quando acabar o leite, o Java irá pedir mais para o supermercado mais próximo. Isso não aconteceu até hoje, mas não por culpa do Java, mas porque (hoje vemos) que era uma ideia boba. Java realmente foi uma revolução, é um conceito esplêndido, mas quero mostrar o exemplo do exagero à época. A grande consolidação do Java foi após sua divisão em 3 plataformas (Java SE, Java ME e Java EE), e a maior fatia do desenvolvimento corporativo foi para a Web (Java EE), e menos nos pequenos dispositivos. Hoje com os Smartphones, a tecnologia ajuda muito na portabilidade de aplicações.
– Green Computing, cuja tecnologia fundamental era a Virtualização (esta sim uma revolução de respeito, como o Java). Acho que essa moda chegou logo depois daquele documentário “Uma Verdade Inconveniente”. Tudo tem que ser verde, utilizar pouca energia, ou os negócios ruirão, não conseguirão se manter. Eu me lembro de anúncios da Oracle com o banco todo verdinho, coisas assim. O Google lançou uma página principal preta, para que os monitores utilizassem menos energia (alguém mais lembra disso?). Embora energia seja um fator importante da redução de custos, sofremos até hoje com servidores de banco com o processador em modo de economia de energia. Cara, se não for fritar minha CPU, quero que meu servidor de Produção use toda CPU que puder.
– Spatial: Tudo será Spatial, tudo dependerá de Spatial. Spatial realmente existe, mas também é bem raro de se encontrar. Eu só conheço duas pessoas que trabalham com isso. E toca todos os bancos de dados relacionais implementarem Spatial.
– NoSQL (que é uma tecnologia fundamental do Big Data): pode vender suas ações da Oracle, ela vai quebrar totalmente. SQL é coisa do passado, é uma tecnologia que não escala, a solução é o NoSQL. NoSQL tem sim suas aplicações, e muitas, Mas de forma alguma substituem os bancos de dados relacionais.
– E finalmente, BigData.

Certo, então Big Data está dominando o mundo. Não, já dominou. Aprenda ou passará fome. Ok, então quantas pessoas você conhece que trabalham com Big Data? Certamente o mesmo número de pessoas que você conhece que ganhou na TeleSena: uma ou duas, ou mais provavelmente nenhuma.

Um dos problemas é que o pessoal confunde Big Data com um “simples” BI (Business Intelligence): “Ah, Big Data é a análise em tempo real de um grande volume de dados, para tomada de deciões de negócio”. Cara, você acabou de falar a definição de BI.

Big Data é BI, mas daqueles dados que antes não eram importantes: BI é sobre Notas Fiscais, Big Data é sobre horário, forma e localização do logon, por exemplo. E por consequência, estes dados são muitos. E alguns desses dados vem do Social Media, e do Mobile. Daí, a tempestade perfeita de modas.

Antes do CIO partir para o Big Data, deve verificar se sua empresa já chegou no BI.

As pessoas mais geniais de nosso tempo devem estar sim trabalhando com Big Data, mas apenas para nos vender porcarias. Ou o Big Data é utilizado para Marketing, ou para estudo do Genoma Humano, estrutura do cérebro, estrelas cadentes, etc. Ou seja, por poucas empresas / instituições.

Ao invés de se preocupar com o Big Data, os DBAs deviam se preocupar antes com a disponibilidade, desempenho e recuperabilidade do “Small Data”, que pelo o que eu vejo por aí, anda uma porcaria.

Enfim, algumas modas existem, mas são muito exageradas em sua imposição como um dominador fato consumado, e não como o que são: nichos de mercado.

Enquanto isso, muitas horas foram gastas implementando estas funcionalidades em bancos de dados relacionais, quando poderiam ter sido investidas em outra coisa mais importante para este tipo de tecnologia.

E finalmente, lembre-se: até o COBOL continua por aí…

11 comments

  1. Concordo Ricardo, muitas empresas estão sedentas por BIG DATA sem nem saber o que é ou para quê serve, vale lembrar que o BIG DATA nem sempre está ligado ao volume de dados em BYTES mas sim à sua dimensionalidade, ex.: Uma tabela com 80 colunas e 10 linhas possui 10^80 possibilidades de análise, mais ou menos a quantidade de átomos do universo.

    Dá pra fazer muita coisa com o conceito de “BIG DATA”, fiz uma especialização no assunto e busco aplicações no mundo real que vão além de análise de Stream de Twitter ou implementação de MAP REDUCE (hadoop) para contagem de palavras/processamento de log mas até hoje não achei nenhuma aplicação para “Clientes do mundo real” que um BI padrão já não resolveria (isso quando uma tabela dinâmica do excel não não dá conta do recado), enfim, falta ainda começarmos do começo antes de sairmos comprando soluções mirabolantes para “BIG DATA”.

    Claro que os grandes da indústria já utilizam esses conceitos em suas aplicações, é o que está por traz por exemplo nas recomendações de amigos do Facebook ou na “quase mágica” recomendação do Netflix, por traz existe uma ciência da redução dimensional, como você bem colocou “nichos de mercado”.

    Deivid .

    1. Foi muito importante seu comentário Deivid (só depois dele me lembrei de falar também de dados não estruturados). É um relato real do que eu imaginei que acontecia. O conceito é incrível, as tecnologias idem, dá para fazer muita coisa com isto, mas é difícil achar um caso aplicável e com retorno, mesmo em grandes empresas.

      Nada a ver, mas me lembrei também agora de outra moda, em que eu acreditei como um patinho: Web Commerce. Adeus Casas Bahia, Livraria Cultura, ou qualquer outra loja que tenha tijolos. E o resultado? Uma grave bolha que trouxe uma grave crise no mundo todo.

  2. Portilho, escreveu muito e falou tudo ,sempre pensei que Cloud fosse uma nova palavra para conceituar serviços de hosting e virtualização.
    Concordo plenamente o Big Data é puro produto de marketing,pra mim não passa de um BI disfarçado e apresentado com um nome bacana pelos os caras do Marketing .
    Por falar em moda ,não sei se essa vai pegar ,vamos lá: Banco de Dados em Memória,a SAP lançou isso ,a Oracle pra não ficar pra trás também lançou,teremos relatórios em tempo real vindo de sistemas OLTP,você acredita nisso ?Como são Tomé só acredito vendo.
    Parabéns pelo excelente artigo !!!

    1. Acho que o InMemory, embora seja muito aumentado pelo Marketing, é mais possível hoje sim, com muito mais memória disponível. Em compensação, os bancos de 10TB são comuns hoje em dia, haja memória para caber tudo isso.
      Mas, mesmo em memória, uma aplicação pode ser lenta. Nada substitui o Tuning de Design, Instance e Código. Por exemplo, já está acontecendo, como aconteceu com Oracle RAC, que os clientes estão descobrindo que Exadata não resolve completamente qualquer problema de desempenho, como a Oracle vende. Vi um caso extremo onde o problema do cliente eram Locks, colocou o Exadata, e está “um pouco melhor” apenas.

  3. Boa noite!

    Parabéns, muito boa sua visão. Gostaria apenas de acrescentar que a grande chave da questão não é o Big Data em si. O Big Data nada mais é do que um conjunto de tecnologias e protocolos trabalhando em conjunto para suportar o armazenamento e consulta de um grande volume de dados (estruturados e não-estruturados) gerados por máquina, aplicações, sensores..

    A questão principal é método para extrair e correlacionar esse grande volume de dados para resolver problemas e auxiliar na tomada de decisão. Aí que entra o Analytics, a disciplina de análise quantitativa. O Big Data só faz sentido se trabalhado em conjunto com esse nova disciplina. É nesse ponto que os CEOs, sedentos por novas oportunidades devem se forcar. Encontrar pessoas com esse tipo de capacitação será o grande desafio das empresas.

    Abs.,

    1. Excelente comentário Roberto, obrigado.
      Realmente são dois pontos distintos de implementação: o armazenamento e a extração.

  4. “Ao invés de se preocupar com o Big Data, os DBAs deviam se preocupar antes com a disponibilidade, desempenho e recuperabilidade do “Small Data”, que pelo o que eu vejo por aí, anda uma porcaria.”

    Perfeito.

Leave a Reply

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.