sexta-feira, 25 de novembro de 2016

Hadoop – Instalando o Cloudera QuickStart VM

Distribuição Hadoop

Pacote integrado com componentes da plataforma Hadoop customizado por várias empresas para atender as necessidades de diferentes organizações.


Cloudera

Empresa fundada em 2008 por um grupo de engenheiros da Yahoo, Google e Facebook. É pioneira no desenvolvimento e distribuição de softwares baseados em Hadoop Apache e é a fornecedora da CDH (Cloudera Distribution Hadoop).

CDH (plataforma de código aberto da Cloudera) usa o Hadoop como base e agrega ao projeto original Apache algumas melhorias. Entre as melhorias podemos destacar o Cloudera Manager que é um sistema amigável de gestão  que apresenta toda a estrutura do pacote de forma organizada.

A Cloudera é líder de mercado, fornece uma versão gratuita para download e uma paga e adicionalmente disponibiliza os serviços de consultoria, suporte, manutenção e treinamento.


Instalação da versão Cloudera QuickStart VM

Cloudera QuickStart VM => Versão ideal para auto-aprendizagem.

Passo 1

Fazer download no link abaixo:

http://www.cloudera.com/downloads.html

Selecione o download do QuickStarts.

















Passo 2

Na próxima tela selecione a versão “QuickStarts for CDH 5.8” e escolha a plataforma desejada (no nosso caso utilizaremos a Virtual Box).



















Passo 3

Clique no botão:






Passo 4

Preencha os dados solicitados na tela abaixo e clique em "CONTINUE":
























Passo 5

Leia e aceite os termos e clique em “SUBMIT”.
























O download será iniciado...


Passo 6

Após termino do download faça a descompactação do arquivo abaixo:

cloudera-quickstart-vm-5.8.0-0-virtualbox.zip


Arquivos descompactados:







domingo, 6 de novembro de 2016

Enquanto isso, a menina que só quer saber de brincar...

- Mamãe, olha que tirinha legal que o Henrique me mostrou. Adorei!














Impressora 3D – Construindo uma Prusa Mendel i3 - Parte 1

Projeto executado e adaptado por: Willian Hofner

Ajudante: Lara Almeida Hofner

Introdução

Modelo: Prusa Mendel i3

Prusa Mendel i3 é a versão open source construída com componentes mdf, peças de plástico, parafusos, arruelas e porcas. Ela utiliza 5 motores NEMA 17.



Construindo a parte mecânica - Y-axis assembly

1 - Heated bed mount

Componentes:


- Heated bed mount
- Y Belt Holder
- 3x Linear bearing LM8UU 
- 2x M3x14 mm screw
- 2x Ø3 mm washer
- 2x M3 nut














2 - Transverse parts

Componentes:

- 4x Y Corner
- Y Idler
- Y Motor
- 1x Ball bearing 608
- 4x Threaded rod M10x210 mm
- 22x M10 nut
- 22x Ø10 mm washer
- 1x M8x30 mm screw
- 1x M8 nut
- 2x Ø8 mm wahser
- 1x M4x20 mm screw
- 1x M4 nut 


Passo 1




Passo 2












Passo 3














Passo 4











Passo 5














3 - Assembly with the longitudinal parts

Componentes:

 - Heated bed mount assembly
- Transverse parts
- 2x Smooth rod Ø8x350 mm
- 2x Threaded rod M10x380 mm
- 12x M10 nut
- 12x Ø10 mm washer

Passo 1












Passo 2



















Passo 3


















Passo 4


















4 - Dicas

As peças acima foram adquiridas em lojas de parafusos, no site mercado livre e no aliexpress.







Hadoop - Comandos Hadoop - Parte 1

Comandos básicos Hadoop

















Ícone a ser clicado no menu superior da tela da distrubuição Cloudera.


A partir daí é só escrever os comandos após o prompt.














Comandos básicos Hadoop:

hadoop fs –ls /<diretório>

Lista os arquivos.









hadoop fs –du /<diretório>


Mostra a quantidade de bytes total dos diretórios

















hadoop fs –mkdir /< diretório>

Cria uma estrutura de diretório no cluster.














wget <url>

Busca dados na web.






hadoop fs –rm /<arquivo>

Remove arquivo no cluster.






hadoop fs –cp /<origem> /< destino>

Copia arquivo de um cluster para outro.








hadoop fs –cat /<arquivo>

Verificando o conteúdo de um arquivo texto.





sábado, 5 de novembro de 2016

Hadoop - Conceitos Básicos

1 -  Introdução


É um framework de softwares open source para o armazenamento e processamento de grandes massas de dados de forma distribuída.

Não substitui os sistemas tradicionais pois a sua função é analítica, sendo mais indicado para operações onde se escreve uma única vez e se lê várias vezes.

Ele usa o conceito de DIVIDIR PARA OTIMIZAR.

O nome Hadoop tem como origem o nome do elefante de pelúcia do filho de Doug Cutting (criador do Hadoop).




2 – História

2002   – Primeira biblioteca Map Reduce na Google
2003   - Artigo sobre GFS
2004   - Artigo sobre Map Reduce
2005   - MR e DFS no Nutch é implementado por Doug Cutting
2006   - Hadoop se torna um projeto oficial da Apache
2007   - Yahoo roda Hadoop em um cluster de 1000 nós
2008   - Hadoop se transforma no projeto principal da Apache
2011   - Apache disponibiliza a versão Hadoop 1.0.0


3 - Características

Escalável    

            - Pode armazenar e processar petabytes;

Econômico   

            - Distribui os dados e o processamento através dos clusters;

Confiável    

- Mantém múltiplas cópias dos dados e remaneja as tarefas em caso de falhas;

Eficiente    

- Processa os dados paralelamente por meio de nós, onde os dados estão alocados.


4 – Núcleo

O núcleo do hadoop é composto por:
           
Hadoop Common

Gerencia os processos internos do hadoop de forma transparente para os usuários. Exemplos de processos:
                                  
- Paralelização automática;
           - Balanceamento de carga;
           - Otimização nas transferências de disco e rede;
           - Tratamento de falhas;
           - Escalabilidade;

HDFS – Hadoop Distributed Filesystem

Sistema de arquivos distribuídos responsável pelo armazenamento de grande volumes de dados.

Projetado para hardware de baixo custo e com tolerância a falhas e recuperação proporcionada pela replicação;

Os arquivos são quebrados em blocos que variam de 64 mb a 256 mb e distribuídos pelos clusters do hadoop.

MapReduce

Modelo de programação que permite o processamento de grandes quantidade de dados de forma paralela e distribuída.


5 – Ecossistema

O Hadoop é composto por um conjunto de aplicações que trabalham em conjunto para armazenar e processar, em tempo hábil, grandes volumes de dados de diversos formatos e estruturas.

Essas ferramentas utilizam inteligência artificial, machine learning, técnicas estatísticas e muitos outros recursos de computação avançada para gerar insights importantes para as empresas.

Exemplos de ferramentas: HBase, Sqoop, Kafka, Flume, Spark, Avro, Pig, Zookeeper, Hive, entre outros.



6 – Distribuições

Algumas empresas empacotam os componentes do Hadoop com combinações variadas e fornecem uma estrutura integrada do produto.

Além de fornecerem as distribuições integradas, estas empresas costumam oferecer software proprietário, apoio, serviços de consultoria e treinamento.



Exemplos de distribuições Hadoop:

            Hortonworks
            Cloudera
            MapR
            Elstic MapReduce (EMR)
            Amazon Web Services (AWS)
            Pivotal Software
            IBM
            Microsoft
            Teradata



Bibliografia