Discuta este tópico no fórum

Se este conteúdo te ajudou, deixe um presente!

sexta-feira, 21 de dezembro de 2012

OpenWRT: Instalação básica com vídeo

A pedidos, fiz um primeiro vídeo mostrando uma ideia de como ocorre a instalação de um OpenWRT, as perguntas que precisam ser respondidas durante o processo e uma configuração básica da rede sem fio.

Não é direcionado para usuários que já usam o OpenWRT.


O audio ficou um pouco ruim mais para o final porque movimentei o microfone. Na próxima vez prometo que vai ficar melhor.

Os próximos artigos serão mais interessantes, relativos a problemas que vou resolver aqui em casa:

  • Usando o roteador como servidor de armazenamento com samba e um HD USB;
  • Usando o roteador como um media server;
  • Usando o roteador para baixar torrents;
  • Testes com a nova versão do multiwan mwan3 (a pedidos);
  • Portal de autenticação para usuários (a pedidos);
Estarei "offline" nas próximas semanas e devo escrever sobre estes assuntos mais para o final de janeiro.

Até a próxima. Feliz Natal e Bom Ano Novo!

PS: O mundo realmente não acabou?

terça-feira, 20 de novembro de 2012

OpenWRT: Problemas com o TP-Link TL-MR3420

Mais de duas pessoas entraram em contato comigo para tentar resolver problemas com o roteador TL-MR3420 da TP-Link. O que sempre recomendo é entrar no modo de recuperação. Para quem utiliza firmwares do tipo squashfs, este recurso é uma bênção. Porém, por alguma razão antes desconhecida por mim, nenhum deles conseguiu ativar o modo de recuperação. Uma vez, culpe o usuário. Duas, o desenvolvedor.

Investigando um pouco melhor, entrei no artigo da wiki do OpenWRT sobre este roteador. E encontrei este aviso logo na abertura:
The failsafe function is not working at launch time, serial is also unfriendly: Stick to trunk. More...
Isto referenciando a versão backfire 10.03.1, a última estável e que a maioria usa. Bem, isto quer dizer que quem possui qualquer versão atualmente estável do OpenWRT neste roteador não poderá utilizar o modo de recuperação.

A correção ocorreu neste patch, mas isto foi tarde demais para a versão lançada. Basicamente, o problema ocorreu com o nome dos botões "Reset" e "QSS". Por não achar os botões no processo de iniciação do roteador, eles não podem ser utilizados para acionar o modo de recuperação.
Sempre é importante ler a documentação do seu modelo na wiki do OpenWRT. Cada modelo possui suas peculiaridades e é importante conhecer os pontos fracos e problemas de compatibilidade com o seu roteador antes de instalar o OpenWRT pela primeira vez.
Bem, o que eu posso fazer, então? Depende da sua situação.

Se ainda está pensando em usar o OpenWRT para este roteador, sugiro que espere o lançamento da versão "12.09", que já está em beta2. Logo teremos uma versão estável.

Se estiver já com o OpenWRT funcionando e em uma versão 10.03.1 ou inferior, procure não alterar configurações críticas como firewall, interfaces de rede, VLAN, até o lançamento e atualização da nova versão.

Para os mais corajoso (ou malucos como eu), você também pode ajudar a melhorar a próxima versão do OpenWRT. Instale agora mesmo a versão beta2 e ajude a encontrar os bugs. Ao menos o "modo de recuperação" deve funcionar sem problemas.

Caso você já esteja na situação onde o roteador não está funcionando por algum problema de configuração, resta apenas a alternativa da recuperação pela serial. Com a serial, você poderá interagir com o seu roteador assim como já fazia com uma conexão SSH. Isto é suficiente para recuperar casos pontuais como problemas na configuração de rede ou firewall. Se ainda funciona os comando básicos, você pode também solicitar que todas as configurações sejam apagadas.

Caso o problema seja mais grave, como ter apagado metade dos arquivos, também é possível acionar o "modo de recuperação" por comandos na serial. É o mesmo mecanismo que funcionaria com os botões se estes estivesse configurados corretamente. As mensagens durante o boot vistas pela serial indicarão o momento para se manisfestar e ativar o modo de recuperação.

Os modelos TL-MR3420 com problema já devem estar funcionando com os procedimentos anteriores. Porém, com a serial funcionado, vale a pena citar mais uma funcionalidade. Em casos mais extremos, é possível gravar uma nova imagem interagindo diretamente com o gerenciador de boot (UBoot). Enviando comandos pela serial, podemos solicitar ao roteador que carregue uma nova imagem pela rede (via TFTP) e grave na memória. Mesmo se não possuir rede, é possível enviar a firmware pela serial pelo protocolo kermit (já fiz e realmente funciona). Neste caso, o processo é mais demorado do que o TFTP mas pode ser necessário se seu computador não possui uma interface Ethernet cabeada.

Alguns roteadores, não os modelos da TP-Link, já estão configurados para mais uma forma de recuperação mais "simples", em especial para a situação de firmwares defeituosos gravados. "simples" por não precisar de uma serial mas as vezes mais complicada por envolver tempos definidos e configurações de rede rígidas. Nestes roteadores, o gerenciador de boot aguarda o envio da firmware, por TFTP, em um espaço curto de tempo durante a iniciação. Se receber, gravam no roteador. Se não, seguem normalmente o processo. Contudo, novamente, tudo isto depende de cada roteador.

Boa sorte aos colegas com problemas e tentarei ajudar no que eu puder para recuperá-los. Só garanto uma coisa: depois de recuperar o roteador usando a serial, você não terá mais medo de alterar qualquer coisa no roteador e de gravar qualquer firmware.

segunda-feira, 15 de outubro de 2012

Transformando partições para RAID1

Armazenamento é uma questão crítica para grande partes dos serviços. Uma das falhas comuns no armazenamento de dados em computadores é a falha nos dispositivos de armazenamento, principalmente quando se trata de um disco com partes móveis. Uma técnica clássica de mitigar este tipo de problema é a utilização de RAID (Redundant Array of Inexpensive Drives).

Existem diversas combinações de arranjo de discos, RAID1, RAID5, RAID6, e combinações, que buscam manter a integridade dos dados mesmo na eventual falha de discos. Neste artigo, não vou entrar em detalhes sobre cada uma das técnicas, apenas dizer que o RAID1 (mirroring), espelha todos os dados em ambos os discos.

Para pobres mortais que não possuem o suporte a RAID em Hardware, a solução é utilizar os recursos do Linux para prover a segurança. Basicamente será utilizado apenas o comando mdadm, responsável por toda a gerência de RAID em software no Linux. Neste artigo, vou mostrar como montar um RAID1 a partir de uma partição com dados, sem a necessidade de copiar os dados de um lado para outro.

O mdadm cria um dispositivo MD que agrupa os diversos discos. Por exemplo, ao juntar as partições sda3 e sdb4 em um RAID1, você terá um md0 com um tamanho igual ao menor dos discos (na verdade, ligeiramente menor do que isto, mas vemos isto mais adiante):
mdadm --create /dev/md0 --level 1 /dev/sda3 /dev/sdb4
Você não mais irá acessar os dados em sda3 ou sdb4, apenas em md0. O dispositivo md0 pode ser usado como uma partição/disco normal, criando sistema de arquivos e montando para uso.

O mdadm assume que ambas as partições não possuem dados importantes e, portanto, nada precisa ser mantido. No meu caso, quero manter os dados em um dos discos.

O primeiro passo para entender a gamb...técnica é compreender como são mantidos os metadados do disco RAID. Os metadados armazenam informações como data da última alteração no disco, dispositivos participantes. No Linux, este metadado pode ser volátil,  e portanto, perdido a cada parada, ou embutido na partição/disco do RAID em um superblock.

Quando os metadados são voláteis, cada disco terá, bit a bit, os mesmos dados mostrados. No exemplo anterior, todos os bits em /dev/md0 estarão na mesma sequência que em /dev/sda3  e /dev/sdb4. Isto traz alguns problemas como a possibilidade de montar inadvertidamente um dos discos e corromper os dados. Não existe qualquer controle de alteração, ficando a cargo do administrador proteger os dados quanto a alterações fora do RAID. Também, para RAID com diversos discos, caso o arquivo de configuração seja perdido, será uma tarefa possivelmente complicada identificar o papel de cada disco no RAID (exceto para o RAID1 onde todos armazenam a mesma função).

A solução mais indicada segura para armazenar os metadados é mantê-los em um superblock embutido na partição/disco. Existem atualmente 4 formatos deste superblock:
  1. versão 0.90
  2. versão 1.0
  3. versão 1.1
  4. versão 1.2
A primeira versão, 0.90 está em desuso e é indicada apenas para casos especiais onde o gerenciador de boot não reconhece os novos formatos (grub2 trabalha com LVM e RAID sem problemas). Esta versão também possui outros limitadores como o tamanho máximo do disco e o número de dispositivos. Em geral, as versões mais novas são mais indicadas.

A versão padrão em ambientes atualizados é a 1.2. A diferença entre as versões 1.x está basicamente na posição do disco onde este metadado será armazenado. A primeira, 1.0 fica no final do disco/partição. A versão 1.1 logo no início do disco/partição e a versão fica 4k de distância do início do disco.

Voltamos ao problema em questão de transformar um disco não RAID para RAID1. A posição onde ficará o metadado possui dados do sistema de arquivos. Precisamos liberar estes blocos antes da criação do RAID. Para as versões 1.1 e 1.2, isto seria no começo do disco. Porém, seria necessário liberar um pedaço no final do disco e deslocar todos os dados para poder utilizar o começo do disco. O mais simples seria utilizar a versão 1.0 e liberar a porção final do disco. Felizmente, isto não é um problema no Linux. Os sistemas de arquivos podem ser redimensionados com simples comandos.

Inicialmente temos a seguinte situação:

+---------------------------------------------------+
|     sda1    |               sda2                  |
+.............+.....................................+
|     ext3    |               ext3                  |
+---------------------------------------------------+

+---------------------------------------------------+
|                       sdb                         |
+...................................................+
|                                                   |
+---------------------------------------------------+

O disco sda possui duas partições, ambas com sistema de arquivos ext3 e ocupando todo o espaço da partição. O disco sdb não possui qualquer partição. Vamos primeiro liberar o espaço para o metadado na partição sda2. O metadados é pequeno mas, por garantia, pode ser liberado umas dezenas de megabytes do sistema de arquivos. No pior dos casos, libere todo o espaço disponível. Ao final do processo, este espaço será recuperado. Para saber quanto é o mínimo, tente reduzir o tamanho para 1 bloco. Ex:
# resize2fs /dev/sda2 1
resize2fs 1.41.9 (22-Aug-2009)
resize2fs: New size smaller than minimum (54176)
Na sequência, escolha um valor mais apropriado, maior ou igual ao mínimo. Ex:
# resize2fs /dev/sda2 54180
O comando provavelmente solicitará a execução do fsck antes do processo. Ao final do processo, teremos:

+---------------------------------------------------+
|     sda1    |               sda2                  |
+.............+.....................................+
|     ext3    |        ext3    :         livre      |
+---------------------------------------------------+

+---------------------------------------------------+
|                       sdb                         |
+...................................................+
|                      livre                        |
+---------------------------------------------------+

É importante lembrar que a partição continua com o mesmo tamanho. Apenas o sistema de arquivos foi reduzido. 
Nota: Para os antigos usuários do Partition Magic, ele fazia as duas tarefas: reduzia o sistema de arquivos e a partição. 
Agora, criamos o RAID1. Iremos utilizar o metadado 1.0, que ocupará a parte do espaço livre liberado no passo anterior:
# mdadm --create /dev/md0 --metadata 1.0 --level=1 --raid-devices=2 /dev/sda2 missing
Ele alertará que existe um sistema de arquivos nesta partição. Ignore o aviso. Após este passo, você já terá o dispositivo RAID pronto, mas com apenas um disco. O "missing" no comando anterior informou que um dos discos está ausente. Você pode ver a situação de seu dispositivo em /proc/mdstat:
# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sda2[0]
      208884 blocks super 1.0 [2/1] [U_]
           
unused devices: <none>
O símbolo "_" em "[U_]" indica que apenas um dos dois dispositivos deste RAID estão em operação/presentes.

E o disco ficou desta forma:

+---------------------------------------------------+
|     sda1    |               sda2                  |
+.............+.....................................+
|     ext3    |     ext3       : livre  :  metadado |
+---------------------------------------------------+

+---------------------------------------------------+
|                       sdb                         |
+...................................................+
|                      livre                        |
+---------------------------------------------------+

Agora o espaço livre após o sistema de arquivos e antes do metadado pode ser recuperado. Porém, isto deve ser feito já no disco RAID e nunca no dispositivo original sda2! Basta reexecutar o resize2fs sem definir o tamanho para ele ocupar todo o espaço disponível:
# resize2fs /dev/md0
E o disco ficará:

+---------------------------------------------------+
|     sda1    |               sda2                  |
+.............+.....................................+
|     ext3    |           ext3          :  metadado |
+---------------------------------------------------+

+---------------------------------------------------+
|                       sdb                         |
+...................................................+
|                      livre                        |
+---------------------------------------------------+


Para completar o RAID1, basta adicionar as partições/discos espelhos:
mdadm --manage /dev/md0 --add /dev/sdb
OBS: Coloquei intencionalmente um disco inteiro como exemplo que é possível combinar partições e discos mas também seria possível particionar o disco sdb e utilizar uma de suas partições para o comando anterior:
Neste ponto, o disco já estará em processo de sincronia. Acompanhe pelo arquivo /proc/mdstat. Sugiro utilizar o comando watch:
watch cat /proc/mdstat
O layout final ficará:

+---------------------------------------------------+
|     sda1    |               sda2                  |
+.............+.....................................+
|     ext3    |           ext3          :  metadado |
+---------------------------------------------------+

+---------------------------------------------------+
|                       sdb                         |
+...................................................+
|           ext3          :  metadado :    livre    |
+---------------------------------------------------+

O espaço livre ao final de sdb é devido ao fato de que sdb é maior do que a partição sda2. Se este for seu caso, o disco sdb poderia ser dividido em partições, sendo uma do tamanho exato da sda2. Assim, o restante do disco poderia ser utilizado para outras partições com dados diversos.

Seu disco está pronto para uso. Se o sda2 estava em uso, lembre de retirar qualquer configuração de montagem deste disco (em /etc/fstab) antes de reiniciar o computador. Porém, é possível que este RAID não seja "ligado" automaticamente quando o sistema for reiniciado.

Em algumas distribuições, todos os RAID encontrados serão ligados. Porém, em outros casos, por cautela dos desenvolvedores, é necessário explicitamente indicar o que o administrador deseja. Isto depende de cada distribuição. Para OpenSUSE/SLES, crie o arquivo /etc/mdadm.conf, se não existir, e inclua uma linha como esta:
ARRAY /dev/md0 UUID=2de1a56d:717ce2cc:231893bb:4e44f123
O UUID é diferente para cada RAID e pode ser encontrado executando o comando:
mdadm --detail /dev/md0
Ative o serviço boot.md (provavelmente outro nome em outras distribuições):
chkconfig boot.md on
Reinicie o sistema para testar sua configuração.


Em sistemas modernos, a montagem direta de dispositivos que formam o RAID (como a sda2 e sdb) irá falhar por causa das verificações de proteção do sistema de arquivos.

Caso seja necessário retornar ao estado original:
  1. Remova a configuração do disco no /etc/fstab e no /etc/mdadm.conf
  2. Pare o RAID: mdadm --stop /dev/md0
  3. Zere os metadados: mdadm --misc --zero-superblock /dev/sda2
    1. Isto para cada dispositivo que participava do RAID
  4. Recupere o espaço usado pelo superblock
    1. resize2fs /dev/sda2
Happy hacking!

terça-feira, 3 de julho de 2012

Instalação de Linux (antigo) em discos GPT

Nos percalços da administração de sistemas, encontrei um problema interessante para resolver. Precisava instalar um RHEL 5.8 em um servidor com 6 discos de 600MB em RAID 5.  Fácil? Nem tanto. Vamos aos problemas.

Em uma configuração de RAID 5, um dos discos é usado para paridade. Neste caso, temos 5x600MB ou 3TB de espaço líquido. Como o RAID é implementado por uma controladora, o processo é mais simples. Tudo é apresentado transparentemente para o sistema operacional como um disco único de 3TB. Porém, justamente este é o problema.

Normalmente é utilizado nos discos uma tabela de partição no formato DOS, aquela com MBR, 4 partições primárias, partições estendidas. Contudo, este formato desenvolvido na época dos Megabytes não lida muito bem com o mundo dos Terabytes. O tamanho máximo representável de disco é de 2.2 TB. No meu caso, tenho 3 TB. E agora José? A solução curta e grossa é dividir os discos em 2 RAID 5, cada um com 3 discos. Porém, neste caso, eu perderia 2 discos e não 1 com paridade. Como sempre, alguém já encontrou uma solução: um novo formato de partições chamado de "GUID Partition Table", ou para os mais íntimos, GPT.

O formato GPT faz parte do padrão (U)EFI que busca substituir a BIOS hoje presente na maioria dos computadores. Os servidores e sistemas operacionais mais novos suportam estes padrão. Bem, ai chegamos a outro problema. O RedHat Enterprise Linux (RHEL) versão 5.8 não suporta UEFI para ambientes x86. Se fosse na versão 6, o suporte é nativo. Como isto é um requisito do projeto, preciso resolver ainda com o RHEL v5.8.

O primeiro passo foi investigar o que cada componente deste ambiente suporta que recurso. Cheguei a este resultado:
  • Servidor:
    • Suporta BIOS e UEFI
    • Suporta GPT tanto em BIOS como UEFI
Isto já é um ótimo começo. O uso do UEFI não é requisito para a BIOS usar discos GPT. Quanto ao RHEL v5.8:
  • RHEL
    • Grub (gerenciador de BOOT)
      • Suporta somente formato DOS
    • Kernel
      • Suporta GPT mas não EFI
    • Ferramentas
      • Exceto o fdisk, suportam GPT e DOS
Tanto o grub quanto o kernel não suportam EFI. O grub nem mesmo suporta o GTP. Buscando um denominador comum, podemos utilizar o modo BIOS, disco com GPT mas empacamos no gerenciador de BOOT (obs: grub2 suporta GPT). A BIOS pode ler o gerenciador de BOOT, ele roda mas não encontra seus arquivos. Se conseguisse carregar o kernel e o INITRD, o problema estava resolvido. Precisamos, portanto, de alguma alternativa de BOOT ou alguma bruxaria para fazer o grub funcionar.

A primeira alternativa mais simples é utilizar um disco DOS para armazenar os arquivos do grub. Isto seria o diretório /boot. Nos meus testes, utilizei um pendrive e durante o processo de instalação configurei o /boot para usar o pendrive utilizando o formato DOS. Instalação sem problemas do início ao fim. Sistema iniciou e desligou sem erros. Mas este pendrive não ficou muito interessante... e se alguém retirar o pendrive? Só irei notar a falta dele quando reiniciar o servidor e aí, já é tarde.

Buscando mais alternativas para casos similares, encontrei o caso de máquinas MacBook, que usam UEFI e GPT, e onde era instalado o Windows XP. O GPT, para evitar problemas com softwares particionadores antigos, mantém uma tabela de partição no formato DOS. O primeiro setor do disco possui uma configuração de uma partição que ocupa toda a extensão do disco e do tipo "GPT EFI". O fdisk, que não suporta GPT, mostra esta informação. Note que o primeiro setor usado é o 1 e não o 63 como em discos DOS convencionais.

# fdisk -u -l

WARNING: GPT (GUID Partition Table) detected on 'sda'! The util fdisk doesn't support GPT. Use GNU Parted.                                     
(...)                                                                                            
                                                                                                                                              
Device Boot      Start         End      Blocks   Id  System                                                                                  
  sda1               1  4294967295  2147483647+  ee  GPT  
O grub, e outros que não suportam GPT, também busca a informação onde estaria a MBR de um disco em formato DOS. A solução é (ab)usar desta configuração para informar ao grub onde ele poderia encontrar a partição /boot e seus respectivos arquivos. Isto é chamado de MBR híbrida, por conter informações do GPT e os dados de algumas partições ainda em formato DOS.

Agora, é necessário editar a tabela de partição da MBR e colocar as informações necessárias. Tentei utilizar o fdisk mas ele acabou destruindo todas as partições GPT, que tive que caçar bits para recriá-las. Googlando mais um pouco, encontrei o projeto GPT fdisk. Este projeto busca implementar um fdisk para formato GPT e algumas funcionalidades como a construção de uma MBR híbrida. Vamos ao roteiro completo.

Roteiro de instalação para o uso de MBR híbrida

Estas são instruções para o RHEL mas que, com pequenas adaptações, podem ser aproveitadas em outros ambientes.

Como primeiro passo, insira uma unidade de armazenamento temporária no servidor e dispare a instalação normalmente. Durante a fase de formatação de discos, vá para o terminal (CTRL+ALT+F2) e crie a tabela de partição em formato GPT:

# parted
(parted) mktable
... yes
... gpt
(parted) quit

Retorne ao instalador gráfico (CTRL+ALT+F6). Opte por um particionamento personalizado e utilize a seguinte disposição:

Dica: marque a partição PAD como "forçada como primária" para que ela fique como a primeira.
Atenção: a ordem é importante!
  • sda (GPT) - disco RAID 5
    1. partição ext3 PAD (2 MB) (não montada ou em diretório não usado como /pad)
    2. partição ext3 para o /boot2 (que se tornará /boot)
    3. PV LVM
      1. partição ext3 para /
      2. partição swap
      3. (demais partições...)

  • sdb (DOS) - pendrive

    1. partição ext3 para /boot
Siga a instalação normalmente. O gerenciador de BOOT deve ser instalado no disco sda, que é a opção padrão. A função da partição PAD irei explicar mais adiante.

O arranjo final dos discos fica desta forma:

# fdisk -u -l

Device Boot      Start         End      Blocks   Id  System                                                                                  
  sda1               1  4294967295  2147483647+  ee  GPT 

# parted
(parted) unit s
(parted) print

Model: DELL PERC H700 (scsi)
Disk /dev/sda: 5854986239s
Sector size (logical/physical): 512B/512B
Partition Table: gpt

Number  Start     End          Size         File system  Name  Sinalizador
 1      32s       4129s        4067s        ext2         ext3
 2      4130s     1028129s     1024000s     ext3         ext3
 3      1028130s  5854986206s  5853958077s               lvm
O instalador não configura corretamente o boot no pendrive. Reinicie novamente usando a mídia de instalação da máquina. Porém, ainda no gerenciador de boot do DVD, entre no modo de recuperação: "linux rescue". No modo de recuperação, ele oferecerá a possibilidade de montar o sistema instalado. Permita a montagem. No shell, execute:

# chroot /mnt/sysiimage/
# grub-install --recheck /dev/sda
# exit
# reboot

Agora, o sistema deverá iniciar normalmente. Efetue os passos finais da instalação.
 
Se a presença perpétua da unidade de armazenamento "temporária" não é um problema para o seu caso, você pode parar neste ponto. Neste caso, as partições sda1 e sda2 também não seriam necessárias. Para os demais casos, vamos a etapa retirar a dependência desta unidade de arO instalador não considera o boot no pendrive. Reinicie mazenamento temporária.

No sistema, instale o programa gdisk.
# wget http://apt.sw.be/redhat/el5/en/x86_64/rpmforge/RPMS/gdisk-0.6.10-1.el5.rf.x86_64.rpm
# rpm -i gdisk-0.6.10-1.el5.rf.x86_64.rpm
Agora precisamos criar a configuração híbrida:
# gdisk /dev/sda
... r
... h
... 2
... Y
... 83
... N
... N
... w
Normalmente seria interessante criar uma partição para ocupar todo o restante do disco (última pergunta, penúltimo comando). Porém, por algum BUG deste programa, ele entra em uma live lock, provavelmente por causa do disco com tamanho maior que o limite da MBR. Só não alternar novamente as partições que tudo ficará bem. 


É possível que a partição /pad seja corrompida neste processo. Qualquer coisa, recrie o sistema de arquivos do /pad
# mkfs.ext3 /dev/sda1 -L /pad
O disco, quando observado pelo fdisk fica desta forma:
Disk /dev/sda: 2997.7 GB, 2997752954880 bytes
255 heads, 63 sectors/track, 364456 cylinders, total 5854986240 sectors
Units = setores of 1 * 512 = 512 bytes

Dispositivo Boot      Start         End      Blocks   Id  System
/dev/sda1               1        4129        2064+  ee  EFI GPT
Partition 1 does not end on cylinder boundary.
/dev/sda2            4130     1028129      512000   83  Linux
Partition 2 does not end on cylinder boundary.
Note que o início e o fim da partição sda2, como esperado, é o mesmo do apresentado pelo parted. Agora voltamos a questão em aberto da partição PAD. A partição de PAD possui duas funções. A primeira é manter o número dos dispositivos sincronizados entre a GPT e a DOS. Como necessariamente teremos uma partição "GPT EFI" como sda1 do formato DOS, a primeira partição possível seria a sda2 que, coincidentemente, é a partição de interesse para o grub. O outro motivo é preventivo. A primeira posição válida para uma partição no GPT é no setor 32 (observe o parted). No caso do formato DOS, a primeira partição começa no setor 63. Desta forma, se algum programa estiver protegendo ou validando os setores "de controle" abaixo de 63, como o fdisk faz, eles não acessariam o começo de uma partição no setor 34.

Agora basta realizar a migração dos dados e configurações de /boot para /boot2.
  1. Edite o /boot/grub/menu.lst e troque todas as referências de "hd1,0" (sdb1) para "hd0,1" (sda2).
  2. Copie todo o conteúdo de /boot para /boot2 (cp -a /boot/* /boot)
  3. Desmonte ambas as partições (umount /boot /boot2)
  4. Remova a entrada de /boot2 no /etc/fstab. Note que a chamada da partição é pelo LABEL. Para trocar, atualize o label das duas partições:
    1. e2label /dev/sda2 /boot
    2. e2label /dev/sdb1 xxxx
  5. Remonte a partição (mount /boot)
  6. Remova a unidade de armazenamento temporária
  7. Reinstale o gerenciador de boot (grub-install --recheck /dev/sda)
  8. Se tudo ocorrer bem, reinicie o sistema.
Somente para reforçar a ideia, se seu sistema não tem discos de mais de 2.2TB, esqueça tudo que eu escrevi. Se tudo possui suporte nativo ao GPT (BIOS, kernel e gerenciador de boot e ferramentas) não use a MBR híbrida. E, se for necessário, mude para UEFI. Somente em último caso faça o que eu escrevi neste artigo.


Agora, basta cuidar para atualizar os dados da MBR com o gdisk caso seja alterado a posição ou tamanho da partição sda2. Criar ou alterar volumes lógicos não tem problemas.

Até a próxima.

quarta-feira, 16 de maio de 2012

OpenWRT: Recuperação de desastre

Mais um artigo da série sobre o OpenWRT. Neste artigo vou tentar ajudar os usuários que, por ventura, tenham feito algo de errado com seus roteadores com OpenWRT.

Depois de diversos pedidos de ajuda após problemas com o OpenWRT, achei interessante criar uma postagem para tentar ajudar a diagnosticar problemas e, com sorte, resolvê-los. O que mais escuto é: nada funciona! Vamos tentar derivar a afirmação catastrófica em coisas mais palpáveis. Como diria o Jack, vamos por partes.

O que você pode fazer que "estragaria" o OpenWRT? As possibilidades são limitadas. A mais comum é uma falha de software provocada. Alguma coisa (incluindo a coisa você) pode ter "estragado" o sistema de arquivos. Você pode ter editado/apagado algo que não devia ou ter enchido a partição de dados. Outra possibilidade é que alguma alteração da configuração fez com que alguma (ou todas as) funcionalidade do roteador deixasse de funcionar. Se você está usando a imagem recomendada no formato squashfs, no pior dos casos, você pode entrar no modo de recuperação, que veremos mais adiante. Mesmo que você exclua todos os arquivos, a recuperação é tranquila. Isto porque no caso do squashfs, a imagem inicial do OpenWRT não é alterada. Todas as modificações são gravadas em uma área separada, que pode ser limpa ou ignorada com o modo de recuperação. Se é tudo tranquilo, quando que não é?

O mais simples dos desastres é um dano físico. Deixar cair o roteador, molhar, alta tensão, são coisas que podem estragar os componentes eletrônicos. O OpenWRT não tem culpa neste caso e a instalação do OpenWRT não causa falhas físicas (e também não irá resolvê-las). Então, se já com o OpenWRT ele funcionava e "deixou de funcionar" sem ninguém mexer, deve estar nesta categoria. Se "deixou de funcionar" após algum evento não físico, vai ser o caso anterior ou o próximo.


O dano tão grave quanto um problema físico é um problema durante a fase de gravação da firmware/imagem. Isto vale tanto na troca da firmware original pelo OpenWRT como na atualização do OpenWRT para outra versão. Os problemas são diversos: imagem corrompida, imagem incompatível (modelo ou versão do hardware), uso de imagem de versão em desenvolvimento (trunk), interrupção por falta de energia... Neste caso, se o roteador "não responde", provavelmente você terá que usar um cabo serial para recuperar o roteador. Conheço apenas estes métodos "normais" de gravar a firmware de dentro do OpenWRT:
  1. gravando a firmware pela interface Web
  2. usando o comando sysupgrade,
  3. usando o comando mtd ou,
  4. mais hardcore, o comando dd interagindo com o dispositivo /dev/mtd* (mtd seguido de qualquer coisa).
Se a última coisa que você fez não foi um destes comandos ou não envolveu o caminho /dev/mtd*, provavelmente seu problema é sistema ou físico.

Como identificar até onde o roteador funciona? Precisamos entender um pouco do processo de boot do sistema. Após ligar o roteador na tomada, ele dispara o gerenciador de boot. No Linux, hoje em dia, temos o grub ou o syslinux. Para os dispositivos embarcados, como os roteadores, isto varia. Os TP-Link usam uma versão customizada do U-boot. Outros usam RedBoot. Tudo depende. Vamos a alguns casos comuns:
  1. Se o roteador nem deu sinal de vida, nem piscou, é provavelmente uma falha física.
  2. Se ele ligou e após um curto momento (1 segundo, por exemplo) ele apagou tudo e parou ou entrou em um processo de repetição, provavelmente você tem uma firmware inválida e precisa recuperar com o auxílio de uma serial.

Algumas pessoas nesta situação testam as portas Ethernet locais para comunicação entre duas máquinas e, quando funciona, dizem que o roteador está funcionando. Estas portas, na grande parte dos casos, possuem um circuito dedicado que realiza a tarefa de um switch. Então, não é condição determinante para avaliar a operação do roteador.

O processo de boot do kernel e do sistema do OpenWRT é ligeiramente rápido e termina em poucos segundos. Esperar por vários minutos provavelmente não irá resolver seu problema. Então "o tempo cura tudo" não se aplica neste caso. Para modelos TP-Link, o LED "system" começa a piscar logo que o roteador inicia o processo de boot e o OpenWRT, ao final do deste processo, troca o estado deste LED de "piscando" para "ligado constantemente". É um indicativo que ele terminou de ligar o sistema. Se o LED nunca deixa de piscar, pode ter algo que impeça a inicialização do sistema ou ele travou. Pode tentar resolver com o modo de recuperação ou, em casos mais graves, recuperar com o auxílio de uma serial.

Algumas reclamações sobre problemas são que a "rede sem fio não funciona". Se este é o seu caso, fique feliz. Leia o artigo sobre configuração. A rede sem fio, por padrão estará desligada. Use o cabo durante a configuração. Outra possibilidade, remota para modelos suportados e versões estáveis, é de alguma incompatibilidade com o driver da placa sem fio do seu roteador. Se em algum momento ele funcionava com o OpenWRT e deixou de funcionar, é problema de configuração e não incompatibilidade. Se não souber o que foi feito, zere as configurações ou entre no modo de recuperação.

Outra ferramenta muito útil para diagnosticar o que ainda funciona no roteador é um sniffer de rede. Recomendo o wireshark, que funciona em qualquer sistema operacional comum. É o canivete suíço para diagnosticar quase qualquer problema de rede. Preferencialmente, force a sua interface de rede local para sempre estar levantada, com configuração IP fixa e escute o tráfego pelo wireshark. Se o roteador falar algo, já é um bom sinal. Pode observar a origem dos pacotes pelo endereço físico (MAC).

Agora, vamos para as técnicas:

Zerar as Configurações

Se você fez algo de que se arrepende mas não sabe como resolver, no pior dos casos, zere as configurações. Isto pode ser feito pela interface Web ou usando um terminal (SSH, Telnet ou cabo serial) com o comando "firstboot". Reinicie o sistema e ele estará com as configurações que você tinha logo após instalar o OpenWRT.

Modo de Recuperação (referencia)

É comum escutar alguém dizendo que "o roteador não reseta mais". Sim, com o OpenWRT, o botão "reset", normalmente escondido dentro de um furo no gabinete, não serve para zerar o roteador. Ele é a entrada para iniciar o modo de recuperação. Porém, ele somente pode ser acionado durante um pequeno momento após iniciar o roteador. Logo que o roteador é ligado e o OpenWRT assume o controle, ainda antes de ler as mudanças do disco e configurações, ele envia um pacote UDP pela rede com o seguinte conteúdo: "Please press button now to enter failsafe". Nesta hora, pressione o botão, mas seja rápido. Uma dica é observar o primeiro pacote enviado pelo roteador depois de ligado nas informações da placa de rede. Este primeiro pacote será o aviso do modo de recuperação. Em geral, na ausência do botão de "reset", um botão físico qualquer é usado.

Outra alternativa para iniciar o modo de recuperação é pela serial. Observe as mensagens de boot até que irá aparecer a mensagem: "Press the [f] key and hit [enter] to enter failsafe mode". Como a mensagem diz, pressione a letra "f" e depois "enter", mas seja rápido.

No modo de recuperação, o roteador irá ignorar todas as alterações feitas no passado no disco. Isto inclui mudanças nos arquivos, configurações e pacotes instalados. A configuração de rede do roteador será 192.168.1.1, com máscara 255.255.255.255 (/24). Para seu computador conseguir conversar com o roteador, ele deve ter um endereço na mesma rede como, por exemplo, 192.168.1.2, máscara 255.255.255.0. O DHCP ou interface Web não estarão funcionando. O roteador estará esperando uma conexão Telnet, que acessará o roteador sem usar senha (ex: telnet 192.168.1.1).

Se seu problema é mais pontual e você quer simplesmente alterar alguma coisa como uma regra de firewall, execute o comando "mount_root". Você poderá, então mudar as configurações ou trocar a senha de root com o comando "passwd". Porém, se a ideia é simplesmente rezar as configurações, execute o "firstboot".

Deslige e ligue o roteador ou execute "reboot -f" para testar suas alterações.

Usando um Cabo Serial

O uso do cabo serial é extremo e especializado para cada modelo. Busque maiores documentações na página de seu dispositivo na Wiki do OpenWRT. Normalmente, os fabricantes não se preocupam em facilitar o acesso à serial do dispositivo, mesmo ela existindo. Em geral, nos modelos mais baratos, o acesso da serial depende da solda em algum ponto da placa do roteador. Em alguns casos, é um local bem acessível. Em outros, você precisa de uma precisão cirúrgicas (é o cabo fino da imagem em zoom). Outro ponto para ser observado é que a serial do roteador pode não ser uma serial convencional. Ela pode usar tensão abaixo do padrão da serial (nível de tensão TTL), que depende de um circuito divisor de tensão ou adaptador. Neste caso, alguns cabos de celular realizam esta tarefa com perfeição. Eu usei um cabo DKU-5 antigo para celular Nokia. Se ligar um cabo serial convencional neste caso, ele vai fritar a placa do seu roteador.

Uma vez com o acesso serial, você precisa de um emulador de terminal. O minicom no Linux ou o Hyperterminal no Windows cumprem esta função. Identifique a configuração necessária para o seu dispositivo, por exemplo 115200 8N1, e aplique no seu emulador de terminal.

Se estiver funcionado, você receberá mensagens logo que ligar o dispositivo. Neste ponto, você poderá interagir com o gerenciador de boot, trocar parâmetros ou até mesmo gravar uma nova imagem. Tudo isto depende do modelo em questão. Novamente, busque documentação na wiki, informações em fóruns.


Espero que estas dicas ajudem aos aventureiros a resolver seus problemas de configuração. Até a próxima.

segunda-feira, 7 de maio de 2012

OpenWRT: Desinstalando o OpenWRT

Mais um artigo da série sobre o OpenWRT. Neste artigo vou mostrar como "desinstalar" o OpenWRT.

O OpenWRT é um caminho sem volta? Bem, para mim foi. Mas não por obrigação e sim por escolha. Depois de experimentar com o OpenWRT, por um motivo ou outro, você pode querer (ou precisar) retornar ao firmware do fabricante. Isto pode ser especialmente importante se precisar acionar a garantia (se o roteador ainda funcionar). Vamos tentar descrever os cuidados do processo.

A instalação do OpenWRT é extremamente facilitada pois os desenvolvedores do OpenWRT criam um pacote de instalação compatível com o instalador do próprio fabricante. É um trabalho individual que envolve entender o layout da flash do fabricante, os campos de controle de proteção, integridade e o resultado de sua gravação no disco e, como sempre, um pouco de bruxaria. Uma vez dissecado estes pontos, é só uma questão de replicá-los para o caso do OpenWRT. Por este motivo que existem a versão factory (para suprir as necessidades do fabricante) e a versão sysupgrade (para simplesmente atualizar o OpenWRT já instalado), como já comentei anteriormente.

O processo de desinstalação do OpenWRT consiste em simplesmente (re)instalar o firmware do fabricante. O problema é que a firmware do fabricante nem sempre é uma imagem direta do sistema. Podem existir os campos de controle, a firmware pode conter uma atualização do gerenciador de boot, etc. Enfim, tudo depende do fabricante, do modelo e, até mesmo, da versão da firmware.

A regra geral é: leia a documentação do OpenWRT sobre seu modelo. E como sempre, observe a versão da revisão do hardware. Há também uma documentação "genérica" de desinstalação, mas não foi muito útil para mim. Vou dar um exemplo para o modelo TL-WR741nd.

A página na wiki do OpenWRT sobre este modelo possui um item especial chamado "Back to original firmware". Em geral, todos os artigos de modelos possuem este item. Nele está descrito o que deve ser observado e, quando necessário, como extrair a parte a ser gravada da firmware do fabricante. Até onde eu observei, os os firmwares da TP-Link são de dois tipos: com e sem boot (gerenciador de boot). O primeiro, além de um novo sistema, possui uma atualização do gerenciador de boot no início da firmware. Tambérm, normalmente, tem a palavra "boot" no nome do arquivo. Por isto, existe instruções de como retirar este início indesejado da imagem do fabricante. Para o segundo, o arquivo contém apenas o sistema e é similar ao presente no pacote sysupgrade do OpenWRT. Mas como ter certeza? Ainda para este modelo, existe uma forma de validar o tipo.

Primeiro baixe uma firmware do fabricante. Normalmente ela está compactada em um ZIP. Descompacte. No caso do modelo em estudo, o TL-WR741nd, você terá um arquivo "alguma-coisa-xxx.bin", que é a firmware propriamente dita. Para TP-Link, o comando:
cat alguma-coisa-xxx.bin| dd bs=4 count=1 skip=37 2>/dev/null | hexdump -v -n 4 -e '1/1 "%02x"'; echo
Deve retornar 000000 se não tiver um boot ou algo como 0000c6bc se ela contém o boot (e não deve ser usada para desinstalar o OpenWRT.

Se não tiver o boot, o retorno é tão simples como instalar ou atualizar o OpenWRT.

Se for algo diferente, principalmente referenciando o U-boot, com o nome do arquivo sendo "alguma-coisa-boot-xxx.bin", você terá que retirar o gerenciador de boot antes de gravar. Para este modelo, esta região inicial a ser cortada é de 131584 bytes (ou 0x20200 bytes, em hexadecimal). O comando "dd" pode fazer este corte.
dd if=firware-baixada.bin of=firmware-a-ser-gravada.bin skip=257 bs=512
Agora, o comando de verificação vai retornar 000000.

Para gravar este arquivo ".bin", basta usar qualquer um dos métodos disponíveis pelo OpenWRT: interface Web, comando mtd, TFTP, serial... Vai do seu gosto. A documentação descreve diversas formas. Recomendo a interface web ou o sysupgrade, que fazem validações antes da gravação.

Apesar de tratar de um caso específico, estas instruções valem para muitos modelos Tp-Link.
Se pintar alguma dúvida, posso tentar ajudar ou você pode consultar o fórum do projeto, onde estão todos os gurus do OpenWRT.

Até mais.

Atualização: se não tiver um Linux no seu desktop, pode usar o próprio OpenWRT para preparar a firmware para a gravação.

Vou considerar que ele está com acesso à internet funcionando e que está acessível por telnet/ssh.
  1. Copie a URL da firmware lá do site da Tp-Link que você quer gravar.
  2. Conecte no seu roteador via Telnet ou SSH.
  3. Entre no diretório /tmp
    1. cd /tmp
  4. Baixe o zip com a firmware em /tmp. Ex:
    1. wget http://www.tp-link.com.br/resources/software/201011814560814.zip
  5. Descompacte o arquivo. Ele deve gerar um algumacoisa.bin. As vezes em um subdiretório.
    1. unzip 201011814560814.zip
  6. Anote o nome do arquivo .bin gerado
    1. ls *.bin
  7. Verifique se ele tem boot (troque o arquivo pelo que o zip gerou):
    1. dd bs=4 count=1 skip=37 'if=wr741nv1_en_3_12_4_up(100910).bin'  | hexdump -v -n 4
      1. Se retornar algo como: 0000000 0000 0000, tudo certo. Grave este arquivo diretamente no passo final.
      2. Se for algo como: 0000000 0000 bd86, precisa cortar no próximo passo.
  8. Para cortar a firmware:
    1. dd if=firware-baixada.bin of=firmware-a-ser-gravada.bin skip=257 bs=512
    2. E execute o passo 7. sobre este novo arquivo firmware-a-ser-gravada.bin
  9. Grave a nova firmware:
    1. sysupgrade -n firmware-a-ser-gravada.bin