quarta-feira, 12 de outubro de 2016

BUG: Oracle Cluster Health Monitor (CHM) using large amount of space

Fala pessoal...

Esses dias peguei um bug que nunca havia visto, por isso vou registrar aqui para todos.

Depois de um simples df -h, o resultado que recebo em um dos nodes do RAC 11g de um cliente é que meu "/oracle" (onde instalo os binários do GRID e RDBMS), estava com mais de 90% de ocupação.

Achei estranho e ao verificar minhas pastas, cheguei ao arquivo "crfclust.bdb" com quase 30G de tamanho.

-rw-r----- 1 root root 30G Oct  5 18:19 crfclust.bdb

Ao acessar o MOS, encontrei o note "Oracle Cluster Health Monitor (CHM) using large amount of space (more than default) (Doc ID 1343105.1)". Esse note está relacionado ao bug "BUG:10165314 - CHM/CRF/IPDOS REPOSITORY EXCEEDS 1GB AFTER ADD/REMOVE NODE OR FRESH INSTALL".

Só como curiosidade e bem rapidamente, o CHM coleta estatísticas (métricas de sistema) em real-time do SO. A coleta abrange memória, uso de SWAP, processos, I/O, etc. Essa coleta se dá através do "Cluster Health Monitor Service" - ora.crf. 

No note "Cluster Health Monitor (CHM) FAQ (Doc ID 1328466.1)", você encontra diversas informações muito mais detalhadas sobre esse serviço.

Voltando ao nosso problema, não podemos ficar com esse arquivo tão grande assim. O procedimento é simples para recriar o mesmo.

Esse procedimento pode ser feito com o cluster no ar, tranquilamente. E deve ser feito como ROOT.

1) Exporte as variáveis de ambiente:
        su -
export ORACLE_GRID=/oracle/app/11.2.0/grid

2) Execute o comando abaixo para confirmar o local do nosso arquivo
$ORACLE_GRID/bin/oclumon manage -get reppath

A saída esperada é essa:
CHM Repository Path = /oracle/app/11.2.0/grid/crf/db/srv1

Done

3) Vá até o diretório e identifique o arquivo
cd /oracle/app/11.2.0/grid/crf/db/srv1

ls -lrht crfclust.bdb
-rw-r----- 1 root root 30G Oct  5 18:19 crfclust.bdb

4) Vamos parar o serviço do CHM
$ORACLE_GRID/bin/crsctl stop res ora.crf -init
CRS-2673: Attempting to stop 'ora.crf' on 'srv1'

5) Remover o arquivo
rm -f crfclust.bdb

6) Iniciamos o serviço novamente
$ORACLE_GRID/bin/crsctl start res ora.crf -init
CRS-2672: Attempting to start 'ora.crf' on 'srv1'
CRS-2676: Start of 'ora.crf' on 'srv1' succeeded

Nesse momento, o arquivo "crfclust.bdb" será gerado novamente e a coleta será retomada. Além da perda das estatísticas, a exclusão desse arquivo não gera mais nenhum problema para o cluster.

That's it folks.

Espero que seja útil a vocês.

Abraço
Mario

Nenhum comentário:

Postar um comentário

Isso te ajudou? Comente...

Postagem em destaque

[ORACLE] Increasing the number of cores in a virtualized Oracle Database Appliance.

Hello everyone. How are you going? Today, I'll show you the process to increase the number of cores in a virtualized ODA HA X7-2. Import...