ORADICAS: BUG: Oracle Cluster Health Monitor (CHM) using large amount of space

quarta-feira, 12 de outubro de 2016

BUG: Oracle Cluster Health Monitor (CHM) using large amount of space

Fala pessoal...

Esses dias peguei um bug que nunca havia visto, por isso vou registrar aqui para todos.

Depois de um simples df -h, o resultado que recebo em um dos nodes do RAC 11g de um cliente é que meu "/oracle" (onde instalo os binários do GRID e RDBMS), estava com mais de 90% de ocupação.

Achei estranho e ao verificar minhas pastas, cheguei ao arquivo "crfclust.bdb" com quase 30G de tamanho.

-rw-r----- 1 root root 30G Oct 5 18:19 crfclust.bdb

Ao acessar o MOS, encontrei o note "Oracle Cluster Health Monitor (CHM) using large amount of space (more than default) (Doc ID 1343105.1)". Esse note está relacionado ao bug "BUG:10165314 - CHM/CRF/IPDOS REPOSITORY EXCEEDS 1GB AFTER ADD/REMOVE NODE OR FRESH INSTALL".

Só como curiosidade e bem rapidamente, o CHM coleta estatísticas (métricas de sistema) em real-time do SO. A coleta abrange memória, uso de SWAP, processos, I/O, etc. Essa coleta se dá através do "Cluster Health Monitor Service" - ora.crf.

No note "Cluster Health Monitor (CHM) FAQ (Doc ID 1328466.1)", você encontra diversas informações muito mais detalhadas sobre esse serviço.

Voltando ao nosso problema, não podemos ficar com esse arquivo tão grande assim. O procedimento é simples para recriar o mesmo.

Esse procedimento pode ser feito com o cluster no ar, tranquilamente. E deve ser feito como ROOT.

1) Exporte as variáveis de ambiente:

su -

export ORACLE_GRID=/oracle/app/11.2.0/grid

2) Execute o comando abaixo para confirmar o local do nosso arquivo
$ORACLE_GRID/bin/oclumon manage -get reppath

A saída esperada é essa:
CHM Repository Path = /oracle/app/11.2.0/grid/crf/db/srv1

Done

3) Vá até o diretório e identifique o arquivo
cd /oracle/app/11.2.0/grid/crf/db/srv1

ls -lrht crfclust.bdb
-rw-r----- 1 root root 30G Oct 5 18:19 crfclust.bdb

4) Vamos parar o serviço do CHM
$ORACLE_GRID/bin/crsctl stop res ora.crf -init
CRS-2673: Attempting to stop 'ora.crf' on 'srv1'

5) Remover o arquivo
rm -f crfclust.bdb

6) Iniciamos o serviço novamente
$ORACLE_GRID/bin/crsctl start res ora.crf -init
CRS-2672: Attempting to start 'ora.crf' on 'srv1'
CRS-2676: Start of 'ora.crf' on 'srv1' succeeded

Nesse momento, o arquivo "crfclust.bdb" será gerado novamente e a coleta será retomada. Além da perda das estatísticas, a exclusão desse arquivo não gera mais nenhum problema para o cluster.

That's it folks.

Espero que seja útil a vocês.

Abraço
Mario

Nenhum comentário:

Postar um comentário

Isso te ajudou? Comente...

Observação: somente um membro deste blog pode postar um comentário.

quarta-feira, 12 de outubro de 2016

BUG: Oracle Cluster Health Monitor (CHM) using large amount of space

Nenhum comentário:

Postar um comentário

Postagem em destaque

[ORACLE] Quick tip - Changing SYS password in Exadata Cloud at Customer with a DR environment