Índice do fórum Treinamentos Avançados Treinamento Oracle RAC Abort da sessões conectadas no RAC

Abort da sessões conectadas no RAC

Dúvidas, dicas e atualizações sobre o Treinamento Oracle RAC.

Mensagem Qui Mai 15, 2014 8:17 pm

Mensagens: 1
Olá!

Estamos enfrentando um cenário de crise, totalmente intermitente. Tem "momentos" que os processos de cada nó do RAC são desconectados, gerando o alerta abaixo no alert do banco. As sessões ficam com status de inativas no banco. O "desconect" das sessões do banco, ocorre em momentos diferentes em cada nó, as vezes em um nó, as vezes em outro nó.

O erro é o seguinte:

Fatal NI connect error 12547, connecting to:
(LOCAL=NO)

VERSION INFORMATION:
TNS for Linux: Version 11.2.0.2.0 - Production
Oracle Bequeath NT Protocol Adapter for Linux: Version 11.2.0.2.0 - Production
TCP/IP NT Protocol Adapter for Linux: Version 11.2.0.2.0 - Production
Time: 15-MAY-2014 12:26:46
Tracing not turned on.
Tns error struct:
ns main err code: 12547

TNS-12547: TNS:lost contact
ns secondary err code: 12560
nt main err code: 0
nt secondary err code: 0
nt OS err code: 0
opiodr aborting process unknown ospid (16858) as a result of ORA-609
Thu May 15 12:26:46 2014


No alert do banco, nos traces, no alert do ASM, no alert do RAC, não gera nenhuma informação. Foi feito testes de conexão com os IPs do SCAN, nenhum erro encontrado.

Não temos firewall na rede, o servidor de aplicação está na rede interna, na mesma rede dos nós do RAC, sem firewall.

Temos um especialista de rede analisando o core da rede, mas nada ainda encontrado.

Esse alerta também ocorre no servidor de homologação, mas com menos frequência.

O que mais poderia verificar?

Mensagem Sex Mai 16, 2014 12:02 am

Mensagens: 1
Para complementar, foi verificado as interfaces do RAC, verificado possíveis erros ou perdas de pacotes, mas nada encontrado que fosse considerável.
Final do dia tivemos um looping de rede que afetou toda a rede da empresa.
Acreditamos que a "desconexão" das sessões sejam um problema de rede, mas fica a dúvida do porque o Oracle ser o masi afetado, ou seria o mais sensível?

Mensagem Sex Mai 16, 2014 10:05 am
portilho Site Admin

Mensagens: 444
Problemas intermitentes realmente são dureza.

Isto me parece realmente problema de rede (incluindo DNS), ainda mais porque acontece também em outro ambiente (homologação).

Para aumentar a tolerância das falhas, pode adicionar estas cláusulas nos arquivos de configuração de rede do Oracle, mas isto apenas mascara o problema. O padrão destes tempos é de 60 segundos, e você pode altera-los para cima:
(Client) sqlnet.ora: SQLNET.INBOUND_CONNECT_TIMEOUT=180
(Server) listener.ora: INBOUND_CONNECT_TIMEOUT_listener_name=120

Habilite o Trace no Client também, para lhe ajudar:
TRACE_LEVEL_CLIENT=16
TRACE_DIRECTORY_CLIENT=C:\temp
TRACE_TIMESTAMP_CLIENT=TRUE
DIAG_ADR_ENABLED=ON

Passe um raccheck novamente em seu ambiente para vermos se tem algo errado.

Verique também se estas ocorrências tem relação com alta carga no ambiente.

Procure também por algo novo nos logs do sistema operacional, /var/log/messages e /var/log/dmesg.

E persista com a rede. É difícil fazer com que alguns administradores de rede e storage realmente queiram encontrar um problema.

Mensagem Qui Jun 12, 2014 10:45 pm

Mensagens: 1
Olá!

Dando um retorno sobre ese problema..depois de 2 dias monitorando, analisando, checando, acompanhando logs..
O problema era...looping na rede :)

Depois de resolvido o looping na rede que era causado por um rádio em uma unidade, tudo estabilizado novamente sem nenhuma "desconexão" mais.

E o pior, os ADMs de rede não admitem que o problema era na rede, mas tudo bem :)

Mensagem Sex Jun 13, 2014 10:14 am
portilho Site Admin

Mensagens: 444
Pois é: É difícil fazer com que alguns administradores de rede e storage realmente queiram encontrar um problema.
:-D

Parabéns por ter persistido e encontrado a solução!


Voltar para Treinamento Oracle RAC