Vous êtes sur la page 1sur 12

COMMUNICATION TECHNIQUE OmniPCX 4400/Enterprise

URGENTE NON URGENTE

N TC0296
Nb de pages : 11

Ed. 02 Date : 26-11-2003

TEMPORAIRE

DEFINITIVE

OBJET : RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU Cette communication technique fournit des trucs et astuces concernant des problmes CPU tels que redmarrage, arrt de l'application tlphone ou impossibilit de se connecter au systme.

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

SOMMAIRE
1. 2. INTRODUCTION ..........................................................................3 TRUCS ET ASTUCES SUR LES PROBLMES CPU .............................3
Qui a initialis le redmarrage du systme ?............................................ 3
Redmarrage automatique ...............................................................................3 2.1.1.

2.1. 2.2. 2.3.

Le tlphone s'arrte ................................................................................ 4 Une CPU redmarre continuellement ....................................................... 4


Problme avec la configuration IO2..................................................................4 Problme avec la carte IO2...............................................................................4 Reboot CPU li l'IO2 ......................................................................................4 Problme avec des fichiers OPS ........................................................................5

2.3.1. 2.3.2. 2.3.3. 2.3.4.

2.4. 2.5. 2.6. 2.7.

Corruption de la base de donnes............................................................ 5 Contrle de l'installation de la version logicielle ....................................... 6 Contrle des ports V24 ............................................................................. 6 Capture d'informations systmes .............................................................. 6

3. 4.

INVESTIGATIONS MATRIELLES ...................................................7 INFORMATIONS RELEVER POUR OUVRIR UNE DEMANDE DE SERVICE.......................................................................................7
Description du problme .......................................................................... 7 Description des investigations................................................................... 7 Fichiers log des incidents .......................................................................... 8 Fichiers log des exceptions tlphone ....................................................... 8 Fichiers log des black boxes...................................................................... 8 Fichiers log du tlphone.......................................................................... 8 Fichiers log de Chorus .............................................................................. 9 Fichiers log de Linux ................................................................................. 9
1
TC0296

4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8.

Ed. 02 / 26-11-2003

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

4.9.

Fichiers log du systme............................................................................. 9

4.10. Liste des cartes de l'installation ............................................................... 10 4.11. Configuration du systme ....................................................................... 10 4.12. Type de CPU ........................................................................................... 10 4.13. Rfrences de la CPU.............................................................................. 10 4.14. Dtection d'une corruption mmoire....................................................... 10

TC0296

Ed. 02 / 26-11-2003

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

1.

INTRODUCTION

Cette communication technique fournit des trucs et astuces concernant des problmes CPU tels que redmarrage, arrt de l'application tlphone ou impossibilit de se connecter au systme. Si aucune solution n'est trouve, un contrle du matriel devra tre effectu. Si la solution n'est toujours pas trouve, une demande de service (Service Request) de type "Fiche d'observation" (Observation Sheet) devra tre ouverte par le Business Partner. La Fiche d'observation devra contenir des informations dont la liste est donne la fin de ce document. De nombreux fichiers log sont stocks sur le systme. Chaque reset du systme remplacera les anciens fichiers log par des nouveaux. Les fichiers log concernant un problme particulier devront tre sauvegards le plus rapidement possible avant que les informations ne soient perdues.

2.
2.1.

TRUCS ET ASTUCES SUR LES PROBLMES CPU


Qui a initialis le redmarrage du systme ?

2.1.1. Redmarrage automatique diter les fichiers texte : /DHS3dyn/incid/incpbm.1, /DHS3dyn/incid/incpbm.2 /DHS3dyn/incid/incpbm.3.

La ligne qui contient mailsys asks shutdown signifie que le logiciel a lanc un redmarrage luimme. Il n'y a pas eu d'action manuelle pour lancer le shutdown.
0005 Fri Jan 25 15:42:30 2002 mailsys asks 'echo `ps|wc -l` processes running&' 0006 Fri Jan 25 15:42:30 2002 mailsys asks 'shutdown &' at 25/01/02 15:42:30 ; S 0007 Fri Jan 25 15:42:31 2002 mailsys asks 'echo `ps|wc -l` processes running&'

Dans ce cas, la liste des incidents contiendra un incident de gravit 0 qui confirmera le redmarrage. Le redmarrage a t lanc, suite des problmes dtects sur le systme. La cause des dysfonctionnements peut aussi tre indique dans la liste des incidents. Note Lors de l'analyse des incidents systme, vrifier qu'il n'y a pas de filtre et que tous les incidents sont affichs. Des incidents de gravit infrieure peuvent indiquer la cause du redmarrage.

Ed. 02 / 26-11-2003

TC0296

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

2.2.

Le tlphone s'arrte

Le tlphone s'est arrt. Il n'y a pas d'accs V24 ou IP. L'cran du port console est vide. Essayer de gnrer un crashdump manuellement. Le crashdump est une copie de la mmoire du systme. Le fichier du crashdump doit tre fourni avec la fiche d'observation. La capture de texte doit tre jointe la fiche d'observation et au fichier crashdump ; se reporter la communication technique TC0500 Utilisation simplifie du kernel debugger sous Chorus et Linux pour la faon de gnrer un crashdump et d'extraire le fichier crashdump.

2.3.

Une CPU redmarre continuellement

2.3.1. Problme avec la configuration IO2 Si des cartes IO2/IO2N sont prsentes, vrifier que la gestion de ces cartes est correcte et identique sur les CPU Main et Stand-By. Aprs le redmarrage de la CPU, arrter le lancement du tlphone. partir de la version C1.712, les commandes ci-dessous permettent de consulter et de modifier la gestion des cartes IO2 mme si le tlphone est arrt : login : mtcl a4400> RUNMAO a4400> mgr 2.3.2. Problme avec la carte IO2 Quand la carte IO2 est prsente et gre, elle joue le rle de commutation. Elle remplace lIO1 embarque dans la CPU. Lorsque des redmarrages sont inexpliqus, il peut tre intressant, pour test, de la remplacer par une carte IO2N si cest possible ; comme le logiciel est diffrent, la raction du systme sera aussi diffrente et pourra fournir des informations sur le dfaut initial. Joindre le rsultat de ce test dans la fiche d'observation. Note LIO2N nest prise en compte qu partir de certaines versions logicielles ; se reporter la communication technique TC0192 - Procdure de mise en service des cartes IO2N. Quand une carte IO2 ou IO2N est installe avec une CPU, le mme type de carte IO2 doit tre install sur la CPU duplique (si prsente). 2.3.3. Reboot CPU li l'IO2 Certaines configurations avec cartes IO2 et INTOF reliant des noeuds entre eux posent problme. L'IO2 n'est pas assez puissante pour traiter tous les messages. Elle se "resette" et provoque le reboot de la machine.

TC0296

Ed. 02 / 26-11-2003

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

Les incidents lis ce dfaut sont du type :


1608 : Plus de place pour stocker les messages 1621 : Driver IO2 : plus de mmoire pour mettre 1722 : Tache aborte 2998 : Commutateur de paquets abort 3139 : IO2 Problme chemin de sig

Faire un appel Hot Line pour investigation. 2.3.4. Problme avec des fichiers OPS Normalement, les mmes fichiers OPS sont installs sur les deux CPU. Si ce n'est pas le cas et si le champ PARA_MAO 1 du fichier hardware.mao est diffrent, il peut se produire un redmarrage permanent de la CPU avec les incidents 2076 ou 2070: 2076 = Rgion du TEL ou des rmanents diffrentes sur CPU principale et secours ou pour les Releases 1.4/2.x : 2070 = Mode de swap diffrents sur CPU principale et secours Ce cas peut se produire lors de l'installation de nouveaux fichiers OPS sur la CPU Stand By, s'il y a une modification de la taille des donnes rmanentes. Dans ce cas, le tlphone doit tre compltement arrt pour installer les nouveaux fichiers OPS sur les deux CPU.

2.4.

Corruption de la base de donnes

Dans le cas d'une corruption de la base de donnes, des incidents peuvent tre stocks dans le fichier incidents. Vous pouvez utiliser les commandes suivantes pour vrifier la base de donnes : a4400> cd /DHS3data/mao a4400> checkinitrem Si une corruption de la base de donnes est suspecte, vous devez restaurer une sauvegarde de la base de donnes. Dans les versions rcentes, une sauvegarde automatique de la base de donnes est effectue tous les jours sur le disque dur. Pour restaurer une sauvegarde de la base de donnes, utiliser les commandes ci-dessous : login : swinst Option 4 : Select Save & Restore operations Option 4 : Select Restore operations Option 2 : Select Restore from cpu disk Choisir un fichier de sauvegarde parmi ceux prsents sur le disque.

Ed. 02 / 26-11-2003

TC0296

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

2.5.

Contrle de l'installation de la version logicielle

Le test d'intgrit vrifie que la version logicielle a t correctement installe sur la CPU. Pour cela, taper les commandes suivantes : login : swinst Option 8 : Software identity display Option 6 : Application software validity checking Slectionner la partition contrler. Contrler le rsultat du test d'intgrit. Si problme il y a (affichage d'un message de type "Checksum incorrect"), le logiciel devra tre recharg.

2.6.

Contrle des ports V24

En cas de prsence de CPU3 : si un modem ou TA est connect un port V24 avec un login, il ne doit pas tre gr comme suit : des codes Hayes de rponse aux commandes et lcho local pour un modem, un menu daccueil sur TA,

vrifier la prsence dune application client qui dialoguerait avec un port V24 de la CPU, une boucle peut se produire si le port V24 de la CPU est gr avec un login. Le systme risque de redmarrer. Astuce Taper la commande ci-dessous pour vrifier l'activit des ports V24 : a4400> sar y 1 <nb> (ou <nb> = nombre de "scan" sur le port ; exemple : 20 ) Le paramtre 1 signifie un scan toutes les secondes. Cette commande fournit le nombre d'octets mis/reus sur les ports srie.
(410)xa004010> sar -y 1 20 Chorus xa004010 MiX V.3.2r4.1.5 r4.1.5 COMP-386 01/25/102 15:25:18 rawch/s canch/s outch/s rcvin/s xmtin/s mdmin/s 15:25:19 0 0 124 0 124 0 15:25:20 0 0 58 0 58 0 15:25:21 0 0 58 0 58 0 15:25:22 0 0 58 0 58 0 etc. jusqu 20 lignes

Surveiller le champ outch/s ; il donne le nombre de caractres mis sur tous les ports V24.

2.7.

Capture d'informations systmes

En cas de problmes CPU frquents et sans aucune explication, dmarrer une capture de texte permanente sur le terminal Windows du PC connect sur le port console. Les messages systmes ne sont pas stocks et ne sont dits que sur ce port. Cette trace est joindre la fiche d'observation.

TC0296

Ed. 02 / 26-11-2003

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

3.

INVESTIGATIONS MATRIELLES

Quand les contrles logiciels ont t effectus et que le problme est toujours existant, il faut procder des investigations sur des lments matriels tels que : carte CPU : changer la carte CPU par une autre, alimentation, raccordement de la terre, dfaut sur la carte ET (situe au niveau du voyant en bas gauche des btis), redresseur mal dimensionn, fond de panier, environnement extrieur, etc.

4.

INFORMATIONS RELEVER POUR OUVRIR UNE DEMANDE DE SERVICE

Chaque fois qu'il y a un problme CPU sur une version non en "Phase out", que le matriel a t vrifi et que vous ne pouvez pas trouver la cause ou fournir une solution, une fiche d'observation doit tre labore avec toutes les informations dcrites ci-dessous.

4.1.

Description du problme

La fiche d'observation doit comporter une description dtaille du problme et donner des rponses aux questions suivantes : Le tlphone est-il toujours oprationnel ? Y a t-il eu un reset manuel ? Y a t-il eu un reset automatique ? Le systme a t-il rsolu le problme lui-mme? Quelqu'un a t-il fait quelque chose manuellement pour redmarrer le systme ? Quel est l'affichage sur les postes UA durant le problme ? Ont-ils la tonalit ? Pouvez-vous vous connecter durant le problme ? Est ce une nouvelle installation ? Si c'est un nouveau problme sur un ancien systme, quelles modifications ont t effectues sur l'installation ? Quelle est la frquence du problme ? Quand est ce arriv (date et heure) ? La configuration OPS est-elle en conformit avec les besoins fonctionnels du client (trafic, postes fictifs, etc.).

4.2.

Description des investigations

La fiche d'observation doit indiquer les investigations effectues sur le site : change de cartes, remplacement, contrles, etc. Ces informations viteront au Support Technique de demander des tests dj effectus sur site.

Ed. 02 / 26-11-2003

TC0296

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

4.3.

Fichiers log des incidents


<---------"incidents 2"---------><-------"incidents 1"--------><----"incidents actuels"

Les fichiers log des incidents sont stocks comme suit :


-------------------------------------------------------------------------------------------------------> temps reboot 2 reboot 1 dernier reboot MAINTENANT

Joindre les rsultats des commandes suivantes la fiche d'observation : a4400> incvisu a4400> incvisu -1 a4400> incvisu -2 Vrifier que tous les incidents sont affichs et qu'aucun incident n'est filtr.

4.4.

Fichiers log des exceptions tlphone


<--------"exceptions 2"--------><-------"exceptions 1"-------><---"exceptions actuelles"

Les fichiers log des exceptions sont stocks comme suit :


-------------------------------------------------------------------------------------------------------> temps reboot 2 reboot 1 dernier reboot MAINTENANT

Joindre les rsultats des commandes suivantes la fiche d'observation : a4400> excvisu a4400> excvisu -1 a4400> excvisu -2

4.5.

Fichiers log des black boxes


<--------blackbox.3------><--------blackbox.2---------><------blackbox.1---------><-------blackbox

Les fichiers log des black boxes sont stocks sous le rpertoire /tmpd comme suit :
------------------------------------------------------------------------------------------------------------> temps reboot -3 reboot 2 reboot 1 dernier reboot MAINTENANT

Joindre les rsultats des commandes suivantes la fiche d'observation : a4400> readbbox a4400> readbbox -1 a4400> readbbox -2 a4400> readbbox -3

4.6.

Fichiers log du tlphone


<----DHS3-INIT.log3----><-----DHS3-INIT.log2------><-----DHS3-INIT.olog----><---DHS3-INIT.log

Les fichiers log du tlphone sont stocks sous le rpertoire /tmpd comme suit :
------------------------------------------------------------------------------------------------------------> temps reboot -3 reboot 2 reboot 1 dernier reboot MAINTENANT

TC0296

Ed. 02 / 26-11-2003

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

Joindre la copie des quatre fichiers texte la fiche d'observation : /tmpd/DHS3-INIT.log, /tmpd/DHS3-INIT.olog, /tmpd/DHS3-INIT.log2, /tmpd/DHS3-INIT.log3.

4.7.

Fichiers log de Chorus

Les fichiers log de Chorus sont stocks sous le rpertoire /etc comme suit :
-------boot.log3-----><------------boot.log2----------><----------- boot.log1--------><------- boot.log

-------------------------------------------------------------------------------------------------------> temps reboot 2 reboot 1 dernier reboot MAINTENANT

Joindre les rsultats de la commande suivante la fiche d'observation : a4400> traceboot v

4.8.

Fichiers log de Linux

Rcuprer les fichiers de type "messages" et "syslog" sous /var/log. login : root commande: cp messages* /tmpd et cp syslog* /tmpd : cd /tmpd : tar zxvf <fichier_final> messages* syslog* Joindre <fichier_final> la fiche d'observation. Note La commande prcdente compresse et cre un seul fichier contenant tous les fichiers messages et syslog. Supprimer ces fichiers dans /tmpd au final.

4.9.

Fichiers log du systme

Les fichiers log du systme sont stocks sous le rpertoire /DHS3dyn/incid comme suit :
----incpbm.3-----<-----------incpbm.2------------><----------incpbm.1----------><----------incpbm

-------------------------------------------------------------------------------------------------------> temps reboot 2 reboot 1 dernier reboot MAINTENANT

Joindre la copie des trois fichiers texte la fiche d'observation : /DHS3dyn/incid/incpbm.1, /DHS3dyn/incid/incpbm.2, /DHS3dyn/incid/incpbm.3.

Ed. 02 / 26-11-2003

TC0296

OmniPCX 4400/Enterprise
RELEV D'INFORMATIONS EN CAS DE PROBLMES CPU

4.10. Liste des cartes de l'installation


Pour chaque alvole de chaque nud, joindre les rsultats de la commande suivante la fiche d'observation : a4400> config x (x = numro d'alvoles) ou config all v (ne pas oublier les cartes virtuelles)

4.11. Configuration du systme


Indiquer : le nombre de nuds, la configuration rseau, la configuration CCD, le nombre d'usagers, la prsence d'applications externes telles que cartes de type "CMP", etc.,

4.12. Type de CPU


Joindre les rsultats de la commande suivante la fiche d'observation : a4400> uhwconf

4.13. Rfrences de la CPU


Indiquer sur la fiche d'observation les rfrences techniques compltes de : la carte CPU, la mmoire, disque dur, la carte processeur. La carte CPU doit tre dfiche pour lire les rfrences des diffrents lments.

4.14. Dtection d'une corruption mmoire


Joindre les rsultats des commandes suivantes la fiche d'observation : login : root a4400 > /usr2/oneshot/mtch/memcheck En cas de corruption mmoire, des messages de type Segment corrupted seront affichs.

TC0296

10

Ed. 02 / 26-11-2003