お知らせ

  • 利用規約を守って投稿してください。また、よくある質問および投稿の手引きも参照してください。
  • メッセージの投稿にはアカウントが必要です。未登録の方は、ユーザ登録ページからアカウントを作成することができます。

#1 2013-10-26 17:01:32

emerarud
新しいメンバ
登録日: 2013-10-26

科学計算時にkernel panicが生じる

Ubuntu 13.04 32bit
memory 4.0GB
CPU inter core i7-3770
HDD HITACHI DESKSTAR 2TB
kernel version 3.8.0-25-generic
MPI OpenMPI mpirun -np 4 ... で科学計算ソフトを使用
科学計算ソフトのコンパイルに用いたコンパイラ:Intel® Fortran, C++ Composer XE for Linux

問題:科学計算時にkernel panicが生じる

こんにちは。最近Ubuntuを使い始めましたemerarudと申します。
科学計算をしている最中にカーネルパニックが生じてしまう問題を解決できず、ここに質問させていただきます。

上記の科学計算ソフトを使い始めて1週間ほどは何の問題もなかったのですが、最近になって、科学計算中に、カーネルパニックを起こして止まってしま問題が生じ始めました。以下がその後の表示です。

[286.060855] mce: [Hardware Error]: CPU 4 :Machine Check Exception: 5 Bank 1 : bf80000000000114
[286.060895] mce: [Hardware Error]: RIP !INEXACT! 60:<00000000c134f85d> {intel_idle+0x7d/0xd0}
[286.060934] mce: [Hardware Error]: TSC e7ce6281c ADDR 1c40f5e40 MISC 86
[286.060966] mce: [Hardware Error]: PROCESSOR 0:306a9 TIME 1382771194 SOCKET 0 APIC 1 microcode 12
[286.061000] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[286.061027] mce: [Hardware Error]: CPU 0 :Machine Check Exception: 5 Bank 1 : bf80000000000114
[286.061060] mce: [Hardware Error]: RIP !INEXACT! 60:<00000000aed6ff39>
[286.061096] mce: [Hardware Error]: TSC e7ce62a816 ADDR 1c40f5e40 MISC 86
[286.061117] mce: [Hardware Error]: PROCESSOR 0:306a9 TIME 1382771194 SOCKET 0 APIC 0
[286.061151] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[286.061177] mce: [Hardware Error]: Machine check : Prosessor context corrupt
[286.061204] Kernel panic - not syncing : Fatal Machine check
[286.061230] drm_kms_helper: panic occureed, switching back to text console
[286.094253] Rebooting in 30 seconds..

Hardware errorと出ているので、科学計算ソフト自体の問題ではなさそうですが。。。この問題はHardwareを新しいものに交換すれば治るものなのでしょうか?

普段使っている分にはまったく問題はなく、科学計算時にのみ問題が生じます。

今現在も色々調べてはいますが、みなさんのお力を借りられればと思い投稿させていただきました。

オフライン

 

#2 2013-10-27 01:07:47

epii
メンバ
登録日: 2008-12-11

Re: 科学計算時にkernel panicが生じる

Machine-check exception は CPU が検出するハードウェアエラーなので、
Linux ではなくハードウェアの問題である可能性が非常に高いです。
https://en.wikipedia.org/wiki/Machine-check_exception

この問題はHardwareを新しいものに交換すれば治るものなのでしょうか?

マシンの故障ではなく、マザーボードのファームウェアのバグの可能性もあります。

Run the above through 'mcelog --ascii'

mcelog を使うと、エラーの発生原因がもう少し詳しく分かるかもしれないので、
ぜひ調べてみてください。

オフライン

 

#3 2013-10-29 18:52:11

emerarud
新しいメンバ
登録日: 2013-10-26

Re: 科学計算時にkernel panicが生じる

ご返信ありがとうございます。

マシンの故障ではなく、マザーボードのファームウェアのバグの可能性もあります。

その場合はどのように確認すればよろしいのでしょうか?初心者で申し訳ないです。

mcelogを実行してみました。しかしCPUはinter core i7-3770のため、認識されなかったようです。mcelogをアップデートしようと試みましたが、OSが32bitのため、アップデートできませんでした。ログを以下に記載します。

mcelog: Unsupported new Family 6 Model 3a CPU: only decoding architectural errors
mcelog: failed to prefill DIMM database from DMI data
Kernel does not support page offline interface
mcelog: Unsupported new Family 6 Model 3a CPU: only decoding architectural errors
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 1
MISC 86 ADDR 1c4326e40
TIME 1383013294 Tue Oct 29 11:21:34 2013
MCG status:
MCi status:
Corrected error
Error enabled
MCi_MISC register valid
MCi_ADDR register valid
SRAR
MCA: Data CACHE Level-0 Read Error
STATUS 9d80004000000114 MCGSTATUS 0
MCGCAP c09 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 58

今現在では、科学計算ソフトで計算を走らせるとすぐにkernel panicが生じるようになって戒ました。今現在も対処法がわからず、困っています。

とりあえず、旧verのintel compilerでソフトを再コンパイルしてみようと思います。

オフライン

 

#4 2013-10-30 20:44:40

epii
メンバ
登録日: 2008-12-11

Re: 科学計算時にkernel panicが生じる

MCA: Data CACHE Level-0 Read Error

「L0 キャッシュの読み込みエラー」ということなので、CPU が壊れたのではないでしょうか?

オフライン

 

#5 2013-10-31 19:19:41

hito
管理者
登録日: 2007-03-18

Re: 科学計算時にkernel panicが生じる

この内容からだとハードウェア不具合の可能性が高いのですが、マザーボード・CPU・メモリ・電源故障から、CPUグリスの塗り忘れ・ヒートシンクの圧力が高すぎる、といった組み立て不良のあたりまで「なんでもあり」の状態です。MCEからすると直感的にはCPUかマザーなのですが、確定のための材料はちょっと不足している感触です。

とりあえず、Ubuntuの問題かそうでないかを確定させるために、テストツールでハードウェア不具合を確認してみることをお勧めします。ブータブルCDがあると便利なので、http://www.ultimatebootcd.com/ あたりを入手し、CD-Rを準備してください。

まずやるべきは memtest86+ で、メモリ故障によるデータ化けの可能性を排除することだろうと思います(そうしないと走っているコードがあんまり信頼できないのでどこに収束するかわからない)。次にやるとするとCPUstressで、これで落ちるようであれば「Ubuntu関係なくハードウェアがヘン」という話にできます。

ただこれでも結局、「ハードウェアがどこかおかしいらしい」ということしか確定できないので、「ここを交換してみよう」という話にするのは厳しそうです。予備部品があれば順次交換して切り分けることはできそうですが……。

オフライン

 

#6 2013-10-31 20:20:43

santaomura2
メンバ
From: 札幌市
登録日: 2011-10-25

Re: 科学計算時にkernel panicが生じる

私の経験からしますと、電源の不良の可能性が高いと思います。
マザーボードやCPUそのものであれば起動すら難しいかと思いますし、CPU回りであればLmセンサーなどで温度を見てみれば異常が
ある程度わかると思います。
まずは、管理者hitoさんのおっしゃるように、メモリのテストとCPUstressのテストをされてみて、原因の消し込みをして行かれることかと思います。
電源不良は交換してみるしか普通ないと思いますので、自作品でなければ購入されたところで見てもらわれたほうが良いと思います。
また電源は保証期間がかなり長いものが多いですので、購入されたところで相談して見られたらと思います。
まずはご参考まで。

オフライン

 

#7 2013-11-18 23:29:06

emerarud
新しいメンバ
登録日: 2013-10-26

Re: 科学計算時にkernel panicが生じる

epii様、hito様、santaomura2様

皆様、たくさんのアドバイスありがとうございます。ご返信が遅れて申し訳ありません。現在の状況を書き込みしたいと思います。

実は上記のコンピューターと別に自作のコンピューターをもっていまして、そのコンピュータにubuntuの入っている上記HDDを移植したところ、今ところ問題なく動作しています(Core 2 Duoのため計算がかなり遅いですが。。。)。


最近、表題のコンピュータ(書き忘れていましたが、DellのVostro470です。)で、ubuntuとは別のHDDにWinodws7もインストールしました。実はこのWinodows7でもしばしばBlue screenが生じてしまうことがわかりました。

皆様のアドバイスに従って、ハードウェアチェックを致しました。DellのHPで、CPUやメモリを診断できるサービスがありましたので、それを使用しました。。。

が、CPUチェックテスト、メモリチェックテスト、CPU負荷テスト、メモリ負荷テスト、マザーボードテスト等、色々試しましたが、未だにハードウェアのエラーは検出できていません。。。電源のテスト項目はありませんでした。

幸い、Dellのサポート期限も切れていないので、Dellに問い合わせして、電源不良の件について相談したいと思います。

オフライン

 

Board footer

Powered by FluxBB