1627   叢集的控制器連線功能沒有足夠的備援。

解說

叢集偵測到對磁碟控制器的連線沒有足夠的備援性。這表示當 SAN 又失敗時,可能就會導致無法存取應用程式資料。叢集 SAN 環境對每個磁碟控制器都應該要有備援連線。當其中一個 SAN 元件故障時,此備援性可確保作業繼續執行。

為了提供建議的備援性,應該將叢集配置為:

  • 每個節點都可透過節點上的兩個以上不同的起始器埠來存取每個磁碟控制器。
  • 每個節點都可透過兩個以上不同的控制器目標埠來存取每個磁碟控制器。附註:某些磁碟控制器只提供單一目標埠。
  • 每個節點都可透過節點上至少一個起始器埠來存取每個磁碟控制器目標埠。

如果未報告更高優先順序的錯誤,則此錯誤通常表示 SAN 設計有問題、SAN 分區有問題,或磁碟控制器有問題。

如果有優先順序更高的錯誤未修正,而且與 SAN 或磁碟控制器相關,則在解決此錯誤之前,應該先修正這些錯誤,因為這些錯誤可能指出缺少備援性的原因。必須先修正的錯誤碼如下:

  • 1210 已排除本端 FC 埠
  • 1230 已排除登入

附註:如果在有意地重新配置磁碟控制器後或 SAN 重新分區後沒有執行所需操作來為新 MDisk 重新掃描光纖通道網路,則可能會報告此錯誤。

報告的 1627 錯誤碼與許多不同的錯誤 ID 有關。錯誤 ID 指出缺少備援性的區域。事件日誌項目中報告的資料指出發現此狀況的位置。

錯誤 ID 的意義如下所示。其中會對每個錯誤 ID 指出造成該狀況最可能的原因。如果在指出的區域中未發現問題,請檢查所有 SAN 元件(交換器、控制器、磁碟、纜線和叢集)的配置和狀態,以查明發生單一失敗點的位置。

010040 只能從單一節點埠來存取磁碟控制器。

  • 節點偵測到它只透過一個起始器埠來連接到磁碟控制器,但有多個起始器埠可運作。
  • 錯誤資料指出裝置 WWNN 和所連接的埠的 WWPN。
  • 分區問題或光纖通道連接硬體錯誤可能導致此狀況。

010041 只能透過磁碟控制器的單一埠來存取磁碟控制器。

  • 節點偵測到它只連接到磁碟控制器的一個目標埠,但需要多個目標埠連線。
  • 錯誤資料指出所連接的磁碟控制器埠的 WWPN。
  • 分區問題或光纖通道連接硬體錯誤可能導致此狀況。

010042 叢集的每個節點只能存取磁碟控制器的單一埠。

  • 磁碟控制器上有多個埠可連接,但每個節點只能存取磁碟控制器的單一埠。
  • 錯誤資料指出所連接的磁碟控制器埠的 WWPN。
  • 分區問題或光纖通道連接硬體錯誤可能導致此狀況。

010043 只能透過先前配置的半數或更少的控制器埠來存取磁碟控制器。

  • 雖然磁碟控制器上可能仍有多個可存取的埠,但控制器的硬體元件可能故障,或其中一個 SAN 光纖網路故障,導致可運作的系統配置退化成單一失敗點。
  • 錯誤資料指出磁碟控制器上仍然連接的埠,還列出期望但未連接的控制器埠。
  • 磁碟控制器問題、交換器硬體問題、分區問題或纜線故障可能導致此狀況。

010044 無法從節點存取磁碟控制器。

  • 節點偵測到它無法存取磁碟控制器。從 I/O 群組的夥伴節點仍可存取控制器,因此主機應用程式仍可存取控制器的資料。
  • 錯誤資料指出遺漏的磁碟控制器的 WWPN。
  • 分區問題或纜線安裝錯誤可能導致此狀況。

010117 依站台原則而容許存取裝置的節點無法存取磁碟控制器

  • 依站台原則而容許存取裝置的節點無法存取磁碟控制器。如果磁碟控制器有多個 WWNN,則節點可能仍可透過其他 WWNN 來存取磁碟控制器。
  • 錯誤資料指出無法存取的磁碟控制器的 WWNN。
  • 分區問題或光纖通道連接硬體錯誤可能導致此狀況。

使用者回應

  1. 查看錯誤 ID 和資料,以取得該錯誤的詳細說明。
  2. 判斷是否已刻意變更 SAN 分區或磁碟控制器配置,而導致叢集變成只能存取指出的磁碟控制器。如果已進行其中任一動作,請繼續執行步驟 8。
  3. 使用 GUI 或 CLI 指令 lsfabric,以確保所有磁碟控制器 WWPN 的報告符合預期。
  4. 確保所有磁碟控制器 WWPN 已適當劃分區域供叢集使用。
  5. 檢查磁碟控制器上是否有任何未修正的錯誤。
  6. 確保所有光纖通道電纜的兩端均已連接至正確的埠。
  7. 檢查光纖通道電纜和連接器中是否發生故障。
  8. 解析問題後,請使用 GUI 或 CLI 指令 detectmdisk 在光纖通道網路中重新掃描對 MDisk 的更改。附註:除非確認已修正所有問題,否則請勿試圖偵測 MDisk。倉促偵測 MDisk 可能會掩蓋問題。
  9. 將您剛修復的錯誤標示為已修正。叢集會重新驗證備援性,如果備援性仍然不足,則會報告另一個錯誤。
  10. 移至 MAP 5700:修復驗證。

可能的原因 - FRU 或其他: