您好,登錄后才能下訂單哦!
這篇文章給大家介紹保持RAC群集環境穩定當前必須要做的11件事分別是哪些,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
保持 RAC 群集環境穩定當前必須要做的 11 件事 [ID 1525819.1]
In this Document
Purpose |
Scope |
Details |
1. 在您的環境中應用最新的 Patchset Update (PSU) |
2. 確保 UDP 緩沖區大小合適 |
3. 在所有版本 10.2 和 11.1 集群上將 DIAGWAIT 的值設置為 13 |
4. 在 Linux 環境中實施 HugePage |
5. 實施 OS Watcher 和(或) Cluster Health Monitor |
6. 按照最佳實踐配置 OS 設置 |
7. 確保在 AIX 平臺上應用合適的 APARS 以避免出現過量分頁/交換問題 |
8. 應用 NUMA 補丁 |
9. 增加 Windows 非交互式 Desktop Heap |
10. 運行 RACcheck 實用程序 |
11. 使用 slewing 選項實施 NTP |
References |
Oracle Database - Enterprise Edition - Version
10.2.0.1 to 11.2.0.2 [Release 10.2 to 11.2]
Information in this document
applies to any platform.
</style.
許多 RAC 不穩定的問題皆可歸因于沒有實施一個其實很短的最佳實踐和(或)配置列表。本文檔旨在提供一種簡單的方法,找出這些常被遺漏的最佳實踐和(或)配置問題的列表,以期可以防止這些問題引起的系統不穩定。
本文章適用于所有 RAC 實施過程。
適用平臺:所有平臺
原因: 10.2.0.4 及更高版本中引入了
Patchset Updates (也稱為 PSU),主要是為了改進 CPU 修補策略。PSU 按季度推出,其中包括最新的
CPU,另外它們也包含其它對保持您的環境穩定性非常重要的修正。如果要進行全新安裝,應始終應用最新的 PSU
作為您的基線。對于現有安裝,一個必須實施的策略就是定期和持續的應用最新的 PSU 。許多提交給 Oracle Support 并被確認為屬于 bug
的問題都是已知 bug,其中許多 bug 已在最新的 PSU 得到修正。請注意,在 Windows 上,會更經常推出累積型的補丁包,但是在季度 PSU
版本期間發行的 Windows bundle patch 中包含了最新的 PSU 修正程序。
更多信息:有關
PSU 的更多信息,請參閱以下文檔:
Document 854428.1
Intro to Patch Set Updates (PSU)
Document
1082394.1 11.2.0.X Grid Infrastructure PSU Known Issues
Document 756671.1
Oracle Recommended Patches -- Oracle Database
Document 161549.1
Oracle Database, Networking and Grid Agent Patches for Microsoft Platforms
適用平臺: Windows 除外的所有平臺
原因: 私網可以說是 RAC
數據庫的命脈。但是,如果未向 UDP
分配合適的緩沖空間用以發送和接收緩沖,則私網的性能將大幅降低。這將會導致您的集群出現穩定性問題。
更多信息:有關正確調整
UDP 緩沖區的更多信息,請參考以下文檔:
Document 181489.1
Tuning Inter-Instance Performance in RAC and OPS
Document 563566.1
gc lost blocks diagnostics
注意: Windows 集群對 Cache fusion 通信使用 TCP,因此,UDP 緩沖區設置不適用于 Windows。
適用平臺: Windows 除外的所有平臺
原因: 在 10gR2
(10.2.x) 和 11gR1 (11.1.x) 中,OPROCD 守護進程的默認容差僅設置為 500 毫秒(0.5
秒)。對于非常繁忙的系統,此容差可能過小,因此負載繁重的系統可能會出現錯誤重啟的情況。將 diagwait 設置更改為 13 后,OPROCD 的容差變成
10,000 毫秒(10 秒),為繁忙的系統提供了更長容差,可避免出現錯誤重啟的情況。另外,如果出現節點重啟的情況,設置diagwait
能夠提供更多的時間將診斷信息刷新到跟蹤文件中,以供進一步診斷使用。此更改不能包含在補丁集中,因為必須關閉整個集群才能實施。但是,我們仍然強烈建議在所有
10gR2 和 11gR1 群集上將此值更改為
13。對于新實施的集群,應在安裝后立即進行此更改。對于現有的安裝,應當安排停機時間,以盡快進行此項更改。可通過以下命令確認當前設置:
# $CLUSTERWARE_HOME\bin\crsctl get css diagwait
注意:此設置不適用于 Windows 環境,也不適用于 11gR2 版本(11.2.0.1 和更高版本)。
更多信息:有關 DIAGWAIT 的更多信息,請參考以下文檔中的內容:
Document
559365.1 Using Diagwait as a diagnostic to get more information for
diagnosing Oracle Clusterware Node evictions
Document
567730.1 Changes in Oracle Clusterware on Linux with the 10.2.0.4
Patchset
適用平臺: 所有 LINUX 64 位平臺
原因: 在 Linux 環境中實施 HugePage 能夠極大地提高內核性能。對于內存較大的系統,效果尤其明顯。一般而言,所有 RAM 大于 12GB 的系統都適合使用 Hugepage。系統中的 RAM 越大,系統啟用 Hugepage 后獲得的好處也越大。這是因為內核為映射和維護內存頁表所要做的工作量會隨著系統內存的增大而增加。啟用 Hugepage 能夠顯著地降低內核要管理的頁面數,而且能提高系統的效率。經驗表明,如果未啟用 Hugepage,內核擠占關鍵的 Oracle Clusterware 或 Real Application Clusters 守護進程的情況會很常見,而這會導致實例或節點驅逐出現。
注意:在 Linux 平臺上,11g Automatic Memory Management (AMM) 與 HugePage 不兼容。最佳實踐是禁用 AMM,以支持 HugePage。有關 Linux 上的 AMM 和 HugePage 的更多信息,請參閱Document 749851.1
更多信息:
Document 361323.1
HugePages on Linux: What It Is... and What It Is Not...
Document
401749.1 Shell Script. to Calculate Values Recommended Linux HugePages /
HugeTLB Configuration
適用平臺: 所有平臺
原因: 雖然 OS Watcher 和
Cluster Health Monitor 與穩定性并不直接相關,但是,對于確定 OS
狀態和分析導致節點或實例驅逐的許多問題的潛在根本原因方面,它們卻是非常好用的工具。如果在第一次發生某個問題后就有合適的數據可用于診斷這個問題,則可縮短確定根本原因的時間,而且能防止以后出現停機。大部分類似的第三方數據收集工具的收集間隔時間都比較長(如
5 分鐘或更長),而且(或者)它們很難被解釋,或收集到的數據不正確。OS Watcher 是一款非常簡單的小型工具,每 30 秒鐘(默認)收集一次 OS
的基本信息。Cluster Health Monitor 雖然不適用于所有平臺,但它能夠更精細地實時收集數據,可以補充 OS Watcher
的不足之處。應當在所有集群節點上全天候運行這兩個實用程序或其中一個,有助于更快地診斷和調試問題。
更多信息:
Document 301137.1
OS Watcher User Guide
Document
1328466.1 Cluster Health Monitor (CHM) FAQ
Document 580513.1
How To Start OSWatcher Black Box Every System Boot (Linux specific)
(請參閱 Oracle / IBM 針對系統穩定性進行內存優化而聯合編寫的白皮書)
適用平臺: 所有 AIX 版本
原因: Oracle
Real Application Clusters on IBM AIX Best practices in memory tuning and
configuring for system stability (Oracle Real Application Clusters on
IBM AIX
針對系統穩定性進行內存優化和配置的最佳實踐)白皮書是這兩大供應商根據共同的經驗進行聯合測試與合并最佳實踐后的精華。經驗表明,如果遵照本白皮書的建議,可以解決
RAC/AIX 集群中的大多數穩定性問題。AIX 版本 6.1 已將其中的多數建議作為默認值包含在內,但仍應在所有 AIX RAC 群集上確認這些設置,不論哪個
OS 或 Oracle 版本。
更多信息:
白皮書下載地址: http://www.oracle.com/technetwork/database/clusterware/overview/rac-aix-system-stability-131022.pdf
Document
811293.1 RAC Assurance Support Team: RAC Starter Kit and Best Practices
(AIX)
適用平臺: 所有 AIX 版本
原因: 經驗表明,這是很常見的會影響 AIX 環境的問題。鑒于此問題的性質,任何易受此問題影響的用戶應該都有過系統完全掛起的經歷。在非 RAC
環境中,此問題會導致系統掛起,直到進行手動干預為止。而在 RAC
環境中,此問題會由于節點無法響應導致出現節點驅逐的情況。
更多信息: 有關此問題的更多信息,請參考 Document
1088076.1 Paging Space Growth May Occur Unexpectedly on AIX Systems With 64K
(medium) Pages Enabled
注意: 該文章中列出的 APAR 版本和編號特定于給定的Technology Level (TL)。您需要應用的實際 APAR 或修正程序編號將取決于您使用的 AIX (Technology Level, TL)。請與 IBM 聯系,確認是否已進行此項修正,如果尚未進行,確認需要哪種 TL 或 APAR 才能進行此項特定的修正。
適用平臺: 所有平臺
原因: 從
10.2.0.4 和 11.1.0.7 RDBMS 補丁集開始,可在支持 NUMA 的平臺(取決于 OS 和硬件)上進行 NUMA 優化。在(支持 NUMA
的系統中的)RDBMS 代碼中應用 NUMA 會觸發一些導致數據庫性能降低和不穩定的 bug。與 10.2.0.4 和 11.1.0.7 中的 NUMA
優化相關的癥狀/問題相關的完整列表,請見 Document
759565.1。如果要運行 10.2.0.4 或 11.1.0.7 補丁集,Oracle 強烈建議將 Patch 8199533 應用于系統,以預先解決這些 NUMA 相關的問題。
適用平臺: Windows 平臺
原因: 現已發現,Windows 集群上的非交互式 Desktop Heap
的默認大小不夠。這會導致出現應用程序連接問題和集群總體不穩定(掛起和/或崩潰)的問題。要有效地解決此問題,建議將非交互式 Desktop Heap增加到
1MB。如果沒有 Microsoft 參與,不應超過建議的 1MB。
更多信息: 關于如何對非交互式
Desktop Heap進行上述調整的說明,請見 Document
744125.1.
適用平臺: Linux(x86 和 x86_64)、Solaris SPARC 和 AIX(使用 bash
shell)
原因: RACcheck 是一款 RAC
配置審核工具,主要用于審核 Real Application Clusters (RAC)、Oracle Clusterware (CRS)、Automatic
Storage Management (ASM) 和 Grid Infrastructure (GI) 環境中各個重要的配置設置。此實用程序用于驗證由 RAC
Assurance 開發和支持團隊維護的 RAC 和 Oracle Clusterware 最佳實踐和初學者指南文章(請參閱 Document
810394.1)系列定義的最佳實踐和成功因素。我們強烈建議在 RACcheck 支持的平臺上運行 RAC
的客戶使用此工具識別會影響集群穩定性的潛在配置問題。
更多信息: 有關 RACcheck
的更多信息和下載此實用程序的鏈接請參見 Document
1268927.1.
適用平臺: 所有 Linux 和 Unix
平臺。
原因: 如果沒有 slewing
選項,在時間差異超過特定(取決于平臺)閾值時,NTP 將向前或向后調整系統時鐘。大幅度向后調整時間會導致 Clusterware
以為錯過了簽到,從而發生節點驅逐的情況。出于此原因,我們強烈建議將 NTP 配置調整為 slewing time
(加快或減慢)時鐘時間以同步時間,以防止此類驅逐情況的發生。有關如何在您的平臺上實施 NTP 時間調整的更多信息,請參考平臺特定的 RAC 與 Oracle
Clusterware 最佳實踐和初學者指南文檔(見下文)。
更多信息:
Document 811306.1
RAC and Oracle Clusterware Best Practices and Starter Kit (Linux)
Document 811280.1
RAC and Oracle Clusterware Best Practices and Starter Kit (Solaris)
Document 811271.1
RAC and Oracle Clusterware Best Practices and Starter Kit (Windows)
Document 811293.1
RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)
Document 811303.1
RAC and Oracle Clusterware Best Practices and Starter Kit (HP-UX)
</style.
NOTE:401749.1 -
Shell Script. to Calculate Values Recommended Linux HugePages / HugeTLB
Configuration
NOTE:1054902.1 -
How to Validate Network and Name Resolution Setup for the Clusterware and
RAC
BUG:13623902
- NODE EVICTIONS ON RAC CLUSTER AFTER EXCESSIVE PAGING
NOTE:756671.1 -
Oracle Recommended Patches -- Oracle Database
NOTE:759565.1 -
Oracle NUMA Usage Recommendation
NOTE:559365.1 -
Using Diagwait as a diagnostic to get more information for diagnosing Oracle
Clusterware Node evictions
NOTE:563566.1 -
Troubleshooting gc block lost and Poor Network Performance in a RAC
Environment
NOTE:567730.1 -
Changes in Oracle Clusterware on Linux with the 10.2.0.4 Patchset
NOTE:744125.1 -
Connections Fail with ORA-12640 or ORA-21561
NOTE:749851.1 -
HugePages and Oracle Database 11g Automatic Memory Management (AMM) on
Linux
NOTE:1427855.1 -
AIX: Top Things to DO NOW to Stabilize 11gR2 GI/RAC Cluster
NOTE:810394.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Platform.
Independent)
NOTE:811271.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Windows)
NOTE:811280.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Solaris)
NOTE:811293.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)
NOTE:811306.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Linux)
NOTE:854428.1 -
Patch Set Updates for Oracle Products
NOTE:1268927.1 -
RACcheck - RAC Configuration Audit Tool
NOTE:1328466.1 -
Cluster Health Monitor (CHM) FAQ
NOTE:161549.1 -
Oracle Database, Networking and Grid Agent Patches for Microsoft Platforms
NOTE:1082394.1 -
11.2.0.1.X Grid Infrastructure PSU Known Issues
NOTE:1088076.1 -
AIX: Paging Space Growth May Occur Unexpectedly With 64K (medium) Pages
Enabled
NOTE:181489.1 -
Tuning Inter-Instance Performance in RAC and OPS
NOTE:301137.1 -
OSWatcher Black Box User Guide (Includes: [Video])
NOTE:361323.1 -
HugePages on Linux: What It Is... and What It Is Not...
相關內容… |
產品… |
Oracle Database Products > Oracle Database > Oracle Database > Oracle Database - Enterprise Edition > Real Application Cluster > OUI and other Installation Issues
關鍵字… |
CHINESE;CLUSTERWARE;CRASH;CRS;EVICTION;GRID INFRASTRUCTURE;INFRASTRUCTURE;RAC;REAL APPLICATION CLUSTERS
關于保持RAC群集環境穩定當前必須要做的11件事分別是哪些就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。