| Taiwan Sun 全球網 |
![]() |
![]() |
|
Sun 為主流企業帶來已經完成產品化準備的 HPC 高效能電腦 (HPC) 長期以來對於學術與研究機構而言都是非常重要的,隨著各種產業對於複雜運算的需求越來越高,有越來越多的企業組織正考慮採用 HPC 作為核心工具。例如:
您如何知道您的工作環境是否已經備妥可以使用 HPC?Sun 如何協助您了解? Sun Inner Circle 與 Sun HPC 暨整合系統部門總裁 Bjorn Andersson 對談,以了解 Sun 如何讓 HPC 可供企業資料中心使用,以及今年六月於德國國際超級電腦會議 (ISC) 展示之新發表的 Sun Constellation 系統 – 全世界第一部開放式 Petascale 架構。 INNER CIRCLE:Sun 推出已備妥產品化之 HPC 的意義為何? ANDERSSON: 已備妥產品化之 HPC 是為了提供客戶超級電腦運算能力,在學術與科學研究機構中已經正在使用 — 同時避免在執行這些複雜系統時可能帶來的問題並降低成本。它的意義在於在提供客戶期待可在 HPC 架構中獲得的可用性、可靠性及安全性。 其目的是使 HPC 更簡單、更容易獲得、以及更容易讓各種產業之企業進行部署,其架構可由單一機架擴充至具有難以置信之運算速度的大規模超級電腦。 IC:此架構包含什麼? ANDERSSON: 我們的方式是將整個叢集視為一個系統,亦即所使用之個別伺服器或軟體均為此大型系統的元件之一。我們的HPC架構的主要元件包括 Sun x64 伺服器及儲存設備、新型 Sun InfiniBand 交換器、Solaris 10 作業系統, 及 Sun Grid Engine 以管理整個叢集的工作負載。另外還有我們的 HPC Quick Start Services ,能夠在工廠完成設定組態並提供可立即運轉之解決方案,以降低 HPC 環境之建立與運轉的成本並縮短時間。
Sun 擁有中階 HPC 安裝的紀錄 — 兩天以內,從送貨卡車抵達,到 512 個節點的叢集開始運轉 — 地點在密西西比州立大學。
IC:建立 HPC 系統並開始運轉,需要多少時間? ANDERSSON: 以高階 HPC 系統而言,業界標準是花數個月的時間,逐漸進入運轉模式。以中階而言,通常需要數週的時間來完成安裝。但是 Sun 持續突破這些平均值,並以破紀錄的時間提供已完成產品化準備的 HPC。 在高階方面,Sun 在約一年前於 Tokyo Tech 安裝可服務 10,000 名學生的超大型叢集 — 這個叢集在一個月之內建置完成並開始運作。在中階方面,密西西比州立大學是一個很好的例子,Sun 在此案例中創下 HPC 安裝記錄 — 從送貨卡車抵達,到建置完成 512 個節點的叢集並開始運轉,兩天之內完成。 IC:有何跡象顯示企業已經準備好使用 HPC?這類運算設備仍屬於學術與研究機構的領域不是嗎? ANDERSSON: 企業最終還是需要使用 HPC。模擬與解決更多複雜的問題,是大多企業組織營運作業的一部份。我發現一件很有意思的事情,不只是我們大多數人認為的企業會在這幾年特別注意 HPC,例如汽車業、能源業及製藥業。包括金融服務業、保險業也越來越傾向採用 HPC 來執行複雜的風險分析及證券投資。娛樂業也尋求使用 HPC 來處理運算動畫電影。而針對各種產業的企業,HPC 提供可擴充的平台以最佳化商業程序。 一旦商業需求確立之後,企業必須檢查 HPC 如何符合資料中心檢查表的項目,例如成本、可擴充性、及可管理性 — 以及電源及空間需求。 過去若要開始使用 HPC,需要面臨相當高的門檻。但有了全新以標準為基礎的 HPC 系統,各種產業的企業均可在能力範圍內擁有 HPC,並且可立即開始。因為 HPC 可以加快產品的上市速度,協助企業領先競爭業者。HPC 很快地就會成為其事業及其設計與分析作業中不可或缺的工具。HPC 將成為其工作中不可或缺的利器,就像汽車製造業所倚賴的焊接機器人。
IC:Sun 在 HPC 中提供何種電腦運算能力? ANDERSSON: 視情況而定。我們可以執行小型安裝,也可以將硬體運算能力推至極限。目前,位於奧斯丁德州大學的德州先進電腦中心 (TACC)正在部署一個包含新款 Sun Constellation 系統及標準 Sun 元件的叢集,運算能力超過 500 TeraFLOP,相當於每秒運算 500 兆次。 比較適合於商用資料中心的候選名單應該是 TACC 正在使用的單一或雙機架的伺服器,或可安裝於 4U 空間內、搭載 256 GB 記憶體的 Sun Fire X4600 M2 伺服器。這兩種部署方式均以標準元件及開放式介面為基礎,可由小型機架電腦一路升級至 Petascale 超級電腦運算效能。 IC:這樣的效能如何符合大多數企業期待 HPC 所能提供的效能? ANDERSSON: 可擴充性是 Sun 客戶所期待的 — 而他們可以期待 HPC 具有此特性。很重要的是要了解 HPC 已經逐漸發展至其根源的學術與研究領域之外。大多數投資於這些系統的企業希望以低成本獲得高效能與可靠性,而且這些系統可以快速地安裝並提供服務,如同其他 IT 投資一樣。最令人感到幸運的是,Sun 在這些領域擁有數十年的經驗。 IC:採用 Sun 伺服器做為 HPC 系統的骨幹,在電力及散熱方面是否有何優勢? ANDERSSON: Sun x64 及刀鋒系統 特別具有能源效率,其具備許多功能設計,協助確保無須降低 CPU 速度來符合溫度的要求,因此 Sun 客戶可同時獲得速度與能源效率。此外,我們的刀鋒伺服器提供更高等級的能源效率,超越大多數機架系統。針對 HPC 環境,Sun 提供每機架 48 部刀鋒的組態,結合 Sun Grid Engine 工作負載管理,可大幅提昇利用率達 98%。 IC:Sun 如何降低 HPC 環境在傳統資料中心內執行時的複雜性? ANDERSSON: Sun Grid Engine 6.1 可藉由跨多部電腦及 HPC 網格來分散工作負載的方式,協助降低管理HPC的時間與支出。基本上,Grid Engine 可平衡需要使用可用運算資源來完成的工作,因此專案工作可更快速的執行,而且不會讓電腦閒置或負載過大。 在可設定性方面,Sun Grid Engine 允許插入指令檔,並可依據使用者的希望覆寫行為,這要歸功於它的分散式資源管理 (DRM) 。DRM 是 TACC 選擇 Sun Grid Engine 來管理其 HPC 基礎架構的原因之一。此外,用於工作上傳、監視及控制的 API 是不拘語言種類的,因此開發人員可以撰寫應用程式與超級電腦網格整合,並且在其他 DRM API 之間具有可攜性。 IC:Sun Grid Engine 如何管理多個叢集? ANDERSSON: 由於企業組織最終將需要更多的運算能力,如果隨著叢集擴充將使得管理工作更加困難,那麼在資料中心內加入 HPC 就是很合理的作法。Grid Engine 可以透過單一主要政策來指揮所有叢集,在各電腦之間拉起一條虛擬的線路。如此可協助確保當組織對 HPC 的需求增加之際,最重要的專案可持續獲得優先權。 IC:Sun Grid Engine 與市場上其他競爭產品的比較結果如何? ANDERSSON: 問題在於支援與成本。市場上沒有相同以開放資源製作的產品,而這些僅具有較少功能的專屬技術競爭產品的成本高於 Sun Grid Engine 數倍之多。Grid Engine 的授權可讓客戶使用多個 CPU,而專屬技術的競爭產品則以核心數做為銷售計價方式。另外,Grid Engine 中有些應用程式對於企業而言非常重要,而且在這些競爭產品中並沒有提供公用程式運算功能。這些功能包括透過 SQL 資料庫使用會計資料,以及透過簡易的查詢提供網格活動的概觀。 IC: Solaris OS 在 Sun HPC 架構中位居哪個位置? ANDERSSON: 目前,我們供應了許多採用 Linux 的學術與研究 HPC 環境。但是 Solaris 更適合生產環境。它的設計可因應節點複雜性及延遲,例如在超級運算環境中。如果您需要支援內含四個處理器的刀鋒 — 而且這些處理器都具有四個核心 — 管理所有 16 個核心的工作複雜性將會增加。 如果只有兩個 CPU,記憶體有 50% 的機會附屬於正在執行作業的 CPU,因此通常會帶來良好的效能。但是當有更多個 CPU 及核心時,則機率就大幅降低。藉由其記憶體配置最佳化功能,Solaris 可確保由適合的 CPU 負責適合的工作,這將提升 HPC 效能並減少延遲。 IC: Solaris 與 Linux 在 HPC 環境中的擴充性的比較結果如何? ANDERSSON: Solaris 已經通過各種考驗,多年來已經展現其在更高階多重處理器系統中的擴充能力,顯示它真正這些新的多核心系統中可發揮其價值。在 HPC 中,很重要的是要注意浮點運算的頻寬,以確保處理器能充分接收資料,並且盡量避免過渡負載。例如,藉由其虛擬記憶體功能,Solaris 亦可支援高達 1 GB 分頁大小,而 Linux 則受限於 8000-byte 分頁大小。這使得 Solaris 能夠更有效率地處理 HPC 應用程式預期將接收的資料量。在例如 TACC 的安裝環境中,作業系統控制 InfiniBand 交換光纖管理員、電腦節點、以及儲存設備。雖然 Sun HPC 架構可輕鬆執行於Linux,但透過 OpenSolaris.org ,您可以免費獲得 Solaris 10 的所有先進功能。 IC:儲存設備是任何超級電腦叢集的關鍵原見。Sun HPC 架構在此領域的建構方式為何? ANDERSSON: HPC 儲存設備有一個獨特的選項是Sun的資料伺服器。配備 1TB 磁碟機的 Sun Fire X4500 伺服器 可在單一機架中提供接近二分之一 Petabyte 儲存容量 — 而且在 TACC 安裝案例中,此伺服器將用來提供 1.7 Petabytes 儲存容量。此儲存量仍可被超越。歐洲核能研究組織 (European Organization for Nuclear Research) 使用 100 部以上的 Sun Fire X4500 伺服器以儲存超過 2.5 Petabyte 的資料。大多數企業僅需這些伺服器中的一部或兩部就足夠,每部可在 4U 機架空間中搭載 24 至 48 TB 的資料。此外,Sun 提供完整的 儲存解決方案,從非常高效能的叢集連線儲存設備,到企業資料及安全磁帶備份解決方案。 我應該補充一下,Solaris 在儲存設備的作業系統上扮演極重要的角色,因為在這些龐大的環境中,要將 1 Petabyte 或更多的資料存入儲存區域網路是有困難的。例如,TACC 可使用 Solaris 作為執行此儲存伺服器的平台,將儲存直接配置於 InfiniBand 網路。 IC:Sun 認為 HPC 架構在高階的擴充性如何? ANDERSSON: 目前,根據 Top 500 清單,某些最大規格的超級電腦採用多個相對較慢的處理器、每個節點較少的記憶體、以及專屬的互連方式。與 Sun Constellation 系統相較,我們採用目前最快速的業界標準處理器,並且每節點具備業界最大量的記憶體。而且我們採用業界標準的高頻寬與低延遲的連線方式。 這使得我們得以充分運用整個業界的投資所帶來的優勢,降低常用元件的的成本曲線,並提供客戶更多的選擇。我們透過 Sun Constellation 系統為市場帶來系統層級的創新。這些創新具備完整的叢集做為設計重點,並將焦點放在真正的擴充上,從 1 TeraFLOP 的單一機架或以下,到超過 1 PetaFLOP,可在相同的相容架構中達到 1000 倍的擴充倍數。 IC:為什麼企業會對於 Petascale HPC 感興趣? ANDERSSON: Petascale 電腦運算對於今日大多數企業的需求而言是非常先進的,但在這幾年內,勢必將成為非常普遍的事情。對於許多組織而言,建立模型並解決更複雜的問題已成為日常工作的一部份,而且我覺得這個動能將很難會趨緩下來,因為企業之間的競爭壓力將會加快這個趨勢。我確實相信在未來,對於許多企業而言,邁向更高運算能力的擴充之路,將是非常重要的。 |
| ||||||||||||||||||||||||||