
چگونه سرور های HP و کارت های گرافیک NVIDIA عملکرد هوش مصنوعی را چند برابر میکنند؟

چگونه سرور های HP و کارت های گرافیک NVIDIA عملکرد هوش مصنوعی را چند برابر میکنند؟؟
این محتوا برای متخصصانی طراحی شده است که میخواهند کارایی سرورهای HP و GPU در پروژههای هوش مصنوعی را افزایش دهند.اگر در زمینهی طراحی زیرساخت AI، یادگیری عمیق یا مدیریت سرورهای GPU فعالیت دارید، این مقاله از سهند سرور راهنمای کاملی برای شماست.
هوش مصنوعی سالهاست که موتور اصلی نوآوری در زمینهی تحقیق و توسعه است. اما امروز این فناوری از آزمایشگاهها فراتر رفته و به مرحلهی تولید (Production AI) وارد شده است.
بر اساس گزارش مؤسسهی Gartner، تنها در چهار سال، میزان استفاده از هوش مصنوعی در سازمانها بیش از ۲۷۰ درصد رشد داشته است. این رشد نشان میدهد که AI دیگر فقط یک فناوری آزمایشی نیست، بلکه قلب تپندهی بسیاری از صنایع است.
نقش هوش مصنوعی در صنایع مختلف
در حال حاضر تقریباً تمام صنایع در حال استفاده از یادگیری عمیق (Deep Learning) و هوش مصنوعی برای بهبود عملکرد خود هستند:
- شرکتها با پردازش زبان طبیعی (NLP) پشتیبانی هوشمند و ترجمهی لحظهای ارائه میدهند.
- فروشگاههای آنلاین با تحلیل داده و AI پیشنهادات شخصیسازیشده نمایش میدهند.
- تولیدکنندگان از AI برای پیشبینی خرابی و کنترل کیفیت استفاده میکنند.
- شرکتهای مالی از الگوریتمهای یادگیری ماشین برای جلوگیری از تقلب و تحلیل رفتار مشتری بهره میبرند.
- بیمارستانها از تشخیص خودکار تصاویر پزشکی با دقتی بالاتر از انسان استفاده میکنند.
- خودروسازان با کمک AI و GPU Server مسیر رسیدن به خودروهای خودران را هموار کردهاند.
چالش زیرساختی در پروژههای AI
با حرکت از فاز تحقیق به فاز تولید، حجم دادهها به دهها یا حتی صدها پتابایت میرسد.
برای آموزش مدلهای بزرگ، سازمانها به سرورهایی نیاز دارند که از چندین کارت گرافیک (GPU) پشتیبانی کنند و بهصورت خوشهای (Clustered) با هم کار کنند.
در این شرایط، ذخیرهسازی محلی (Local Storage) دیگر پاسخگو نیست، چون دادهها بسیار عظیمتر از ظرفیت آن هستند.
راهحل، استفاده از سیستم فایل موازی (Parallel File System) است که به چند سرور اجازه میدهد همزمان به یک فایل دسترسی داشته باشند — بدون افت عملکرد.
راهحل HPE برای هوش مصنوعی توزیعشده
شرکت HPE (Hewlett Packard Enterprise) با همکاری شرکای تکنولوژیک خود — یعنی NVIDIA، WekaIO و Mellanox — راهکاری کامل برای اجرای پروژههای هوش مصنوعی در مقیاس سازمانی ارائه داده است.
در این معماری:
- سرورهای HPE Apollo 6500 Gen10 هستهی اصلی پردازش هستند.
- کارتهای گرافیک NVIDIA Tesla V100 قدرت محاسباتی مورد نیاز برای یادگیری عمیق را فراهم میکنند.
- سیستم فایل WekaIO Matrix دسترسی بسیار سریع به دادهها را ممکن میسازد.
- و شبکههای Mellanox ارتباط بین سرورها و فضای ذخیرهسازی را با سرعت بالا برقرار میکنند.
مزایای این ترکیب قدرتمند
استفادهی کامل از توان GPU بدون ایجاد گلوگاه در I/O
کاهش زمان آموزش مدلهای هوش مصنوعی
افزایش سرعت استنتاج (Inferencing)
بهرهوری بالاتر در مقیاسهای سازمانی
مقیاسپذیری ساده و قابل اطمینان برای آینده
جمعبندی
HPE با همکاری NVIDIA، WekaIO و Mellanox زیرساختی کامل برای محیطهای هوش مصنوعی سازمانی (Production AI) ارائه میدهد.
این راهکار به کسبوکارها کمک میکند تا مدلهای AI خود را سریعتر آموزش دهند، هزینهها را کاهش دهند و به نتایج دقیقتر دست پیدا کنند.
جریان داده در یادگیری عمیق (Deep Learning Dataflow)
در یک وایتپیپر مشترک پیشین با عنوان «شتابدهی به ارزش و بینشهای هوش مصنوعی»، پیچیدگیهای جریان داده در یادگیری عمیق (Deep Learning) مورد بررسی قرار گرفت:

برای استفاده از دادهها در آموزش مدلهای یادگیری عمیق (DL)، ابتدا باید دادهها جمعآوری، پاکسازی و پیشپردازش شوند تا بخشی از دیتاست آموزشی باشند.
برای اطمینان از اینکه مدل آموزشدیده عملکرد، دقت و کیفیت استاندارد را دارد، لازم است در مرحلهای به نام اعتبارسنجی مدل (Model Validation) با استفاده از استنتاج (Inferencing) آزمایش شود. ممکن است این فرآیند چندین بار تکرار شود تا مدل به سطح قابل قبول برای محیط تولید برسد.
مدل جریان دادهای که در این مقاله بررسی میشود، دیدگاهی ساده از یک سرور واحد نسبت به جریان داده ارائه میدهد تا فرایند کلی به صورت قابل فهم و ساده نشان داده شود، همانطور که در شکل 1b قابل مشاهده است.

در یک محیط محاسباتی توزیعشده و خوشهای (Distributed, Clustered Compute Environment)، مدل سادهی جریان داده هنوز معتبر است، اما جریان واقعی دادهها بسیار پیچیدهتر میشود.
در چنین محیطی:
چندین سرور ممکن است همزمان نیاز به دسترسی به یک دیتاست مشترک داشته باشند.
جریان واقعی دادهها میتواند بین چندین سرور به صورت همزمان و مخلوط رخ دهد.
در توپولوژی بنچمارک ما، یک منبع داده واحد (Single Data Source) به چهار سرور متصل شده است، همانطور که در شکل 1c نشان داده شده است. این طراحی به درک بهتر چگونگی مدیریت دادهها در محیطهای توزیعشده AI کمک میکند.

در این بنچمارک، از رویکرد دادههای موازی (Parallel Data Approach) برای توزیع آموزش مدل بین سرورها استفاده میکنیم.
هر سرور بخشی از آموزش مدل را انجام میدهد و سپس نتایج بین سرورها به اشتراک گذاشته میشود تا یک بهروزرسانی کلی برای مدل محاسبه شود.
این روش به افزایش سرعت آموزش و بهرهوری منابع GPU کمک میکند و برای محیطهای هوش مصنوعی توزیعشده و تولیدی (Production AI) ایدهآل است.
زیرساخت یادگیری عمیق (Deep Learning Infrastructure)
انتخاب زیرساخت مناسب تأثیر مستقیم روی عملکرد و مقیاسپذیری جریان کاری یادگیری عمیق (DL) دارد. پیچیدگی مدل، حجم دادهها و نوع ورودی (تصویر، متن و غیره) مشخص میکند که به چند GPU، چند سرور، نوع شبکه و نوع ذخیرهسازی نیاز دارید. هرچه محیط پیچیدهتر باشد، نیاز به متعادلسازی دقیق اجزا بیشتر است.
شرکت HPE با ترکیب بهترین قطعات، زیرساختی قدرتمند برای DL فراهم کرده است:
GPUهای NVIDIA
شبکه 100 گیگابیت InfiniBand از Mellanox
سیستم فایل موازی و پرسرعت WekaIO Matrix
محاسبات: سرور HPE Apollo 6500 Gen10
سرور HPE Apollo 6500 Gen10 یک پلتفرم ایدهآل برای یادگیری عمیق است که با GPUهای پیشرفته، ارتباطات سریع بین GPU و پهنای باند بالا انعطاف و عملکرد عالی ارائه میدهد.
ویژگیها:
پشتیبانی تا ۸ GPU در هر سرور
ارتباط سریع NVIDIA NVLink برای GPU-to-GPU
پردازندههای Intel Xeon Scalable
قابلیت پیکربندی انعطافپذیر برای انواع بار کاری
قابلیت اطمینان و خدمات RAS (Reliability, Availability, Serviceability)
GPU: NVIDIA Tesla V100
هر سرور HPE Apollo 6500 میتواند تا ۸ کارت گرافیک NVIDIA Tesla V100 SXM2 32GB را پشتیبانی کند. این GPUها:
مبتنی بر معماری NVIDIA Volta هستند
سرعتی برابر با ۱۰۰ پردازنده (CPU) ارائه میدهند
توان پردازش 15.7 TFLOPS برای محاسبات تکدقت و 125 TFLOPS برای DL دارند
با استفاده از NVLink، اتصال GPUها با پهنای باند بالا تا ۳۰۰ GB/sec امکانپذیر است
این ترکیب باعث میشود مدلهای پیچیده AI با دادههای حجیم به سرعت آموزش داده شوند.
شبکه: Mellanox 100Gb EDR InfiniBand
وقتی حجم دادهها و بار کاری GPU از ظرفیت یک سرور HPE Apollo 6500 فراتر رود، داشتن شبکه پرسرعت و پایدار حیاتی است. شبکه Mellanox:
اتصال سریع بین سرورها و ذخیرهسازی اشتراکی فراهم میکند
با فناوریهایی مثل RDMA و GPUDirect، مقیاسپذیری و کارایی DL را افزایش میدهد
سرعت شبکه از ۱۰ تا ۱۰۰ گیگابیت بر ثانیه قابل تنظیم است
ذخیرهسازی: WekaIO Matrix
برای استفاده کامل از GPUها، HPE با WekaIO همکاری کرده تا ذخیرهسازی مشترک پرسرعت ارائه دهد:
MatrixFS: سیستم فایل موازی و بهینهشده برای NVMe
مقیاسپذیری بالا، بدون ایجاد گلوگاه یا نقاط داغ (Hotspots)
پشتیبانی از حفاظت داده توزیعشده (MatrixDDP)
سرعت بالا برای پردازش دادهها و اشباع GPUها
مقیاسپذیری خطی تا صدها سرور و نود ذخیرهسازی
مثال عملکرد: ۸ سرور HPE ProLiant DL360 با شبکه Mellanox 100Gb و WekaIO Matrix میتوانند:
سرعت 30 GB/sec برای خواندن دادههای 1MB
بیش از 2.5 میلیون IOPS برای دادههای تصادفی 4K
این زیرساخت حتی بزرگترین دیتاستهای آموزش DL را به راحتی مدیریت میکند.
راهنمای منابع یادگیری عمیق HPE
شرکت HPE منابع متعددی برای طراحی و ارزیابی عملکرد معماریهای هوش مصنوعی ارائه میدهد:
HPE Deep Learning Cookbook: ارائه استانداردهای بنچمارک و بینشهای مربوط به بارهای کاری یادگیری عمیق (DL Workloads).
HPE Deep Learning Benchmarking Suite: ابزاری خودکار برای بنچمارکگیری که عملکرد پیکربندیهای مختلف راهکار را به صورت یکپارچه و استاندارد اندازهگیری میکند.
HPE Deep Learning Performance Guide: یک پایگاه دانش از نتایج بنچمارک که امکان جستجو، تحلیل و پیشبینی عملکرد را بر اساس مدلهای تحلیلی فراهم میکند. همچنین، پیکربندیهای پیشنهادی (Reference Solution Configurations) برای برخی بارهای کاری ارائه شده است.
این منابع به دانشمندان داده و تیمهای IT کمک میکنند تا سیستمهای هوش مصنوعی با عملکرد بالا و مقیاسپذیری مناسب طراحی کنند.
معماری بنچمارک (Benchmark Architecture) – سختافزار
برای اجرای بارهای کاری آموزش و استنتاج (Training & Inference)، از ترکیب سختافزاری زیر استفاده شد:
چهار سرور HPE Apollo 6500 Gen10، هر کدام مجهز به هشت GPU NVIDIA Tesla V100 SXM2 با حافظه 16 گیگابایت
دیتاست ImageNet TFRecords روی کلاستر WekaIO MatrixFS میزبانی شد
یک کلاستر متشکل از هشت سرور HPE ProLiant DL360 Gen10 با ۳۲ SSD NVMe و استفاده از Matrix POSIX Client
ارتباط سرورهای Apollo 6500 با کلاستر از طریق Mellanox 100 Gbps EDR InfiniBand برقرار شد
جزئیات بیشتر سختافزار مورد استفاده در ضمیمه A ارائه شده است.


نرمافزار (Software)
برای تکرار تستهای آموزش (Training Tests)، نیاز است که کانتینری از NVIDIA GPU Cloud Deep Learning Platform ساخته شود. در این تستها از کانتینر Singularity استفاده شد. برای جزئیات و نحوه استفاده، میتوانید به مستندات NVIDIA مراجعه کنید.
هماهنگی بین سرورهای محاسباتی در طول تستها با Horovod انجام میشود، که توسط Uber ایجاد شده است. این بسته از ترکیب MPI و کتابخانه NVIDIA NCCL برای فراهم کردن ارتباط جمعی کارآمد بین GPUها استفاده میکند.
برای تستهای استنتاج (Inference Tests)، از یک نسخه اصلاحشده ImageNet استفاده شد، که تصاویر به تنسورهای سهبعدی (Rank 3) با فرمت RGB 24 بیتی تبدیل شدند. هر فایل تنسور شامل ۲۰۰۰۰ تصویر بود تا بیشترین توان عملیاتی (Throughput) حاصل شود.
TensorRT 5.0.2 به عنوان Runtime استنتاج در HPE Deep Learning Benchmarking Suite استفاده شد، همراه با کدهای اختصاصی برای استفاده از حافظه پینشده (Pinned Memory). استفاده از حافظه پینشده باعث:
بهبود عملکرد با کاهش نیاز به کپی دادهها
ارسال سریعتر دادهها به GPUها
تستهای NUMA-aware و بهینهسازی بیشتر عملکرد میشود
برای تکرار تستهای استنتاج، لازم است HPE Deep Learning Benchmarking Suite از GitHub کلون شود و Docker و NVIDIA Docker نصب باشند.
برای راهنمای کامل، به صفحه GitHub Deep Learning Benchmarking Suite مراجعه کنید
جزئیات نسخه نرمافزارها در ضمیمه B موجود است
تست عملکرد (Performance Testing)
یک مجموعه بنچمارک کامل با استفاده از سیستم ذخیرهسازی خارجی روی چهار سرور HPE Apollo 6500 انجام شد.
هدف از این تستها بررسی مقیاسپذیری سیستم فایل Matrix در پیکربندیهای مختلف GPU و سرورهای Apollo 6500 در سناریوهای آموزش Deep Learning و همچنین ارزیابی عملکرد Inference برای هر سرور بود.
تستها شامل:
Training (آموزش مدلهای DL)
Inference validation (تأیید استنتاج مدل)
همچنین، تستها روی یک، دو، چهار و هشت NVIDIA V100 GPU انجام شد تا بررسی شود که عملکرد ذخیرهسازی چگونه با افزایش حجم کار تغییر میکند.
آموزش (Training)
شرکت HPE مستندات جامعی برای عملکرد مورد انتظار آموزش مدلهای رایج DL مانند GoogleNet، ResNet، VGG و Inception-v4 ارائه کرده است.
HPE Deep Learning Performance Guide منبع اصلی نتایج عملکرد HPE برای مدلهای DL است.
از آنجا که این مدلها شبکههای عصبی کانولوشنی (CNN) هستند و برای شناسایی تصویر بهینه شدهاند، ImageNet به عنوان دیتاست استاندارد استفاده میشود.
نتایج آموزش (Training Results)
برای بررسی اینکه آیا ذخیرهسازی میتواند گلوگاه عملکردی (Bottleneck) برای آموزش چهار سرور HPE Apollo 6500 با GPUهای NVIDIA باشد، از یک کانتینر Singularity با تصویر Docker TensorFlow از NVIDIA GPU Cloud (NGC) به عنوان پایه استفاده شد و آموزش با راهکار ذخیرهسازی اشتراکی WekaIO Matrix انجام شد. (جزئیات نرمافزاری در ضمیمه B موجود است)
همچنین، بنچمارکهای مصنوعی (Synthetic Benchmarks) نیز اجرا شد تا حداکثر عملکرد ممکن سیستم ارزیابی شود. این دادهها به صورت تصادفی تولید شدهاند تا گلوگاههای غیر GPU حذف شوند و معمولاً به عنوان حد بالای عملکرد (Upper Bound) در جامعه DL استفاده میشوند، زیرا نیاز به پیشپردازش یا بازیابی دادهها ندارند.
نتایج نشان داد که با افزایش تعداد GPUها، عملکرد به صورت خطی افزایش مییابد.
این مقیاسپذیری خطی به معنای عملکرد پیشبینیپذیر و بهرهوری حداکثری از سرمایهگذاری در GPUها است.

مقیاسپذیری واقعی و مدیریت دادهها (Performance Scaling & Data Management)
در دنیای واقعی، عملکرد سیستم معمولاً به صورت خطی افزایش نمییابد. این موضوع به عوامل مختلفی بستگی دارد، از جمله:
انتقال دادهها بین CPU و GPU
محدودیتهای مدلها و فریمورکهای مختلف
پیشپردازش دادهها
به ویژه، پیشپردازش دادهها میتواند بسیار سنگین باشد و اغلب به عنوان گلوگاه آموزش در سرورهای چند GPU عمل میکند.
راهکار WekaIO Matrix با ارائه یک سیستم فایل اشتراکی POSIX به سرورهای GPU، باعث کاهش بار اضافی ناشی از کپی داده بین گرهها (Nodes) میشود و تمام منابع GPU را بدون فشار روی ظرفیت I/O در دسترس قرار میدهد.
شرکت HPE برای آزمایش، دیتاست محبوب ImageNet را در فرمت استاندارد TFRecord استفاده کرد تا نتایج قابل تکرار (Reproducible) باشند.
تستها با اندازههای مختلف Batch انجام شد
در نتایج ارائه شده، تنها Batch Sizeهایی که بیشترین عملکرد را برای هر پنج مدل آزمایششده داشتند آورده شده است
این نتایج با استفاده از Mixed Precision به دست آمدهاند
روش مقیاسپذیری (Scale-Out Method)
برای تست Scale-Out از Horovod و Data Parallelism استفاده شد تا آموزش بین یک خوشه از GPUها تقسیم شود:
هر GPU یک نسخه کامل از کد و پارامترهای مدل شبکه عصبی را دارد
دادهها به پارتیشنهای جداگانه تقسیم شده و به هر GPU اختصاص مییابد
هر GPU خطا و گرادیان محلی را برای آن مرحله محاسبه میکند
اطلاعات بین تمام GPUهای خوشه رد و بدل میشود
خطای کل و گرادیان نهایی محاسبه شده و برای بهروزرسانی پارامترهای مدل استفاده میشود
این روش باعث میشود آموزش به صورت موازی و کارآمد بین چندین GPU انجام شود و عملکرد سیستم بهینه گردد.
تحلیل آموزش مدل (Training Analysis)
نتایج دادههای آموزش نشان میدهد که سرورهای HPE Apollo 6500 با تعداد مختلفی از GPUهای NVIDIA Tesla V100 SXM2 16 GB به خوبی مقیاسپذیر هستند:
هم با افزودن سرورهای بیشتر و هم با استفاده از تعداد بیشتری GPU در یک سرور.
نتایج آزمایش نشان میدهد که استفاده از یک سرور با ۸ GPU عملکردی مشابه با دو سرور با ۴ GPU هرکدام یا چهار سرور با ۲ GPU هرکدام ارائه میدهد.
اگرچه نیاز به پهنای باند ذخیرهسازی برای هر کلاینت نسبتاً کم است، اما برای مدلهای کمتر پردازشی، پهنای باند با مقیاس خطی افزایش مییابد.
این یعنی حتی پیادهسازیهای بزرگتر از پیکربندی چهار گرهای ما میتوانند بدون استفاده از سیستم فایل پرسرعت WekaIO Matrix با محدودیت عملکرد مواجه شوند.
یکی از مزایای کلیدی استفاده از WekaIO Matrix، سهولت استفاده و انعطافپذیری در مقیاسبندی است:
با حذف وابستگی به محل دادهها (Data Locality)، افزودن سرورهای جدید Apollo 6500 به محیط آزمایشی بسیار ساده است
هیچ نیاز به کپی داده اضافی برای کلاینتهای جدید نیست
این امر معماری چابک و منعطفی برای محیطهای AI با رشد سریع ایجاد میکند
با افزایش نیازهای پردازشی، WekaIO Matrix و شبکه Mellanox عملکرد عالی و راحتی در مقیاسبندی را فراهم میکنند
تحلیل استنتاج مدل (Inference)
Inference فرایندی است که معمولاً پس از آموزش مدل و در محیط تولید (Production) انجام میشود:
نیازی به ارتباط با زیرساخت ذخیرهسازی آموزش ندارد
با این حال، در مرحله اعتبارسنجی مدل در حین آموزش، ذخیرهسازی و منابع محاسباتی تأثیر بیشتری بر عملکرد کلی DL دارند
برای آزمایش اعتبارسنجی مدل، HPE از HPE Deep Learning Cookbook استفاده کرد تا تأثیر I/O بر زمان کلی آموزش مدل مشخص شود.
دیتاست ImageNet تغییر یافته برای آزمایش استنتاج استفاده شد
تصاویر در فرمت RGB 24 بیت و اندازه ۳۰۰x300 ذخیره شدند و هر فایل شامل ۲۰,۰۰۰ تصویر بود
Batchهای بزرگ برای افزایش throughput استفاده شد
نتایج استنتاج (Inferencing Results)
پنج مدل مختلف DL با نسخه بهروز WekaIO Matrix آزمایش شدند
برای هر تست، ۱۰ Batch گرمکننده و سپس ۴۰۰ Batch اصلی اجرا شد
تعداد Threadهای پیشخوان داده (Prefetch Threads) برابر ۱۳ و عمق صف استنتاج (Inference Queue Depth) برابر ۳۲ با Mixed Precision تنظیم شد
بروزرسانیهای WekaIO Matrix امکان استفاده بیشتر از منابع Matrix Client را فراهم کرده که به افزایش عملکرد I/O و بهرهوری بیشتر زیرساخت منجر میشود
از آنجا که استنتاج وابسته به پردازش و انتقال دادهها است، در این تستها از Synthetic Benchmark استفاده نشد و دادههای واقعی معیار عملکرد واقعیتری ارائه کردند.
نکته کلیدی:
تستهای استنتاج برای اعتبارسنجی مدلهای بزرگ و افزایش throughput طراحی شدهاند
با بهینهسازی و تستهای مداوم، انتظار میرود عملکردها در آینده بهبود یابند

تحلیل استنتاج (Inference Analysis)
نتایج بنچمارک استنتاج نشان میدهد که WekaIO Matrix همچنان توانایی خود را در به حداکثر رساندن عملکرد زیرساختها بهبود میبخشد:
این به معنای افزایش سرعت اعتبارسنجی مدلها و امکان بررسی دادههای بیشتر در همان بازه زمانی است
همچنین زمان پاسخدهی مدلهای تولیدی روی سرور Apollo 6500 بهبود مییابد
با پیکربندی WekaIO Matrix و سرورهای HPE ProLiant DL360 Gen10، اکنون میتوان یک اتصال InfiniBand واحد را با بیش از ۸ گیگابایت بر ثانیه پهنای باند از یک کلاینت نزدیک به حداکثر رساند.
(برای مقایسه: کارت شبکه HPE 100 Gb EDR InfiniBand بیش از ۱۲ گیگابایت بر ثانیه پهنای باند ارائه میدهد)
نتیجهگیری: اثرات واقعی برای AI تولیدی
بنچمارکها نشان میدهند که آموزش و استنتاج در مقیاسگذاری همزمان (Scale-Up: افزودن GPU به سرور) و مقیاسگذاری گسترده (Scale-Out: افزودن سرور) تقریباً خطی است
این امکان مقیاسگذاری در هر دو جهت، انعطافپذیری در تخصیص منابع را فراهم میکند
سرورهای با GPU کمتر میتوانند برای پردازش بارهای بزرگتر بهصورت خوشهای (Cluster) ترکیب شوند
ظرفیت سرورها میتواند بر اساس بارهای کاری پیشبینی شده تنظیم شود، که منجر به افزایش ROI، بهینهسازی استفاده از منابع و کاهش زمان دسترسی به بینشها میشود
مزیت کلیدی: استفاده از سیستم فایل موازی (Parallel File System)، مانند WekaIO Matrix:
دادهها بهصورت همزمان توسط چند سرور به اشتراک گذاشته میشوند
هیچ سروری منتظر آزاد شدن داده توسط سرور دیگر نمیماند
این امر رقابت دادهای بین سرورها را حذف میکند
WekaIO Matrix بهینهسازی شده برای فلش و ترکیب فایلها و اندازههای مختلف در AI، به GPU Clusterها پهنای باند بالا ارائه میدهد
نکات مهم و ملاحظات
نتایج آموزش توزیعشده نشان میدهد که مقیاسپذیری عملکرد در تعداد مختلف GPU و توزیعهای مختلف در خوشه بسیار ثابت و قابل پیشبینی است
در استنتاج، WekaIO Matrix عملکرد را برای شتابدهی به بارهای کاری و کاهش زمان دسترسی به بینشها بهبود داده است
ترکیب WekaIO Matrix + Mellanox 100 Gbps InfiniBand + NVIDIA GPU روی HPE Apollo 6500 Gen10 پلتفرم قدرتمندی برای AI تولیدی ارائه میدهد
WekaIO Matrix عملکردی برابر یا بهتر از سیستم فایل محلی ارائه میدهد و مقیاسگذاری دادهها و GPUها را بدون کاهش عملکرد ممکن میکند
شبکه پرسرعت ضروری است: یک شبکه ۱۰ Gb Ethernet توسط ۱۶ GPU احتمالا اشباع میشود و استفاده از خوشههای بزرگ با شبکه کند امکانپذیر نیست
کاربردهای صنعتی
خودروهای خودران (Autonomous Vehicles):
CNNها مانند ResNet50 برای تشخیص اشیا و بخشبندی معنایی استفاده میشوند
آموزش نیازمند مجموعه دادههای حجیم تصویری برای بهبود مدلها است
با HPE Apollo 6500 Gen10، میتوان چندین مدل موازی را اجرا یا مدلها را سریعتر آموزش داد و زمان رسیدن به بینش کاهش مییابد
تصویربرداری پزشکی (Medical Imaging):
خوشهبندی انعطافپذیر سرورها امکان آزمایش سریع مدلهای مختلف در فاز توسعه و جمعآوری منابع برای دادههای بزرگ تولیدی را فراهم میکند
راهکار جامع AI از HPE
HPE ابزارها و تخصص لازم برای ایجاد راهکارهای DL با GPU، ذخیرهسازی اشتراکی و شبکه فراهم میکند
HPE Deep Learning Cookbook امکان بنچمارک قابل تکرار و راهنمایی برای مدلهای شبکه عصبی و فرمت دادهها را ارائه میدهد
این ابزارها باعث میشوند راهاندازی سریع و مؤثر مدلهای DL در محیطهای تولیدی ممکن شود
پیکربندی سختافزار HPE Apollo 6500 و DL360
HPE XL270d Gen10 Node (Training Cluster)
| جزء | تعداد | SKU |
|---|---|---|
| HPE XL270d Gen10 Node CTO Server | 1 | P00392-B21 |
| Xeon-Gold 6150 FIO Processor Kit | 1 | P01278-L21 |
| Xeon-Gold 6150 Processor Kit | 1 | P01278-B21 |
| حافظه 16 GB DDR4 Smart Memory Kit | 12 | 835955-B21 |
| HPE DL38X Gen10 Premium 8 SFF/SATA Bay Kit | 1 | 826690-B21 |
| NVMe FIO Enable Kit | 1 | P01056-B22 |
| 6+2 NVMe Instr Spec FIO | 1 | 878192-B21 |
| PCIe/SATA M.2 FIO Riser Kit | 1 | 863661-B21 |
| InfiniBand EDR/Ethernet 100 Gbps 2-port Adapter | 2 | 872726-B21 |
| 2200 W Platinum Hot Plug Power Supply | 4 | P01062-B21 |
| 2.0 m 250 V 16 A C19-C20 Jumper Cord | 4 | TK738A |
| 8 SXM2 GPU FIO Module | 1 | P01786-B22 |
| SXM2 Heat Sink FIO Kit | 2 | P02939-B22 |
| NVIDIA Tesla V100 SXM2 16 GB | 8 | Q2N66A |
HPE EDR InfiniBand Fabric
| جزء | تعداد | SKU |
|---|---|---|
| Mellanox InfiniBand EDR 100 Gb/sec v2 36-port Unmanaged Switch | 1 | 834976-B22 |
| 3m InfiniBand EDR QSFP Copper Cable | 16 | 834973-B25 |
HPE ProLiant DL360 Gen10 (Inference Cluster)
| جزء | تعداد | SKU |
|---|---|---|
| DL360 Gen10 Premium 10 NVMe CTO Server | 8 | 867960-B21 |
| Xeon-Gold 6134 FIO Processor Kit | 8 | 860683-L21 |
| Xeon-Gold 6134 Processor Kit | 8 | 860683-B21 |
| 8 GB DDR4 Registered Smart Memory | 96 | 815097-B21 |
| 800 W Flex Slot Titanium Hot Plug Power Supply | 16 | 865438-B21 |
| InfiniBand EDR 100 Gbps 2-port Adapter | 8 | 872726-B21 |
| SATA M.2 2280 Riser Kit | 8 | 867978-B21 |
| 240 GB SATA M.2 SSD | 16 | 875488-B21 |
| 1.6 TB NVMe x4 Lanes SFF SSD | 32 | 877994-B21 |
نرمافزار بنچمارک
آموزش (Training)
| مؤلفه | نسخه/جزئیات |
|---|---|
| OS | Ubuntu 16.04.3 LTS |
| File System | WekaIO MatrixFS 3.1.8.2 |
| DL Framework | TensorFlow 1.12.0 |
| Distributed Framework | Horovod 0.15.2 |
| Container | nvcr.io/nvidia/tensorflow:19.01-py3 |
استنتاج (Inference)
| مؤلفه | نسخه/جزئیات |
|---|---|
| OS | Ubuntu 16.04.3 LTS |
| File System | WekaIO MatrixFS 3.1.8.2 |
| Framework | TensorRT 5.0.2 GA |
| Container | dlbs/tensorrt:18.10 |
اگر بخواهیم همین پیکر بندی را روی سرور dl380 g10 داشته باشیم به 8 عدد سرور با مشخصات زیر نیاز داریم
پیکربندی پیشنهادی DL380 Gen10 برای DL / AI Scale-Out
سختافزار سرور (هر DL380 Gen10)
| مؤلفه | تعداد | مدل / توضیحات |
|---|---|---|
| سرور | 1 | HPE DL380 Gen10 CTO |
| پردازنده | 2 | Intel Xeon Gold 6248 (20 هسته، 2.5GHz) |
| حافظه RAM | 12 | 32GB DDR4-2933 RDIMM (جمع 384GB) |
| کارت گرافیک | 2 | NVIDIA Tesla V100 SXM2 16GB |
| NVMe SSD | 4 | 1.6 TB NVMe SFF (برای داده و scratch space) |
| SATA SSD | 2 | 480 GB SATA SSD (سیستم عامل و cache) |
| کنترلر NVMe | 1 | HPE Smart Array P408i-a NVMe |
| شبکه | 2 | Mellanox EDR 100Gb InfiniBand |
| منبع تغذیه | 2 | 1600W Platinum Hot-Plug |
شبکه و ذخیرهسازی (برای Scale-Out)
| مؤلفه | تعداد | مدل / توضیحات |
|---|---|---|
| سوئیچ اینفینیباند | 1 | HPE Mellanox 36-port EDR 100Gb unmanaged |
| کابل اینفینیباند | به تعداد مورد نیاز | 3m QSFP Copper |
| سیستم فایل اشتراکی | – | WekaIO MatrixFS (برای اشتراکگذاری داده بین سرورها) |
Scale-Out Cluster پیشنهادی
| تعداد سرور DL380 | GPU کل | RAM کل | NVMe کل | شبکه |
|---|---|---|---|---|
| 4 | 8 | 1.5 TB | 16 TB | Mellanox 100Gb EDR |
| 8 | 16 | 3 TB | 32 TB | Mellanox 100Gb EDR |
این کانفیگ مشابه Apollo 6500 Gen10 4-node cluster با 32 GPU نیست ولی قابلیت آموزش و استنتاج توزیعشده DL را دارد. برای تعداد GPU بیشتر، میتوان GPU های بیشتری روی هر سرور نصب کرد اگر فرمفاکتور و خنکسازی اجازه دهد.
نرمافزار و فریمورک
| بخش | نسخه پیشنهادی |
|---|---|
| OS | Ubuntu 18.04 LTS |
| فایل سیستم | WekaIO MatrixFS v3.x |
| DL Framework | TensorFlow 2.x / PyTorch 1.x |
| Distributed Training | Horovod + NCCL |
| Container | NVIDIA NGC TensorFlow / PyTorch container |
| Inference | TensorRT 8.x |
نکات طراحی مشابه Apollo 6500
- GPU Scaling: هر DL380 تا 2 GPU ولی با Scale-Out میتوان عملکرد مشابه 8 GPU داشت.
- Shared Storage: WekaIO MatrixFS دادهها را بین سرورها بدون bottleneck اشتراک میکند.
- Mixed Precision Training: برای بهرهوری بیشتر از V100، آموزش با FP16/AMP توصیه میشود.
- High-speed Network: اینفینیباند 100Gb برای جلوگیری از محدودیت I/O ضروری است.
- Inference: همان سرورها میتوانند برای اعتبارسنجی یا تولید مدلها استفاده شوند با batch بزرگ و TensorRT.
سخن پایانی
برای راهاندازی پروژههای هوش مصنوعی و یادگیری عمیق، انتخاب سختافزار مناسب نقش تعیینکنندهای در سرعت، دقت و بهرهوری دارد. سرورهای HPE DL380 Gen10 به همراه کارتهای گرافیک NVIDIA Tesla/V100 که توسط سهند سرور ارائه میشوند، تجربهای قابل اعتماد، مقیاسپذیر و بهینه برای هر نوع پروژه هوش مصنوعی فراهم میکنند.
با بهرهگیری از این پیکربندیها:
آموزش و استنتاج مدلها با حداکثر سرعت و کمترین تاخیر انجام میشود.
میتوانید به راحتی سرورها و کارتها را بر اساس نیاز پروژه افزایش یا کاهش دهید.
از پشتیبانی و مشاوره تخصصی برای طراحی سیستم اختصاصی خود بهرهمند میشوید.
سهند سرور همراه مطمئن شما برای ایجاد راهکارهای هوش مصنوعی با بالاترین بهرهوری و کمترین زمان رسیدن به نتیجه است.
اشتراک گذاری

