افزایش عملکرد هوش مصنوعی با استفاده از کارت گرافیک های انودیا و سرور های اچ پی
چگونه سرور های HP و کارت‌ های گرافیک NVIDIA عملکرد هوش مصنوعی را چند برابر می‌کنند؟

چگونه سرور های HP و کارت‌ های گرافیک NVIDIA عملکرد هوش مصنوعی را چند برابر می‌کنند؟؟

این محتوا برای متخصصانی طراحی شده است که می‌خواهند کارایی سرورهای HP و GPU در پروژه‌های هوش مصنوعی را افزایش دهند.اگر در زمینه‌ی طراحی زیرساخت AI، یادگیری عمیق یا مدیریت سرورهای GPU فعالیت دارید، این مقاله از سهند سرور راهنمای کاملی برای شماست.

هوش مصنوعی سال‌هاست که موتور اصلی نوآوری در زمینه‌ی تحقیق و توسعه است. اما امروز این فناوری از آزمایشگاه‌ها فراتر رفته و به مرحله‌ی تولید (Production AI) وارد شده است.
بر اساس گزارش مؤسسه‌ی Gartner، تنها در چهار سال، میزان استفاده از هوش مصنوعی در سازمان‌ها بیش از ۲۷۰ درصد رشد داشته است. این رشد نشان می‌دهد که AI دیگر فقط یک فناوری آزمایشی نیست، بلکه قلب تپنده‌ی بسیاری از صنایع است.

 

نقش هوش مصنوعی در صنایع مختلف

در حال حاضر تقریباً تمام صنایع در حال استفاده از یادگیری عمیق (Deep Learning) و هوش مصنوعی برای بهبود عملکرد خود هستند:

  • شرکت‌ها با پردازش زبان طبیعی (NLP) پشتیبانی هوشمند و ترجمه‌ی لحظه‌ای ارائه می‌دهند.
  • فروشگاه‌های آنلاین با تحلیل داده و AI پیشنهادات شخصی‌سازی‌شده نمایش می‌دهند.
  • تولیدکنندگان از AI برای پیش‌بینی خرابی و کنترل کیفیت استفاده می‌کنند.
  • شرکت‌های مالی از الگوریتم‌های یادگیری ماشین برای جلوگیری از تقلب و تحلیل رفتار مشتری بهره می‌برند.
  • بیمارستان‌ها از تشخیص خودکار تصاویر پزشکی با دقتی بالاتر از انسان استفاده می‌کنند.
  • خودروسازان با کمک AI و GPU Server مسیر رسیدن به خودروهای خودران را هموار کرده‌اند.

چالش زیرساختی در پروژه‌های AI

با حرکت از فاز تحقیق به فاز تولید، حجم داده‌ها به ده‌ها یا حتی صدها پتابایت می‌رسد.
برای آموزش مدل‌های بزرگ، سازمان‌ها به سرورهایی نیاز دارند که از چندین کارت گرافیک (GPU) پشتیبانی کنند و به‌صورت خوشه‌ای (Clustered) با هم کار کنند.

در این شرایط، ذخیره‌سازی محلی (Local Storage) دیگر پاسخگو نیست، چون داده‌ها بسیار عظیم‌تر از ظرفیت آن هستند.
راه‌حل، استفاده از سیستم فایل موازی (Parallel File System) است که به چند سرور اجازه می‌دهد هم‌زمان به یک فایل دسترسی داشته باشند — بدون افت عملکرد.

راه‌حل HPE برای هوش مصنوعی توزیع‌شده

شرکت HPE (Hewlett Packard Enterprise) با همکاری شرکای تکنولوژیک خود — یعنی NVIDIA، WekaIO و Mellanox — راهکاری کامل برای اجرای پروژه‌های هوش مصنوعی در مقیاس سازمانی ارائه داده است.

در این معماری:

  • سرورهای HPE Apollo 6500 Gen10 هسته‌ی اصلی پردازش هستند.
  • کارت‌های گرافیک NVIDIA Tesla V100 قدرت محاسباتی مورد نیاز برای یادگیری عمیق را فراهم می‌کنند.
  • سیستم فایل WekaIO Matrix دسترسی بسیار سریع به داده‌ها را ممکن می‌سازد.
  • و شبکه‌های Mellanox ارتباط بین سرورها و فضای ذخیره‌سازی را با سرعت بالا برقرار می‌کنند.

مزایای این ترکیب قدرتمند

استفاده‌ی کامل از توان GPU بدون ایجاد گلوگاه در I/O
کاهش زمان آموزش مدل‌های هوش مصنوعی
افزایش سرعت استنتاج (Inferencing)
بهره‌وری بالاتر در مقیاس‌های سازمانی
مقیاس‌پذیری ساده و قابل اطمینان برای آینده

جمع‌بندی

HPE با همکاری NVIDIA، WekaIO و Mellanox زیرساختی کامل برای محیط‌های هوش مصنوعی سازمانی (Production AI) ارائه می‌دهد.
این راهکار به کسب‌وکارها کمک می‌کند تا مدل‌های AI خود را سریع‌تر آموزش دهند، هزینه‌ها را کاهش دهند و به نتایج دقیق‌تر دست پیدا کنند.

جریان داده در یادگیری عمیق (Deep Learning Dataflow)

در یک وایت‌پیپر مشترک پیشین با عنوان «شتاب‌دهی به ارزش و بینش‌های هوش مصنوعی»، پیچیدگی‌های جریان داده در یادگیری عمیق (Deep Learning) مورد بررسی قرار گرفت:

Figure 1a. Deep learning dataflow, single server perspective

برای استفاده از داده‌ها در آموزش مدل‌های یادگیری عمیق (DL)، ابتدا باید داده‌ها جمع‌آوری، پاک‌سازی و پیش‌پردازش شوند تا بخشی از دیتاست آموزشی باشند.

برای اطمینان از اینکه مدل آموزش‌دیده عملکرد، دقت و کیفیت استاندارد را دارد، لازم است در مرحله‌ای به نام اعتبارسنجی مدل (Model Validation) با استفاده از استنتاج (Inferencing) آزمایش شود. ممکن است این فرآیند چندین بار تکرار شود تا مدل به سطح قابل قبول برای محیط تولید برسد.

مدل جریان داده‌ای که در این مقاله بررسی می‌شود، دیدگاهی ساده از یک سرور واحد نسبت به جریان داده ارائه می‌دهد تا فرایند کلی به صورت قابل فهم و ساده نشان داده شود، همانطور که در شکل 1b قابل مشاهده است.

Figure 1b. Simple dataflow

در یک محیط محاسباتی توزیع‌شده و خوشه‌ای (Distributed, Clustered Compute Environment)، مدل ساده‌ی جریان داده هنوز معتبر است، اما جریان واقعی داده‌ها بسیار پیچیده‌تر می‌شود.
در چنین محیطی:

  • چندین سرور ممکن است هم‌زمان نیاز به دسترسی به یک دیتاست مشترک داشته باشند.

  • جریان واقعی داده‌ها می‌تواند بین چندین سرور به صورت همزمان و مخلوط رخ دهد.

در توپولوژی بنچمارک ما، یک منبع داده واحد (Single Data Source) به چهار سرور متصل شده است، همانطور که در شکل 1c نشان داده شده است. این طراحی به درک بهتر چگونگی مدیریت داده‌ها در محیط‌های توزیع‌شده AI کمک می‌کند.

Figure 1c. Deep learning dataflow, single data set, multiple server perspective

در این بنچمارک، از رویکرد داده‌های موازی (Parallel Data Approach) برای توزیع آموزش مدل بین سرورها استفاده می‌کنیم.
هر سرور بخشی از آموزش مدل را انجام می‌دهد و سپس نتایج بین سرورها به اشتراک گذاشته می‌شود تا یک به‌روزرسانی کلی برای مدل محاسبه شود.

این روش به افزایش سرعت آموزش و بهره‌وری منابع GPU کمک می‌کند و برای محیط‌های هوش مصنوعی توزیع‌شده و تولیدی (Production AI) ایده‌آل است.

زیرساخت یادگیری عمیق (Deep Learning Infrastructure)

انتخاب زیرساخت مناسب تأثیر مستقیم روی عملکرد و مقیاس‌پذیری جریان کاری یادگیری عمیق (DL) دارد. پیچیدگی مدل، حجم داده‌ها و نوع ورودی (تصویر، متن و غیره) مشخص می‌کند که به چند GPU، چند سرور، نوع شبکه و نوع ذخیره‌سازی نیاز دارید. هرچه محیط پیچیده‌تر باشد، نیاز به متعادل‌سازی دقیق اجزا بیشتر است.

شرکت HPE با ترکیب بهترین قطعات، زیرساختی قدرتمند برای DL فراهم کرده است:

  • GPUهای NVIDIA

  • شبکه 100 گیگابیت InfiniBand از Mellanox

  • سیستم فایل موازی و پرسرعت WekaIO Matrix

محاسبات: سرور HPE Apollo 6500 Gen10

سرور HPE Apollo 6500 Gen10 یک پلتفرم ایده‌آل برای یادگیری عمیق است که با GPUهای پیشرفته، ارتباطات سریع بین GPU و پهنای باند بالا انعطاف و عملکرد عالی ارائه می‌دهد.
ویژگی‌ها:

  • پشتیبانی تا ۸ GPU در هر سرور

  • ارتباط سریع NVIDIA NVLink برای GPU-to-GPU

  • پردازنده‌های Intel Xeon Scalable

  • قابلیت پیکربندی انعطاف‌پذیر برای انواع بار کاری

  • قابلیت اطمینان و خدمات RAS (Reliability, Availability, Serviceability)

GPU: NVIDIA Tesla V100

هر سرور HPE Apollo 6500 می‌تواند تا ۸ کارت گرافیک NVIDIA Tesla V100 SXM2 32GB را پشتیبانی کند. این GPUها:

  • مبتنی بر معماری NVIDIA Volta هستند

  • سرعتی برابر با ۱۰۰ پردازنده (CPU) ارائه می‌دهند

  • توان پردازش 15.7 TFLOPS برای محاسبات تک‌دقت و 125 TFLOPS برای DL دارند

  • با استفاده از NVLink، اتصال GPUها با پهنای باند بالا تا ۳۰۰ GB/sec امکان‌پذیر است

این ترکیب باعث می‌شود مدل‌های پیچیده AI با داده‌های حجیم به سرعت آموزش داده شوند.

شبکه: Mellanox 100Gb EDR InfiniBand

وقتی حجم داده‌ها و بار کاری GPU از ظرفیت یک سرور HPE Apollo 6500 فراتر رود، داشتن شبکه پرسرعت و پایدار حیاتی است. شبکه Mellanox:

  • اتصال سریع بین سرورها و ذخیره‌سازی اشتراکی فراهم می‌کند

  • با فناوری‌هایی مثل RDMA و GPUDirect، مقیاس‌پذیری و کارایی DL را افزایش می‌دهد

  • سرعت شبکه از ۱۰ تا ۱۰۰ گیگابیت بر ثانیه قابل تنظیم است

ذخیره‌سازی: WekaIO Matrix

برای استفاده کامل از GPUها، HPE با WekaIO همکاری کرده تا ذخیره‌سازی مشترک پرسرعت ارائه دهد:

  • MatrixFS: سیستم فایل موازی و بهینه‌شده برای NVMe

  • مقیاس‌پذیری بالا، بدون ایجاد گلوگاه یا نقاط داغ (Hotspots)

  • پشتیبانی از حفاظت داده توزیع‌شده (MatrixDDP)

  • سرعت بالا برای پردازش داده‌ها و اشباع GPUها

  • مقیاس‌پذیری خطی تا صدها سرور و نود ذخیره‌سازی

مثال عملکرد: ۸ سرور HPE ProLiant DL360 با شبکه Mellanox 100Gb و WekaIO Matrix می‌توانند:

  • سرعت 30 GB/sec برای خواندن داده‌های 1MB

  • بیش از 2.5 میلیون IOPS برای داده‌های تصادفی 4K

این زیرساخت حتی بزرگترین دیتاست‌های آموزش DL را به راحتی مدیریت می‌کند.

راهنمای منابع یادگیری عمیق HPE

شرکت HPE منابع متعددی برای طراحی و ارزیابی عملکرد معماری‌های هوش مصنوعی ارائه می‌دهد:

  • HPE Deep Learning Cookbook: ارائه استانداردهای بنچمارک و بینش‌های مربوط به بارهای کاری یادگیری عمیق (DL Workloads).

  • HPE Deep Learning Benchmarking Suite: ابزاری خودکار برای بنچمارک‌گیری که عملکرد پیکربندی‌های مختلف راهکار را به صورت یکپارچه و استاندارد اندازه‌گیری می‌کند.

  • HPE Deep Learning Performance Guide: یک پایگاه دانش از نتایج بنچمارک که امکان جستجو، تحلیل و پیش‌بینی عملکرد را بر اساس مدل‌های تحلیلی فراهم می‌کند. همچنین، پیکربندی‌های پیشنهادی (Reference Solution Configurations) برای برخی بارهای کاری ارائه شده است.

این منابع به دانشمندان داده و تیم‌های IT کمک می‌کنند تا سیستم‌های هوش مصنوعی با عملکرد بالا و مقیاس‌پذیری مناسب طراحی کنند.

معماری بنچمارک (Benchmark Architecture) – سخت‌افزار

برای اجرای بارهای کاری آموزش و استنتاج (Training & Inference)، از ترکیب سخت‌افزاری زیر استفاده شد:

  • چهار سرور HPE Apollo 6500 Gen10، هر کدام مجهز به هشت GPU NVIDIA Tesla V100 SXM2 با حافظه 16 گیگابایت

  • دیتاست ImageNet TFRecords روی کلاستر WekaIO MatrixFS میزبانی شد

  • یک کلاستر متشکل از هشت سرور HPE ProLiant DL360 Gen10 با ۳۲ SSD NVMe و استفاده از Matrix POSIX Client

  • ارتباط سرورهای Apollo 6500 با کلاستر از طریق Mellanox 100 Gbps EDR InfiniBand برقرار شد

جزئیات بیشتر سخت‌افزار مورد استفاده در ضمیمه A ارائه شده است.

Figure 2a. Benchmark architectural diagram

Figure 2b. NVIDIA Tesla V100 GPU topology with NVLink for each HPE Apollo 6500 Gen10 System

نرم‌افزار (Software)

برای تکرار تست‌های آموزش (Training Tests)، نیاز است که کانتینری از NVIDIA GPU Cloud Deep Learning Platform ساخته شود. در این تست‌ها از کانتینر Singularity استفاده شد. برای جزئیات و نحوه استفاده، می‌توانید به مستندات NVIDIA مراجعه کنید.

هماهنگی بین سرورهای محاسباتی در طول تست‌ها با Horovod انجام می‌شود، که توسط Uber ایجاد شده است. این بسته از ترکیب MPI و کتابخانه NVIDIA NCCL برای فراهم کردن ارتباط جمعی کارآمد بین GPUها استفاده می‌کند.

برای تست‌های استنتاج (Inference Tests)، از یک نسخه اصلاح‌شده ImageNet استفاده شد، که تصاویر به تنسورهای سه‌بعدی (Rank 3) با فرمت RGB 24 بیتی تبدیل شدند. هر فایل تنسور شامل ۲۰۰۰۰ تصویر بود تا بیشترین توان عملیاتی (Throughput) حاصل شود.

TensorRT 5.0.2 به عنوان Runtime استنتاج در HPE Deep Learning Benchmarking Suite استفاده شد، همراه با کدهای اختصاصی برای استفاده از حافظه پین‌شده (Pinned Memory). استفاده از حافظه پین‌شده باعث:

  • بهبود عملکرد با کاهش نیاز به کپی داده‌ها

  • ارسال سریع‌تر داده‌ها به GPUها

  • تست‌های NUMA-aware و بهینه‌سازی بیشتر عملکرد می‌شود

برای تکرار تست‌های استنتاج، لازم است HPE Deep Learning Benchmarking Suite از GitHub کلون شود و Docker و NVIDIA Docker نصب باشند.

  • برای راهنمای کامل، به صفحه GitHub Deep Learning Benchmarking Suite مراجعه کنید

  • جزئیات نسخه نرم‌افزارها در ضمیمه B موجود است

تست عملکرد (Performance Testing)

یک مجموعه بنچمارک کامل با استفاده از سیستم ذخیره‌سازی خارجی روی چهار سرور HPE Apollo 6500 انجام شد.
هدف از این تست‌ها بررسی مقیاس‌پذیری سیستم فایل Matrix در پیکربندی‌های مختلف GPU و سرورهای Apollo 6500 در سناریوهای آموزش Deep Learning و همچنین ارزیابی عملکرد Inference برای هر سرور بود.

تست‌ها شامل:

  • Training (آموزش مدل‌های DL)

  • Inference validation (تأیید استنتاج مدل)

همچنین، تست‌ها روی یک، دو، چهار و هشت NVIDIA V100 GPU انجام شد تا بررسی شود که عملکرد ذخیره‌سازی چگونه با افزایش حجم کار تغییر می‌کند.

آموزش (Training)

شرکت HPE مستندات جامعی برای عملکرد مورد انتظار آموزش مدل‌های رایج DL مانند GoogleNet، ResNet، VGG و Inception-v4 ارائه کرده است.

  • HPE Deep Learning Performance Guide منبع اصلی نتایج عملکرد HPE برای مدل‌های DL است.

  • از آنجا که این مدل‌ها شبکه‌های عصبی کانولوشنی (CNN) هستند و برای شناسایی تصویر بهینه شده‌اند، ImageNet به عنوان دیتاست استاندارد استفاده می‌شود.

نتایج آموزش (Training Results)

برای بررسی اینکه آیا ذخیره‌سازی می‌تواند گلوگاه عملکردی (Bottleneck) برای آموزش چهار سرور HPE Apollo 6500 با GPUهای NVIDIA باشد، از یک کانتینر Singularity با تصویر Docker TensorFlow از NVIDIA GPU Cloud (NGC) به عنوان پایه استفاده شد و آموزش با راهکار ذخیره‌سازی اشتراکی WekaIO Matrix انجام شد. (جزئیات نرم‌افزاری در ضمیمه B موجود است)

همچنین، بنچمارک‌های مصنوعی (Synthetic Benchmarks) نیز اجرا شد تا حداکثر عملکرد ممکن سیستم ارزیابی شود. این داده‌ها به صورت تصادفی تولید شده‌اند تا گلوگاه‌های غیر GPU حذف شوند و معمولاً به عنوان حد بالای عملکرد (Upper Bound) در جامعه DL استفاده می‌شوند، زیرا نیاز به پیش‌پردازش یا بازیابی داده‌ها ندارند.

نتایج نشان داد که با افزایش تعداد GPUها، عملکرد به صورت خطی افزایش می‌یابد.
این مقیاس‌پذیری خطی به معنای عملکرد پیش‌بینی‌پذیر و بهره‌وری حداکثری از سرمایه‌گذاری در GPUها است.

Figure 3. Synthetic training benchmark results indicate linear performance scaling

Figure 4. Real data training results demonstrate linear scaling similar to synthetic data training results

مقیاس‌پذیری واقعی و مدیریت داده‌ها (Performance Scaling & Data Management)

در دنیای واقعی، عملکرد سیستم معمولاً به صورت خطی افزایش نمی‌یابد. این موضوع به عوامل مختلفی بستگی دارد، از جمله:

  • انتقال داده‌ها بین CPU و GPU

  • محدودیت‌های مدل‌ها و فریم‌ورک‌های مختلف

  • پیش‌پردازش داده‌ها

به ویژه، پیش‌پردازش داده‌ها می‌تواند بسیار سنگین باشد و اغلب به عنوان گلوگاه آموزش در سرورهای چند GPU عمل می‌کند.

راهکار WekaIO Matrix با ارائه یک سیستم فایل اشتراکی POSIX به سرورهای GPU، باعث کاهش بار اضافی ناشی از کپی داده بین گره‌ها (Nodes) می‌شود و تمام منابع GPU را بدون فشار روی ظرفیت I/O در دسترس قرار می‌دهد.

شرکت HPE برای آزمایش، دیتاست محبوب ImageNet را در فرمت استاندارد TFRecord استفاده کرد تا نتایج قابل تکرار (Reproducible) باشند.

  • تست‌ها با اندازه‌های مختلف Batch انجام شد

  • در نتایج ارائه شده، تنها Batch Sizeهایی که بیشترین عملکرد را برای هر پنج مدل آزمایش‌شده داشتند آورده شده است

  • این نتایج با استفاده از Mixed Precision به دست آمده‌اند

روش مقیاس‌پذیری (Scale-Out Method)

برای تست Scale-Out از Horovod و Data Parallelism استفاده شد تا آموزش بین یک خوشه از GPUها تقسیم شود:

  1. هر GPU یک نسخه کامل از کد و پارامترهای مدل شبکه عصبی را دارد

  2. داده‌ها به پارتیشن‌های جداگانه تقسیم شده و به هر GPU اختصاص می‌یابد

  3. هر GPU خطا و گرادیان محلی را برای آن مرحله محاسبه می‌کند

  4. اطلاعات بین تمام GPUهای خوشه رد و بدل می‌شود

  5. خطای کل و گرادیان نهایی محاسبه شده و برای به‌روزرسانی پارامترهای مدل استفاده می‌شود

این روش باعث می‌شود آموزش به صورت موازی و کارآمد بین چندین GPU انجام شود و عملکرد سیستم بهینه گردد.

تحلیل آموزش مدل (Training Analysis)

نتایج داده‌های آموزش نشان می‌دهد که سرورهای HPE Apollo 6500 با تعداد مختلفی از GPUهای NVIDIA Tesla V100 SXM2 16 GB به خوبی مقیاس‌پذیر هستند:

  • هم با افزودن سرورهای بیشتر و هم با استفاده از تعداد بیشتری GPU در یک سرور.

  • نتایج آزمایش نشان می‌دهد که استفاده از یک سرور با ۸ GPU عملکردی مشابه با دو سرور با ۴ GPU هرکدام یا چهار سرور با ۲ GPU هرکدام ارائه می‌دهد.

اگرچه نیاز به پهنای باند ذخیره‌سازی برای هر کلاینت نسبتاً کم است، اما برای مدل‌های کمتر پردازشی، پهنای باند با مقیاس خطی افزایش می‌یابد.
این یعنی حتی پیاده‌سازی‌های بزرگ‌تر از پیکربندی چهار گره‌ای ما می‌توانند بدون استفاده از سیستم فایل پرسرعت WekaIO Matrix با محدودیت عملکرد مواجه شوند.

یکی از مزایای کلیدی استفاده از WekaIO Matrix، سهولت استفاده و انعطاف‌پذیری در مقیاس‌بندی است:

  • با حذف وابستگی به محل داده‌ها (Data Locality)، افزودن سرورهای جدید Apollo 6500 به محیط آزمایشی بسیار ساده است

  • هیچ نیاز به کپی داده اضافی برای کلاینت‌های جدید نیست

  • این امر معماری چابک و منعطفی برای محیط‌های AI با رشد سریع ایجاد می‌کند

  • با افزایش نیازهای پردازشی، WekaIO Matrix و شبکه Mellanox عملکرد عالی و راحتی در مقیاس‌بندی را فراهم می‌کنند

تحلیل استنتاج مدل (Inference)

Inference فرایندی است که معمولاً پس از آموزش مدل و در محیط تولید (Production) انجام می‌شود:

  • نیازی به ارتباط با زیرساخت ذخیره‌سازی آموزش ندارد

  • با این حال، در مرحله اعتبارسنجی مدل در حین آموزش، ذخیره‌سازی و منابع محاسباتی تأثیر بیشتری بر عملکرد کلی DL دارند

برای آزمایش اعتبارسنجی مدل، HPE از HPE Deep Learning Cookbook استفاده کرد تا تأثیر I/O بر زمان کلی آموزش مدل مشخص شود.

  • دیتاست ImageNet تغییر یافته برای آزمایش استنتاج استفاده شد

  • تصاویر در فرمت RGB 24 بیت و اندازه ۳۰۰x300 ذخیره شدند و هر فایل شامل ۲۰,۰۰۰ تصویر بود

  • Batchهای بزرگ برای افزایش throughput استفاده شد

نتایج استنتاج (Inferencing Results)

  • پنج مدل مختلف DL با نسخه به‌روز WekaIO Matrix آزمایش شدند

  • برای هر تست، ۱۰ Batch گرم‌کننده و سپس ۴۰۰ Batch اصلی اجرا شد

  • تعداد Threadهای پیش‌خوان داده (Prefetch Threads) برابر ۱۳ و عمق صف استنتاج (Inference Queue Depth) برابر ۳۲ با Mixed Precision تنظیم شد

  • بروزرسانی‌های WekaIO Matrix امکان استفاده بیشتر از منابع Matrix Client را فراهم کرده که به افزایش عملکرد I/O و بهره‌وری بیشتر زیرساخت منجر می‌شود

از آنجا که استنتاج وابسته به پردازش و انتقال داده‌ها است، در این تست‌ها از Synthetic Benchmark استفاده نشد و داده‌های واقعی معیار عملکرد واقعی‌تری ارائه کردند.

نکته کلیدی:

  • تست‌های استنتاج برای اعتبارسنجی مدل‌های بزرگ و افزایش throughput طراحی شده‌اند

  • با بهینه‌سازی و تست‌های مداوم، انتظار می‌رود عملکردها در آینده بهبود یابند

Figure 5. Single node inference throughput and bandwidth results by number of GPUs

تحلیل استنتاج (Inference Analysis)

نتایج بنچمارک استنتاج نشان می‌دهد که WekaIO Matrix همچنان توانایی خود را در به حداکثر رساندن عملکرد زیرساخت‌ها بهبود می‌بخشد:

  • این به معنای افزایش سرعت اعتبارسنجی مدل‌ها و امکان بررسی داده‌های بیشتر در همان بازه زمانی است

  • همچنین زمان پاسخ‌دهی مدل‌های تولیدی روی سرور Apollo 6500 بهبود می‌یابد

با پیکربندی WekaIO Matrix و سرورهای HPE ProLiant DL360 Gen10، اکنون می‌توان یک اتصال InfiniBand واحد را با بیش از ۸ گیگابایت بر ثانیه پهنای باند از یک کلاینت نزدیک به حداکثر رساند.
(برای مقایسه: کارت شبکه HPE 100 Gb EDR InfiniBand بیش از ۱۲ گیگابایت بر ثانیه پهنای باند ارائه می‌دهد)

نتیجه‌گیری: اثرات واقعی برای AI تولیدی

  • بنچمارک‌ها نشان می‌دهند که آموزش و استنتاج در مقیاس‌گذاری هم‌زمان (Scale-Up: افزودن GPU به سرور) و مقیاس‌گذاری گسترده (Scale-Out: افزودن سرور) تقریباً خطی است

  • این امکان مقیاس‌گذاری در هر دو جهت، انعطاف‌پذیری در تخصیص منابع را فراهم می‌کند

  • سرورهای با GPU کمتر می‌توانند برای پردازش بارهای بزرگ‌تر به‌صورت خوشه‌ای (Cluster) ترکیب شوند

  • ظرفیت سرورها می‌تواند بر اساس بارهای کاری پیش‌بینی شده تنظیم شود، که منجر به افزایش ROI، بهینه‌سازی استفاده از منابع و کاهش زمان دسترسی به بینش‌ها می‌شود

مزیت کلیدی: استفاده از سیستم فایل موازی (Parallel File System)، مانند WekaIO Matrix:

  • داده‌ها به‌صورت همزمان توسط چند سرور به اشتراک گذاشته می‌شوند

  • هیچ سروری منتظر آزاد شدن داده توسط سرور دیگر نمی‌ماند

  • این امر رقابت داده‌ای بین سرورها را حذف می‌کند

  • WekaIO Matrix بهینه‌سازی شده برای فلش و ترکیب فایل‌ها و اندازه‌های مختلف در AI، به GPU Clusterها پهنای باند بالا ارائه می‌دهد

نکات مهم و ملاحظات

  • نتایج آموزش توزیع‌شده نشان می‌دهد که مقیاس‌پذیری عملکرد در تعداد مختلف GPU و توزیع‌های مختلف در خوشه بسیار ثابت و قابل پیش‌بینی است

  • در استنتاج، WekaIO Matrix عملکرد را برای شتاب‌دهی به بارهای کاری و کاهش زمان دسترسی به بینش‌ها بهبود داده است

  • ترکیب WekaIO Matrix + Mellanox 100 Gbps InfiniBand + NVIDIA GPU روی HPE Apollo 6500 Gen10 پلتفرم قدرتمندی برای AI تولیدی ارائه می‌دهد

  • WekaIO Matrix عملکردی برابر یا بهتر از سیستم فایل محلی ارائه می‌دهد و مقیاس‌گذاری داده‌ها و GPUها را بدون کاهش عملکرد ممکن می‌کند

  • شبکه پرسرعت ضروری است: یک شبکه ۱۰ Gb Ethernet توسط ۱۶ GPU احتمالا اشباع می‌شود و استفاده از خوشه‌های بزرگ با شبکه کند امکان‌پذیر نیست

کاربردهای صنعتی

  1. خودروهای خودران (Autonomous Vehicles):

    • CNNها مانند ResNet50 برای تشخیص اشیا و بخش‌بندی معنایی استفاده می‌شوند

    • آموزش نیازمند مجموعه داده‌های حجیم تصویری برای بهبود مدل‌ها است

    • با HPE Apollo 6500 Gen10، می‌توان چندین مدل موازی را اجرا یا مدل‌ها را سریع‌تر آموزش داد و زمان رسیدن به بینش کاهش می‌یابد

  2. تصویربرداری پزشکی (Medical Imaging):

    • خوشه‌بندی انعطاف‌پذیر سرورها امکان آزمایش سریع مدل‌های مختلف در فاز توسعه و جمع‌آوری منابع برای داده‌های بزرگ تولیدی را فراهم می‌کند

راهکار جامع AI از HPE

  • HPE ابزارها و تخصص لازم برای ایجاد راهکارهای DL با GPU، ذخیره‌سازی اشتراکی و شبکه فراهم می‌کند

  • HPE Deep Learning Cookbook امکان بنچمارک قابل تکرار و راهنمایی برای مدل‌های شبکه عصبی و فرمت داده‌ها را ارائه می‌دهد

  • این ابزارها باعث می‌شوند راه‌اندازی سریع و مؤثر مدل‌های DL در محیط‌های تولیدی ممکن شود

پیکربندی سخت‌افزار HPE Apollo 6500 و DL360

HPE XL270d Gen10 Node (Training Cluster)

جزءتعدادSKU
HPE XL270d Gen10 Node CTO Server1P00392-B21
Xeon-Gold 6150 FIO Processor Kit1P01278-L21
Xeon-Gold 6150 Processor Kit1P01278-B21
حافظه 16 GB DDR4 Smart Memory Kit12835955-B21
HPE DL38X Gen10 Premium 8 SFF/SATA Bay Kit1826690-B21
NVMe FIO Enable Kit1P01056-B22
6+2 NVMe Instr Spec FIO1878192-B21
PCIe/SATA M.2 FIO Riser Kit1863661-B21
InfiniBand EDR/Ethernet 100 Gbps 2-port Adapter2872726-B21
2200 W Platinum Hot Plug Power Supply4P01062-B21
2.0 m 250 V 16 A C19-C20 Jumper Cord4TK738A
8 SXM2 GPU FIO Module1P01786-B22
SXM2 Heat Sink FIO Kit2P02939-B22
NVIDIA Tesla V100 SXM2 16 GB8Q2N66A

HPE EDR InfiniBand Fabric

جزءتعدادSKU
Mellanox InfiniBand EDR 100 Gb/sec v2 36-port Unmanaged Switch1834976-B22
3m InfiniBand EDR QSFP Copper Cable16834973-B25

HPE ProLiant DL360 Gen10 (Inference Cluster)

جزءتعدادSKU
DL360 Gen10 Premium 10 NVMe CTO Server8867960-B21
Xeon-Gold 6134 FIO Processor Kit8860683-L21
Xeon-Gold 6134 Processor Kit8860683-B21
8 GB DDR4 Registered Smart Memory96815097-B21
800 W Flex Slot Titanium Hot Plug Power Supply16865438-B21
InfiniBand EDR 100 Gbps 2-port Adapter8872726-B21
SATA M.2 2280 Riser Kit8867978-B21
240 GB SATA M.2 SSD16875488-B21
1.6 TB NVMe x4 Lanes SFF SSD32877994-B21

نرم‌افزار بنچمارک

آموزش (Training)

مؤلفهنسخه/جزئیات
OSUbuntu 16.04.3 LTS
File SystemWekaIO MatrixFS 3.1.8.2
DL FrameworkTensorFlow 1.12.0
Distributed FrameworkHorovod 0.15.2
Containernvcr.io/nvidia/tensorflow:19.01-py3

استنتاج (Inference)

مؤلفهنسخه/جزئیات
OSUbuntu 16.04.3 LTS
File SystemWekaIO MatrixFS 3.1.8.2
FrameworkTensorRT 5.0.2 GA
Containerdlbs/tensorrt:18.10

اگر بخواهیم همین پیکر بندی را روی سرور dl380 g10 داشته باشیم به 8 عدد سرور با مشخصات زیر نیاز داریم

پیکربندی پیشنهادی DL380 Gen10 برای DL / AI Scale-Out

سخت‌افزار سرور (هر DL380 Gen10)

مؤلفهتعدادمدل / توضیحات
سرور1HPE DL380 Gen10 CTO
پردازنده2Intel Xeon Gold 6248 (20 هسته، 2.5GHz)
حافظه RAM1232GB DDR4-2933 RDIMM (جمع 384GB)
کارت گرافیک2NVIDIA Tesla V100 SXM2 16GB
NVMe SSD41.6 TB NVMe SFF (برای داده و scratch space)
SATA SSD2480 GB SATA SSD (سیستم عامل و cache)
کنترلر NVMe1HPE Smart Array P408i-a NVMe
شبکه2Mellanox EDR 100Gb InfiniBand
منبع تغذیه21600W Platinum Hot-Plug

شبکه و ذخیره‌سازی (برای Scale-Out)

مؤلفهتعدادمدل / توضیحات
سوئیچ اینفینی‌باند1HPE Mellanox 36-port EDR 100Gb unmanaged
کابل اینفینی‌باندبه تعداد مورد نیاز3m QSFP Copper
سیستم فایل اشتراکیWekaIO MatrixFS (برای اشتراک‌گذاری داده بین سرورها)

Scale-Out Cluster پیشنهادی

تعداد سرور DL380GPU کلRAM کلNVMe کلشبکه
481.5 TB16 TBMellanox 100Gb EDR
8163 TB32 TBMellanox 100Gb EDR

این کانفیگ مشابه Apollo 6500 Gen10 4-node cluster با 32 GPU نیست ولی قابلیت آموزش و استنتاج توزیع‌شده DL را دارد. برای تعداد GPU بیشتر، می‌توان GPU های بیشتری روی هر سرور نصب کرد اگر فرم‌فاکتور و خنک‌سازی اجازه دهد.

نرم‌افزار و فریمورک

بخشنسخه پیشنهادی
OSUbuntu 18.04 LTS
فایل سیستمWekaIO MatrixFS v3.x
DL FrameworkTensorFlow 2.x / PyTorch 1.x
Distributed TrainingHorovod + NCCL
ContainerNVIDIA NGC TensorFlow / PyTorch container
InferenceTensorRT 8.x

نکات طراحی مشابه Apollo 6500

  1. GPU Scaling: هر DL380 تا 2 GPU ولی با Scale-Out می‌توان عملکرد مشابه 8 GPU داشت.
  2. Shared Storage: WekaIO MatrixFS داده‌ها را بین سرورها بدون bottleneck اشتراک می‌کند.
  3. Mixed Precision Training: برای بهره‌وری بیشتر از V100، آموزش با FP16/AMP توصیه می‌شود.
  4. High-speed Network: اینفینی‌باند 100Gb برای جلوگیری از محدودیت I/O ضروری است.
  5. Inference: همان سرورها می‌توانند برای اعتبارسنجی یا تولید مدل‌ها استفاده شوند با batch بزرگ و TensorRT.

سخن پایانی

برای راه‌اندازی پروژه‌های هوش مصنوعی و یادگیری عمیق، انتخاب سخت‌افزار مناسب نقش تعیین‌کننده‌ای در سرعت، دقت و بهره‌وری دارد. سرورهای HPE DL380 Gen10 به همراه کارت‌های گرافیک NVIDIA Tesla/V100 که توسط سهند سرور ارائه می‌شوند، تجربه‌ای قابل اعتماد، مقیاس‌پذیر و بهینه برای هر نوع پروژه هوش مصنوعی فراهم می‌کنند.

با بهره‌گیری از این پیکربندی‌ها:

  • آموزش و استنتاج مدل‌ها با حداکثر سرعت و کمترین تاخیر انجام می‌شود.

  • می‌توانید به راحتی سرورها و کارت‌ها را بر اساس نیاز پروژه افزایش یا کاهش دهید.

  • از پشتیبانی و مشاوره تخصصی برای طراحی سیستم اختصاصی خود بهره‌مند می‌شوید.

سهند سرور همراه مطمئن شما برای ایجاد راهکارهای هوش مصنوعی با بالاترین بهره‌وری و کمترین زمان رسیدن به نتیجه است.

 

اشتراک گذاری