1. این پایگاه به ثبت ستاد ساماندهی وزارت فرهنگ و ارشاد اسلامی ایران رسیده است.

    مهمان عزیز سپاس بابت بازدید شما از تالار گفتگوی دهه هفتادی ها.

    عضویت در انجمن رایگان بوده و برای عموم باز میباشد . با صرف 30 ثانیه یکی از اعضای دهه هفتادی ها شوید .

بررسی عمیق نسل جدید Apuهای Amd و تکنولوژی‌های جدید آن

شروع موضوع توسط Admin ‏Jan 24, 2014 در انجمن نرم افزار و سخت افزار

  1. Admin

    Admin غواصی فقط تو چشات عضو کادر مدیریت مدیر کل سایت

    12,501
    24,596
    62,617
    سال 2014 فرارسیده و نوبت رونمایی از مدل‌های جدید APUهای ای‌ام‌دی است. منظور از APU ترکیب پردازنده‌ی اصلی و کارت گرافیک است که در کامپیوترهای امروزی متداول شده و بازار هم به خوبی از آن استقبال کرده است. AMD در نسل جدید، تنها به ترکیب پردازنده‌ی اصلی و پردازنده‌ی گرافیکی قوی‌تر بسنده نکرده؛ بلکه قابلیت‌های ویژه‌ای برای استفاده‌ی بهینه از دو پردازنده در نظر گرفته که در ادامه به آن می‌پردازیم.

    معرفی اجمالی کاوری


    در کاوری از نسل سوم معماری بولدوزر استفاده شده و البته لیتوگرافی نیز ظریف‌تر از نسل قبل است. در واقع به جای استفاده از لیتوگرافی 32 نانومتری High-K Metal Gate SOI کمپانی گلوبال فاوندریز، از لیتوگرافی 23 نانومتری SHP یا Super High Performance استفاده می‌شود. با تغییر روش تولید، عملکرد تراشه هم تغییر می‌کند. به این صورت که در نسل قبلی، تراشه برای کارکرد در فرکانس‌های بالا بهینه می‌شد و حالا تراشه برای تراکم بیشتر ترانزیستورها بهینه است و از نظر فرکانس کاری، کمی ضعیف‌تر خواهد بود. ای‌ام‌دی این ساختار را برای APU، بهینه‌تر عنوان کرده؛ چرا که پردازنده‌ی اصلی به فرکانس کاری بالا نیاز دارد و پردازنده‌ی گرافیکی به تراکم بالای ترانزیستورها و مدارات داخلی آن محتاج است.

    بنابراین نتیجه می‌گیریم که کاوری‌ها نسبت به ترینیتی و ریچ‌لند، فرکانس کاری پایین‌تری دارند.

    کاوری از نظر پردازنده‌ی اصلی از هسته‌هایی با معماری Steamroller استفاده می‌کند که نسبت به هسته‌های Piledriver در دو نسل قبلی، کم‌مصرف‌تر هستند. با توجه به کاهش فرکانس کاری، ای‌ام‌دی تعداد دستورات اجرایی در یک سیکل کلاک یا به اختصار IPC را افزایش داده است.

    در پردازنده‌ی گرافیکی از اثر مثبت افزایش تراکم ترانزیستورها به نحو احسن استفاده شده تا پردازنده‌ی گرافیکی پیچیده‌تر و قدرتمندتر از دو نسل قبلی باشد. ای‌ام‌دی معتقد است که حالا توازن بهتری بین پردازنده‌ی اصلی و گرافیکی برقرار شده؛ ولیکن بخش پردازنده‌ی اصلی برای رقابت با تراشه‌های خوب اینتل ضعیف به نظر می‌رسد؛ چرا که دو نسل قبلی هم در برابر اینتل تا حدی ناتوان ظاهر شده بودند. در واقع ای‌ام‌دی بیش از هر چیز به تغییر جدی معماری پردازنده‌ی اصلی نیاز دارد.

    پردازنده‌ی گرافیکی نسل جدید از خانواده‌ی Hawaii است و به عبارت دیگر معماری GCN دارد. این پردازنده‌ی گرافیکی از HSA هم پشتیبانی می‌کند. به کمک HSA ارتباط بین پردازنده‌ی اصلی و گرافیکی ساده می‌شود و نیاز به کپی کردن تکراری حجم انبوهی از داده‌ نیست؛ لذا کارایی تراشه در این حالت، بهینه‌تر از روش سنتی است. برای آشنایی با HSA یا معماری ناهمگن سیستم، به مقاله‌ی "معماری ناهمگن (HSA) چیست و چطور AMD با بهره‌گیری از آن به پیشرفت صنعت پردازش کمک خواهد کرد؟" در زومیت سری بزنید.

    [​IMG]

    یکی از مزایای دیگر این معماری، تشابه پردازنده‌ی گرافیکی کاوری با کارت گرافیک‌های جدید ای‌ام‌دی است؛ چرا که از این به بعد هر نرم‌افزار و بازی که برای کارت گرافیک‌های جدید، یعنی سری R200 بهینه شود، برای کاوری‌ها هم بهینه خواهد بود.

    متأسفانه باز هم ای‌ام‌دی ضعف پردازنده‌ی اصلی را با دو موضوع توجیه می‌کند؛ اولین نکته، قدرتمند‌بودن پردازنده‌ی گرافیکی است که بازی‌خورها را به سمت تراشه‌های ارزان و کارای این سازنده متمایل می‌کند. دومین موضوع، ضعف در پشتیبانی از قابلیتی مثل HSA است که فعلاً به عنوان یک واقعیت وجود دارد و نمی‌توان آن را انکار کرد. با وجود اینکه پردازنده‌ی اصلی ضعیف است، باز هم می‌توان با پشتیبانی خوب نرم‌افزاری، قابلیت‌های HSA را به رخ کشید. اگر ای‌ام‌دی ابزارهایی برای زبان‌های متداول مثل OpenCL، جاوا، C++ و غیره معرفی کرده و کتابخانه‌هایی برای واسط‌های برنامه‌نویسی عرضه کند، استفاده از HSA ممکن می‌شود و می‌توان با کدنویسی کمتر، به نتیجه‌ی نهایی رسید.

    کاوری اولین پردازنده‌ی اصلی، APU و همچنین اولین سیستم-روی-یک-چیپی است که از OpenCL 2.0 پشتیبانی می‌کند. منظور از OpenCL زبان برنامه‌نویسی محاسباتی متن‌باز است.

    [​IMG]

    یکی از تفاوت‌های کاوری با نسل قبلی خود، ریچ‌لند، در استفاده از پردازشگر دیجیتالی سیگنال روی قالب APU است. TrueAudio نام این تکنولوژی ویژه‌ی ای‌ام‌دی است که بار پردازش صدا را از دوش پردازنده‌ی اصلی برمی‌دارد. به عنوان مثال اگر برای اعمال افکت اکو یا Reverb تا بیش از 3 ثانیه از این DSP سخت‌افزاری استفاده شود، کاهش بار پردازشی پردازنده‌ی اصلی بیشتر از 10 درصد خواهد بود که در بازی‌ها مهم به نظر می‌رسد. با استفاده از تروآودیو، می‌توان پردازش صداهای چندکاناله یا تبدیل صدای چندکاناله به استریو را بدون بار سنگین روی پردازنده‌ی اصلی انجام داد.

    در مقاله‌ی "بررسی کامل Radeon 200 یا Hawaii، نسل جدید کارت‌های گرافیک‌‌های AMD"، اطلاعات دقیق و جالبی در مورد این تکنولوژی صوتی به دست خواهید آورد.

    در کنار تروآودیو دو تکنولوژی ویدیویی UVD و VCE هم ارتقا یافته‌اند. UVD یا Unified Video Decoder رمزگشای یکپارچه‌ی ویدیویی است که برای پخش ویدیوهای فشرده شده با کیفیت بالا، کاربرد فراوان دارد و دومین مورد Video Coding Engine است که برای رمزگذاری یا به عبارتی فشرده کردن ویدیو، کاربرد دارد.

    مساحت قالب کاوری شبیه ریچ‌لند است؛ 245 میلی‌متر مربع در برابر 236 میلی‌متر مربع؛ ولیکن در همین مساحت برابر، ترانزیستورها به شدت بیشتر شده‌اند. 2.41 در برابر 1.3 میلیارد ترانزیستور، افزایش 85 درصدی دارد. تغییر لیتوگرافی 32 نانومتری به 28 نانومتری خود موجب 26 درصد تراکم بیشتر می‌شود؛ ولیکن 85 درصد رقم فوق‌العاده بالاتری است. متأسفانه ای‌ام‌دی منظور دقیق خود را عنوان نکرده و ممکن است چیدمان یا شماتیک ترانزیستورها منظور بوده باشد.

    [​IMG]

    صف‌آرایی کاوری‌ها با مدل‌های خوب 45 واتی ویژه‌ی دسکتاپ


    در ‌سال‌های اخیر اینتل توان مصرفی پردازنده‌های خود را از 35 الی 45 وات به 10 الی 20 وات کاهش داده که برای اولترابوک‌ها بسیار خوب است؛ چرا که وزن کمتری دارند و باتری سبک‌تر این دسته از لپ‌تاپ‌ها، برای تأمین توان مصرفی یک تراشه‌ی 35 واتی، آن هم برای بیش از 7 ساعت مناسب نیست. اینتل در ادامه با تغییر ولتاژ کاری تراشه‌ها، خانواده‌ی Atom و Quark را معرفی کرده که توان مصرفی فوق‌العاده پایینی دارند.

    ای‌ام‌دی هم از این ایده تبعیت کرده و برخی مدل‌ها را احتمالاً با یک ماژول متشکل از 2 هسته رونمایی کرده و توان مصرفی را به رقم 15 وات تقلیل داده است.

    [​IMG]

    در صف دیگر، محصولات ویژه‌ی وسایل همراه قرار می‌گیرند که فعلاً رونمایی نشده و برای اواسط سال 2014 در نظر گرفته شده‌اند.

    در جدول زیر مشخصات تراشه‌های 45 واتی مبتنی بر نسل‌های مختلف هسته‌های بولدوزر را مشاهده می‌کنید:

    [​IMG]

    این هم جدول تراشه‌های 65 واتی:

    [​IMG]

    جالب است که مدل A8-7600 در هر دو جدول فوق دیده می‌شود! این همان روشی است که از آن صحبت کردیم؛ کاهش ولتاژ کاری، فرکانس حالت پایه و فرکانس حالت توربو موجب شده که یک مدل خاص توان مصرفی 45 وات و 65 وات داشته باشد.

    البته توجه داشته باشید که فرکانس پردازنده‌ی گرافیکی در هر دو حالت 720 مگاهرتز است و این یعنی ای‌ام‌دی قدرت پردازنده‌ی گرافیکی را تغییر نداده است. این مدل برای فصل اول 2014 در نظر گرفته شده است.

    آخرین جدول هم مدل‌های 95 و 100 واتی سه نسل متوالی APUهای ای‌ام‌دی را نمایش می‌دهد:

    [​IMG]

    با نگاهی گذرا به جدول فوق به نکته‌ای که قبلاً اشاره کردیم، می‌رسیم. تغییر لیتوگرافی از 32 نانومتر به 28 نانومتر با تراکم بیشتر ترانزیستور و کاهش فرکانس حالت توربو همراه شده در حالی که توان مصرفی اندکی کاهش یافته است.

    مادربوردهای مخصوص کاوری هم سوکت FM2 دارند


    ای‌ام‌دی این بار برخلاف معمول روش تغییر ندادن سوکت را ادامه نداده و مشتریان برای استفاده از تراشه‌های جدید، مجبور به تعویض مادربورد هستند. چیزی که در سه نسل اخیر پردازنده‌های اینتل شاهد بودیم و تعداد پین‌ها از 1156 در سندی‌بریج به 1155 در آیوی‌بریج و در نهایت 1150 پین در هسول تغییر کرد.

    لذا سوکت FM2+ برای کاوری در نظر گرفته شده که با مادربوردهای FM2 سازگار نیست. در واقع FM2+ تنها دو پین بیشتر از FM2 دارد و نمی‌توان تراشه‌های جدید کاوری را در سوکت قدیمی FM2 قرار داد. قابل ذکر است که FM2+ با معرفی نسل قبلی یعنی ریچ‌لند روانه‌ی بازار شده و در حال حاضر هم موجود است. ممکن است مادربورد به تازگی تولید شده باشد و بایوس جدید روی آن ذخیره شده باشد که در این صورت مشکلی نیست؛ ولی اگر موجودی مغازه به تولید ماه‌های قبل مربوط باشد، باید بایوس آن را به روز کرد تا از کاوری هم پشتیبانی کند.

    توجه کنید که عکس مسأله‌ی فوق یعنی استفاده از تراشه‌های سری ریچ‌لند و ترینیتی روی مادربوردهایی که سوکت FM2+ دارند، امکان‌پذیر است.

    بهتر است به چیپ‌ست‌های 4 نسل متوالی APUهای ای‌ام‌دی نگاهی بیاندازید و ببینید کدام مدل با کدام مادربوردها هماهنگ است.

    [​IMG]

    مشاهده می‌کنید که کاوری تنها با سه چیپ‌ست A55، A78 و A88X سازگار است. البته چیپ‌ست A55 با سه سوکت پردازنده عرضه شده که برای کاوری، تنها سوکت FM2+ کاربرد دارد.

    مراقب باشید که نام چیپ‌ست پل شمالی AMD 780L را با چیپ‌ست جدیدتر A78 اشتباه نگیرید؛ چرا که ممکن است در نام مادربوردهای قدیمی عدد 78 هم وجود داشته باشد، حال آنکه ربطی به A78 ندارند و سوکت پردازنده‌شان AM3 است.

    در مورد تفاوت چیپ‌ست‌هایی که در جدول فوق ذکر شده، می‌توان به پشتیبانی از PCIe 3.0 با پهنای باند متفاوت اشاره کرد. تعداد پورت‌های SATA 3 که سرعت 6 گیگابیت بر ثانیه دارد و همچنین پورت‌های USB 3.0 هم متفاوت است. پشتیبانی از RAID هم در این مدل‌ها یکسان نیست.

    [​IMG]

    با کاوری راه پیش روی HSA هموار شده است


    ای‌ام‌دی گراف آماری زیر را برای نمایش عمومیت پیدا کردن APU نمایش داده که نشان می‌دهد در سال 2013 تنها یکی از 10 سیستم پی‌سی یا لپ‌تاپ، به پردازنده‌ای فاقد پردازنده‌ی گرافیکی مجهز شده است. توجه کنید که اینتل از کاربرد واژه‌ی APU برای تراشه‌های مجهز به پردازنده‌ی گرافیکی خود اجتناب می‌کند و هنوز همان عنوان CPU یا واحد پردازنده‌ی اصلی را برای آن به کار می‌برد. ولیکن در عمل اینتل هم در اکثر مدل‌ها از پردازنده‌ی اصلی و گرافیکی در کنار هم استفاده می‌کند. برای اطلاعات بیشتر در این زمینه به مقاله‌ی "تفاوت بین CPU، GPU و APU چیست؟ هر کدام چه مأموریتی دارند؟" مراجعه کنید.

    [​IMG]

    همان‌طور که استفاده از APU از سال 2010 روند صعودی شدیدی به خود گرفت، احتمالاً با پشتیبانی خوب نرم‌افزاری، استفاده از HSA هم همین روند را در پیش بگیرد. در کاوری از معماری دسترسی ناهمگن یکنواخت به حافظه یا به اختصار hUMA پشتیبانی کامل می‌شود. برای مطالعه در این رابطه باز هم نگاهی به مقاله‌ی "AMD با فناوری hUMA یک گام بزرگ در دنیای پردازنده‌ها برداشت"مراجعه کنید.

    خلاصه بگوییم، پرازنده‌ی گرافیکی و اصلی، وقتی در حالت عادی کار می‌کنند، دسترسی به حافظه در آن واحد امکان‌پذیر نیست؛ و لذا پهنای باند حافظه به شکل بهینه‌ای استفاده نمی‌شود. با HSA و hUMA می‌توان رابطه‌ی بین دو پردازنده را نزدیک‌تر کرد به طوری که برای محاسبه، توان هر دو مورد استفاده قرار گیرد.

    [​IMG]

    اما این ابتدای راه معماری HSA است و پشتیبانی سازندگان نرم‌افزار هم لازم است. ای‌ام‌دی برای پشتیبانی بهتر پلتفرم‌های مختلف از HSA و نیز OpenCL 2.0، یک لایه‌ی دستوری یا HSAIL معرفی کرده که هدف آن کاربرد در زبان‌های معروف مثل C++، جاوا، C++ AMP و همچنین کتابخانه‌های معروف واسط‌های برنامه‌نویسی است. ای‌ام‌دی می‌خواهد کاری کند که سازنده‌ی نرم‌افزار به راحتی هر چه تمام‌‌تر کدهایی برای استفاده از تکنولوژی HSA بنویسد.

    کاوری قرار است بازی‌ها را در رزولوشن 1080p با سرعت بالاتر از 30 فریم بر ثانیه اجرا کند


    پردازنده‌ی گرافیکی در کاوری، آن قدر قدرت ندارد که بتواند بازی‌ها را با آخرین تنظیمات به شکل روان و سریع اجرا کنید؛ ولیکن هدف ای‌ام‌دی این بوده که حتی بازی‌های مدرن هم روی این تراشه‌ها اجرا شوند؛ البته با کاهش تنظیمات تا حد متوسط.

    [​IMG]

    بازی‌های گرافیکی مثل BattleField 4 و Crysis 3، برای تمام کارت گرافیک‌های موجود سنگین هستند؛ مخصوصاً اگر قابلیت‌های مبتنی بر دایرکت ایکس 11، یعنی عمق میدان، نورپردازی کامل، بسته بودن محیط و فیلترهای دوجهته را فعال کنید.

    روش جدید شمارش هسته‌ها با یکپارچگی دو پردازنده‌ی اصلی و گرافیکی


    در دنیای گوشی‌ها و تبلت‌ها، تبلیغ تعداد هسته‌های یک سیستم-روی-یک-چیپ، به مسأله‌ای جدی تبدیل شده؛ به طوری که اپل، کوآلکام، سامسونگ و انویدیا، همگی تعداد هسته‌های پردازنده‌ی اصلی و گرافیکی را به صورت جدا بیان می‌کنند. انویدیا با معرفی تراشه‌ی قدرتمند تگرا کی‌وان که چندی پیش بررسی عمیق آن در زومیت منتشر شد، روش جدیدی برای بیان تعداد هسته‌ها در پیش گرفت. 192 هسته‌ی CUDA تنها روی یک SoC کوچک و رکوردشکنی تگرا کی‌وان در بنچ‌مارک‌ها، حاصل طراحی ویژه‌ی انویدیا بوده است.

    مشخص است که ای‌ام‌دی با یکپارچه کردن دو پردازنده‌ی اصلی و گرافیکی در کاوری، باید نسبت به تغییر نحوه‌ی بیان تعداد هسته‌ها اقدام کند. از این رو از اصطلاح Compute Core یا هسته‌ی محاسباتی استفاده کرده است. هسته‌ی محاسباتی ممکن است یکی از هسته‌های x86 پردازنده‌ی اصلی و یا یکی از واحدهای محاسباتی در معماری GCN پردازنده‌ی گرافیکی باشد.

    در مجموع تعداد کل هسته‌های محاسباتی برابر است با با حاصل‌جمع تردهایی که روی پردازنده‌ی اصلی اجرا می‌شوند و همچنین تعداد واحدهای محاسباتی پردازنده‌ی گرافیکی.

    در مورد مدل A10-7850K که 4 هسته‌ی پردازنده‌ی اصلی دارد و 4 ترد پردازشی را اجرا می‌کند و نیز 8 واحد محاسباتی در پردازنده‌ی گرافیکی آن که از خانواده‌ی R7 پردازنده‌های گرافیکی است، دیده می‌شود، در مجموع 12 هسته‌ی محاسباتی وجود دارد.

    [​IMG]

    قابل ذکر است که در معماری GCN خانواده‌ی کارت گرافیک‌های هاوایی، تعداد کرنل یا هسته‌هایی که می‌توان روی واحدهای محاسباتی ایجاد کرد، با تعدادشان برابر است. در چند نسل قبل، روی پردازنده‌ی گرافیکی، تنها یک کرنل قابل اجرا بود و بلوک‌های پردازشی برای اجرا روی تمام واحدهای محاسباتی، به بخش‌های کوچک‌تر شکسته می‌شدند.

    در نهایت 12 هسته‌ی محاسباتی با هم متفاوت هستند و برنامه‌نویس برای استفاده از تمام توان تراشه، باید کدهای مجزایی برای پردازنده‌ی اصلی و گرافیکی بنویسد. به همین علت است که در معرفی مشخصات کاوری‌ها باید اینگونه نوشت: 12 هسته‌ی پردازشی (4 پردازنده‌ی اصلی + 8 پردازنده‌ی گرافیکی) تا سازنده‌ی نرم‌افزار، کد مناسب برای آن بنویسد.

    البته کاربران عادی ممکن است به اشتباه بیافتند و تصور کنند که 12 هسته تعداد بسیار زیادی است و مسلماً بهتر از تراشه‌های اینتل با تعداد هسته‌های بسیار کمتر است.

    [​IMG]

    مشکل اصلی در استفاده‌ی کامل از توان پردازشی سه APUی کاوری این است که برنامه‌نویس با فرکانس کاری بسیار متفاوتی سر و کار دارد. پردازنده‌ی گرافیکی 720 مگاهرتز سرعت دارد در حالی که سرعت پردازنده‌ی اصلی متغیر و بیش از 3 گیگاهرتز است.

    تغییرات ایجاد شده در نسل سوم هسته‌های بولدوزر به نام استیم‌رُولر


    استیم‌رولر تقریباً همان معماری بولدوزر را حفظ کرده؛ هر ماژول دارای 2 هسته‌ی پردازنده‌ی اصلی است که خود دارای 2 هسته برای محاسبات اعداد اینتیجر هستند و یک واحد محاسبه‌ی اعداد اعشاری نیز به طور مشترک مورد استفاده قرار می‌گیرد. در نهایت دو ترد پردازشی به شکل موازی قابل اجرا ست. سیستم‌عامل یک ماژول را به صورت دو هسته با دو ترد پردازشی می‌بیند.

    در بولدوزر و پایل‌درایور، هر هسته‌ی محاسبات اینتیجر، دارای صف زمان‌بندی مستقل بود؛ ولیکن دو هسته صف واکشی و رمزگشایی یا دیکُد، مشترک داشتند. دستور وارد می‌شد و پس از رمزگشایی، در سیکل‌های متناوب کلاک به یکی از کانال‌های اطلاعاتی اینتیجر منتقل می‌گردید. در استیم‌رولر بخش رمزگشایی به تعداد ماژول‌ها تکثیر شده؛ بنابراین هر هسته‌ی محاسبات اینتیجر، خود دارای واحد رمزگشایی مخصوص به خود است. دو واحد رمزگشایی نیز توسط یک واحد محاسبه‌ی اعشاری استفاده می‌شوند.

    [​IMG]

    کش دستور سطح یک برای هر ماژول دو هسته‌ای، از 64 کیلوبایت به 96 کیلوبایت افزایش یافته و ای‌ام‌دی معتقد است که این افزایش، به 30 درصد خطای کمتر می‌انجامد. پیشگوی شاخه‌ها نیز به روز شده و تعداد شاخه‌های پیش‌بینی نشده در اجرای دستورات را تا 20 درصد کاهش داده است. منظور از پیشگوی شاخه‌ها در اجرای دستورات شرطی، پیش‌بینی شاخه‌ای است که احتمالاً اتفاق می‌افتد و دستورالعمل‌های بعدی به آن شاخه تعلق دارند.

    تغییر دیگر در استیم‌رولر، افزایش اندازه‌ی ثبات یا رجیستر اعداد اعشاری و اینتیجر و همچنین افزایش اندازه‌ی بخش زمان‌بندی است که ترکیب این دو مورد، تعداد ارسال‌ها در یک ترد را 25 درصد افزایش می‌دهد.

    در بخش ذخیره‌سازی هم تغییرات بزرگی صورت گرفته؛ به طوری که استیم‌رولر در آن واحد قادر به تخصیص 2 عمل ذخیره‌سازی است که در بولدوزر و نسل بعدی آن، پایل‌درایور تنها 1 مورد بود. اندازه‌ی صف بارگذاری و ذخیره‌کردن هم حدود 20 درصد رشد کرده که نشان‌دهنده‌ی طراحی خوب بولدوزر است.

    GCN، معماری پردازنده‌ی گرافیکی


    GCN نام معماری معروف پردازنده‌های گرافیکی ای‌ام‌دی است. در دو نسل قبل یعنی ترینیتی و ریچ‌لند از معماری پردازنده‌های Cayman استفاده میشد که ساختار VLIW4 داشت. اما ای‌ام‌دی با موفقیت معماری جدید GCN در کارت گرافیک‌های خود، از آن استفاده کرده تا کاوری از نظر پردازنده‌ی گرافیکی، قدرت بالایی داشته باشد. از طرفی سازندگان نرم‌افزار هم از یکسان شدن معماری کارت گرافیک‌های خانواده‌ی Radeon 200 که به تازگی در بازار عرضه می‌شوند با نسل جدید APUهای ای‌ام‌دی، کمال استفاده را می‌برند؛ چرا که نیازی به بهینه کردن کدها برای دو معماری کاملاً متفاوت نیست.

    ای‌ام‌دی هم از تشابه‌ی کارت گرافیک‌های هاوایی و پردازنده‌های کاوری کمال استفاده را می‌برد؛ به این صورت که اضافه‌کردن تکنولوژی پردازش سیگنال صوتی تروآودیو، موتور رمزگذاری ویدیو، رمزگشایی یکپارچه‌ی ویدیویی و هر آنچه موجب برتری کارت گرافیک‌های جدید ای‌ام‌دی بر رقیب دیرینه‌اش، یعنی انویدیا شده، به راحتی امکان‌پذیر است.

    علاوه بر این دو کنسول، نسل جدید هم از پردازنده‌های گرافیکی مشابهی استفاده می‌کنند که امکان بهینه‌کردن بازی‌ها برای کارت گرافیک‌های ای‌ام‌دی و نیز تراشه‌های کاوری را میسر می‌کند.

    نگاهی به سه تصویر از قالب تراشه‌های خانواده‌ی لنو، ترینیتی و کاوری داشته باشید:

    یک لنوی 4 هسته‌ای

    [​IMG]

    قالب ترینیتی و ریچ‌لند با 4 هسته یا 2 ماژول پایل‌درایور

    [​IMG]

    قالب کاوری با دو ماژول و پردازنده‌ی گرافیکی آن

    [​IMG]

    به جزئیاتی مثل معماری و مدل پردازنده‌ی گرافیکی، تعداد هسته‌ها و ترانزیستورها و فرکانس کاری و توان مصرفی مدل‌هایی از 4 نسل APUهای ای‌ام‌دی توجه کنید:

    [​IMG]

    البته به غیر از اینتل، هیچ کمپانی دیگری در انتشار تعداد دقیق ترانزیستورهایی که روی تراشه‌هایش جا خوش کرده، عملکرد خوبی نداشته؛ ولیکن امیدواریم که ای‌ام‌دی این بار تعداد ترانزیستورهای پردازنده‌ی اصلی و گرافیکی را به درستی بیان کرده باشد.

    [​IMG]

    مشاهده می‌کنید که تراکم ترانزیستورها در سه نسل APUهای ای‌ام‌دی، مرتباً افزایش داشته؛ ولیکن هنوز هم لیتوگرافی 22 نانومتری اینتل در تراشه‌های 4 هسته‌ای هسول، با وجود اینکه بخش متراکم پردازنده‌ی گرافیکی آن سطح کمتری دارد، در مجموع رکورد خوبی را داراست. در واقع کاوری با استفاده از سطح بیشتری که به پردازنده‌ی گرافیکی اختصاص داده، رکوردشکنی کرده است. پردازنده‌های گرافیکی ای‌ام‌دی و انویدیا که برای کارت گرافیک‌ها طراحی شده‌اند هم تراکم بالاتری دارند.

    سه قابلیت جانبی: تروآودیو، رمزگشا و رمزگذاری ویدیو

    با نگاهی گذرا به تصویر زیر، مشخص می‌شود که تفاوت رمزگشای یکپارچه‌ی ویدیویی نسخه‌ی 4 به 3 در چیست. تنها دیکد‌کردن ویدیوهای H.264 که بهینه شده است.

    [​IMG]

    در مورد اینکودر یا موتور رمزگذاری هم، نسخه‌ی جدیدی معرفی شده که در رمزگذاری به صورت H.264، موفق‌تر خواهد بود. علت این موضوع، پشتیبانی از B فریم است که کیفیت را افزایش می‌دهد و یا با حفظ کیفیت، بیت‌ریت را کاهش می‌دهد. از طرفی پشتیبانی از فضای رنگ با کیفیت‌تر YUV444، فشرده کردن متن و نوشته‌های ساده را بهینه می‌کند که برای نمایشگرهای بی‌سیم مفید است.

    [​IMG]

    قدرت‌نمایی پردازنده‌ی گرافیکی مجتمع


    ای‌ام‌دی با بررسی آمار به این نتیجه رسیده که تقریباً یک سوم بازی‌خورهایی که از بازی‌های Steam استفاده می‌کنند، کارت گرافیکی ضعیف‌تر از تراشه‌ی A10-7850K دارند. بنابراین 512 پردازنده‌ی جریانی که در این کارت گرافیک وجود دارد، برای این افراد بسیار مهم است.

    [​IMG]

    پردازنده‌های اینتل معمولاً پردازنده‌ی گرافیکی مجتمع ضعیف‌تری دارند. بنابراین ای‌ام‌دی برای فروش بهتر، پردازنده‌ی گرافیکی خوبی در تراشه‌های خود قرار داده که 47 درصد سطح تراشه را اشغال می‌کند.

    [​IMG]

    فعلاً کارت گرافیک‌های قدرتمند و پرمصرف دسکتاپ، نسبت به پردازنده‌ی گرافیکی مجتمع به کار رفته در کاوری‌ها، توان پردازشی به مراتب بیشتری دارند؛ ولیکن قابلیت‌های ویژه‌ای مثل HSA، hQ و hUMA، هنوز تا نمایش توان واقعی خود در بهینه کردن پردازش، فاصله‌ی زیادی دارند. این سه ویژگی در بازی‌ها و دستکاری بافت بسیار موثرند؛ چرا که در این کاربردها، پردازنده‌ی گرافیکی همواره به فراخوانی پردازنده‌ی اصلی مشغول است.

    معماری GCN 1.1 این اجازه را به واحدهای پردازشی خود می‌دهد که به شکل غیر هم‌زمان، به زمان‌بندی و اجرای کارهای پردازشی مختلف بپردازند. بنابراین در مورد مدلی مثل A10-7850K با 8 واحد پردازشی روبرو هستیم که به شکل 8 پردازنده‌ی گرافیکی کوچک‌تر فعالیت می‌کنند.

    علی‌رغم بهینه‌سازی‌های انجام شده روی مرز ارتباطی پردازنده‌ی گرافیکی، هنوز هم محدودیت پهنای‌باند که به رم دوآل چنل یا دو کاناله‌ی DDR3 مربوط می‌شود، وجود دارد. لذا ای‌ام‌دی در ادامه‌ی راه باید به فکر نوعی رم سطح سوم یا eDRAM باشد که این مشکل حل شود.

    [​IMG]

    Mantle و بهینه کردن بازی‌ها و نرم‌افزارهای گرافیکی


    بزرگ‌ترین و مهم‌ترین تغییری که ای‌ام‌دی در دنیای پردازش گرافیکی ایجاد کرده و به معماری GCN مربوط می‌شود، Mantle است. منتل یک واسط برنامه‌نویسی سطح پایین است که به سازندگان موتور سه‌بعدی بازی‌ها، اجازه‌ی بهینه کردن آن را می‌دهد؛ چرا که فراخوانی ترسیم‌ها کاهش می‌یابد. در این مورد بهتر است به مقاله‌ی "AMD و عرضه‌ی واسط جدید برنامه‌نویسی Mantle برای 100 هزار ترسیم در یک فریم" مراجعه کنید.

    [​IMG]

    منتل در اعمال تک‌تردی پردازنده‌ی اصلی موثرتر است؛ چرا که ای‌ام‌دی همواره در عملکرد تک‌هسته‌ای از اینتل عقب مانده و لذا کاوری شاید با استفاده از منتل، حداقل در بازی‌ها از رقبای اینتلی خود پیشی بگیرد.

    جالب است که ای‌ام‌دی در مواردی که اجرای سناریو به فراخوانی محدود می‌شود به رکورد 2 برابر شدن سرعت دست یافته؛ البته این به نسخه‌های آزمایشی منتل مربوط می‌شود. بازی Battlefield 4 یکی از اولین بازی‌هایی است که به زودی آپدیتی برای استفاده از منتل دریافت می‌کندو به طور کلی این موتور گرافیکی Frostbite 3 است که با به کار بردن منتل، بهینه می‌شود. ای‌ام‌دی در اولین بررسی‌ها، به 45 درصد سرعت بیشتر در اجرای این بازی دست یافته که در دنیای گرافیک خارق‌العاده است.

    [​IMG]

    تا عرضه‌ی نسخه‌ی عمومی باید صبر کنیم و ببینیم منتل در عمل نسبت به دایرکت ایکس چه قدر سریع‌تر خواهد بود. احتمالاً در ماه جاری بالاخره EA و DICE مشکلات بتل‌فیلد 4 را حل کنند و ای‌ام‌دی هم به سرعت منتل را برای بهینه‌کردن موتور بازی، به کار ببرد.

    [​IMG]

    ترکیب کارت گرافیک مجزا و پردازنده‌ی گرافیکی مجتمع


    ای‌ام‌دی برای نمایش اجرای بازی با دو پردازنده‌ی گرافیکی مجزا و داخلی، از یک کارت گرافیک نسبتاً ضعیف استفاده کرده که مدل آن R7 240 با 2 گیگابایت حافظه‌ی GDDR3 است. درست مثل این است که بخواهیم دو کارت گرافیک مجزای ای‌ام‌دی را با تکنولوژی Crossfire ترکیب کنیم یا مثلاً دو محصول انویدیا را با تکنولوژی SLI به شکل موازی به کار ببریم.

    معمولاً در اجرای بازی‌ها با دو کارت گرافیک، مشکل زمان‌بندی گریبان‌گیر مجموعه‌ی کارت گرافیک‌ها می‌شود و همان‌طور که در مقاله‌ی "انویدیا با معرفی FCAT فصل تازه‌ای را در بررسی تخصصی عملکرد کارت‌های گرافیک‌ آغاز کرد" گفتیم، برخی فریم‌ها با تأخیر زیاد پردازش می‌شوند. ای‌ام‌دی در ماه‌های اخیر با معرفی روش Frame Pacing یا تنظیم سرعت فریم‌ها، مشکل را تا حد زیادی حل کرده و به نظر می‌رسد که حالا مشتریان می‌توانند یک کارت گرافیک مجزای ساده را با کاوری ترکیب کنند و از بازی‌ها لذت ببرند.

    ای‌ام‌دی مدعی است که می‌توان هر کارت گرافیک سری R7 که حافظه‌ی GDDR3 دارد را با پردازنده‌ی گرافیکی مجتمع کاوری‌ها ترکیب کرد. توصیه شده که از نسخه‌ی 13.35 درایور کاتالیست استفاده شود که قرار است در ماه آینده منتشر شود.

    نتیجه بنابر ادعای ای‌ام‌دی به صورت زیر است:

    [​IMG]

    البته توجه داشته باشید که در مورد APUهای نسل قبل، یعنی ریچ‌لند و ترینیتی هم امکان ترکیب دو پردازنده‌ی گرافیکی وجود داشت؛ ولیکن معماری متفاوت، موجب بروز مشکلات می‌شد و عملکرد چندان بهینه نبود. در دو نسل قبلی همان‌طور که بیان کردیم، معماری پردازنده‌ی گرافیکی، VLIW4 بود؛ در حالی که کارت گرافیک‌های جدید ای‌ام‌دی، همگی معماری GCN دارند. لذا سرعت اجرای بازی‌ها یکنواخت‌تر از قبل شده و می‌توان روی این روش حساب بیشتری باز کرد. اما هنوز هم مدت زمان لازم برای رندر شدن درصد نسبتاً زیادی از فریم‌ها، بسیار بیشتر از حالت تک پردازنده‌ای است و باید تا بهتر شدن درایور صبر کنیم. به تصویر زیر توجه کنید و خودتان مقایسه کنید:

    [​IMG]

    Fluid Motion Video برای پخش روان‌تر ویدیوهای 24 هرتزی


    موضوع پخش ویدیوهای معمولی که سرعت 24 فریم بر ثانیه‌ای دارند را قبلاً در مقاله‌ی "آیا Refresh Rate مانیتور واقعا مهم است؟" مورد بررسی قرار دادیم. تکنولوژی فیوئید موشن ویدیوی ای‌ام‌دی، برای نمایش روان‌تر، از روش میان‌یابی بین فریم‌های متوالی استفاده می‌کند که خود موجب افزایش روانی ویدیو و کیفیت بهتر آن می‌شود. توضیحات بیشتری در این زمینه فعلاً منتشر نشده است.

    [​IMG]

    سخت‌افزار و اورکلاک کردن مدل‌های تست شده


    در تصویر زیر سخت‌افزار، درایور و سیستم‌عامل به کار رفته برای تست‌کردن محصولات جدید ای‌ام‌دی مشخص شده است:

    [​IMG]

    رقبای اینتلی هم با ترکیب زیر در تست‌ها شرکت می‌کنند:

    [​IMG]

    نتیجه‌ی اورکلاک کردن A10-7850K به شرح زیر است که در آن، Vcore ولتاژ هسته‌ی پردازنده، Load Voltage ولتاژ در حالت بار پردازشی سنگین، PovRay امتیاز به دست آمده در بنچ‌مارک مربوطه و OCCT هم امتیاز در بنچ‌مارک بعدی است.

    [​IMG]

    توان مصرفی در حالت بی کار یا Idle و توان مصرفی در OCCT نیز در جدول زیر ذکر شده که تفاوت آن ستون آخر است.

    [​IMG]

    نتیجه‌ی بنچ‌مارک‌های پردازنده‌ی اصلی


    بنچ‌مارک جدید Agisoft، برای تهیه‌ی مدل سه بعدی از تصاویر دو بعدی که محاسبات سنگینی نیاز دارد. فرکانس کاری بالاتر، اجرای دستورات بیشتر در یک کلاک یا به اختصار IPC بالاتر، هسته‌های بیشتر و در نهایت استفاده از زبان محاسباتی متن باز یا OpenCL در این آزمون موثرند.

    [​IMG]

    زمان کلی، به نفع ای‌ام‌دی تمام نشده؛ اما جالب است که در دومین مرحله از 4 مرحله‌ی بنچ‌مارک، استفاده از پردازنده‌ی گرافیکی مجتمع کار را ساده می‌کند و ای‌ام‌دی رکوردها را می‌شکند. دقت کنید که پیام تکنولوژی HSA هم تا حدی در این رکوردشکنی دیده می‌شود.

    [​IMG]

    نرم‌افزار فشرده‌کردن فایل‌ها، WinRAR 5.01 هم برای مقایسه‌ی توان پردازنده‌ها مناسب است. نتیجه باز هم به نفع اینتل است:

    [​IMG]

    تبدیل ویدیو با استفاده از Xilisoft Video Convertor 7 هم نتایج جالب توجهی دارد. تبدیل ویدیوهای رزولوشن بالا مثلاً کلیپ 10 دقیقه‌ای با رزولوشن 3840 در 4320 به مدت زمانی که در نمودار زیر نشان داده شده، نیاز دارد. توجه کنید که این نرم‌افزار از شتاب‌دهی تبدیل ویدیو با استفاده از CUDA انویدیا یا AMD APP پشتیبانی می‌کند. بنابراین در مورد تراشه‌های دارای پردازنده گرافیک مجتمع یا در کنار کارت گرافیک مجزا، دو عدد ذکر شده که زمان لازم برای تبدیل با یا بدون استفاده از شتاب‌دهی است.

    [​IMG]

    در تبدیل یک ویدیو با رزولوشن 640 در 266 پیکسل، تأثیر پردازنده‌ی گرافیکی مشخص‌تر است؛ چیزی که در ویدیوی رزولوشن بالا دیده نمی‌شود.

    در نرم‌افزار 7-zip که یک فشرده‌ساز فایل و فولدر است هم اینتل وضعیت به مراتب بهتری دارد.

    [​IMG]

    در نهایت به نرم‌افزار TrueCrypt می‌رسیم که برای رمزگذاری فایل و فولدر کاربرد دارد. مقدار داده‌ی رمزگذاری شده در هر ثانیه به صورت زیر است:

    [​IMG]

    بنچ‌مارک در بازی‌ها


    با استفاده از پردازنده‌ی گرافیکی مجتمع به اجرای بازی‌های Bioshock Infinite و Tomb Raiderبا تنظیمات معمولی می‌پردازیم.

    [​IMG]

    [​IMG]

    مشخص است که کارت گرافیک HD 6750 ای‌ام‌دی نسبت به پردازنده‌ی گرافیکی مجتمع کاوری‌ها سریع‌تر است. علاوه بر این آیریس پروی اینتل هم رکورد بسیار خوبی ثبت کرده است. نکته‌ی دیگر این است که برای بازی‌های سنگین، حتی در رزولوشن بسیار پایین هم نمی‌توان انتظار زیادی از کاوری داشت.

    بنچ‌مارک‌های محاسباتی با OpenCL


    CompuBench CL یک آزمون محاسباتی است که می‌توان دو بخش Fluid Dynamics و Computer Vision آن را روی پردازنده‌ی اصلی و گرافیکی اجرا کرد. نتیجه به صورت زیر است:

    [​IMG]

    برتری معماری GCN در این آزمون کاملاً مشخص است.

    جمع‌بندی و سخن آخر


    کاوری در بخش پردازنده‌ی گرافیکی بسیار خوب عمل می‌کند. به نمودار زیر نگاهی بیاندازید و عملکرد مدل‌های 45 واتی سه نسل از APUهای ای‌ام‌دی را در بازی‌های مختلف مقایسه کنید.

    [​IMG]

    در مقایسه با اینتل، بهترین پردازنده‌ی گرافیکی مجتمع، اینتل آیریس پرو است که کمی ضعیف‌تر از A10-7850K که فعلاً پرچم‌دار کاوری‌هاست، ظاهر می‌شود. بنابراین ای‌ام‌دی در این بخش عملکرد خوبی داشته است.

    [​IMG]

    در بخش پردازنده‌ی اصلی، معماری نسل سوم هسته‌های بولدوزر که استیم‌رولر نام دارند، چندان متفاوت با دو نسل قبلی خود نیست. بنابراین نتیجه در مقایسه با پردازنده‌های خوب اینتل، جالب توجه نبوده است.

    در مجموع فعلاً ای‌ام‌دی در مقایسه با محصولات خوب اینتل، مدل‌های ارزان‌تری ارایه کرده تا شاید بخشی از بازار را از آن خود کند؛ البته با توجه به تصویر زیر هنوز هم انتخاب تراشه‌های ای‌ام‌دی به جای رقبای اینتلی، مشکل است:

    [​IMG]

    ولیکن آنچه در مورد کاوری‌ها مهم است، قابلیت‌هایی مثل سه تکنولوژی بهینه‌سازی پردازش ترکیبی با استفاده از پردازنده‌ی اصلی و گرافیکی، یعنی HSA، hUMA و hQ است که در کنار سخت‌افزار پردازش صوتی TruAudio قرار می‌گیرد و در نهایت لایه‌ی نرم‌افزاری Mantle که قرار است به زودی دنیای پردازش را دگرگون کند.

    به عنوان مثال در نرم‌افزار آفیس LibreOffice برای محاسبه و آپدیت نمودارها اگر از HSA به جای OpenCL و محاسبه‌ی ساده‌ی نرم‌افزاری استفاده شود، نتیجه‌ی باورنکردنی زیر حاصل می‌شود:

    [​IMG]

    یا در دیکد کردن عکس‌هایی با فرمت JPG:

    [​IMG]

    گرچه همیشه هم اوضاع به برتری مطلق ای‌ام‌دی منتهی نمی‌شود، مثلاً در نرم‌افزار ویرایش عکس Corel که همچنان اینتل بهتر است:

    [​IMG]

    به هر حال فعلاً اثر تکنولوژی‌ها و واسط نرم‌افزارنویسی منتل، در آزمون‌ها قابل مشاهده نیست؛ ولیکن بنابر ادعای ای‌ام‌دی، منتل در بازی بتل‌فیلد 4، سرعت اجرا را تا 45 درصد افزایش داده که رقمی فوق‌العاده است و آینده‌ی HSA را امیدوارکننده نشان می‌دهد.

    بنابراین باید منتظر رونمایی از بازی‌ها و نرم‌افزارهایی باشیم که از HSA استفاده می‌کنند و قدرت واقعی کاوری را نشان می‌دهند.

    نظر شما در مورد HSA و تکنولوژی‌هایی که ای‌ام‌دی اخیراً معرفی کرده چیست؟ آیا ممکن است ای‌ام‌دی با کنار هم قراردادن لایه‌های مختلف نرم‌افزاری و سخت‌افزاری خود، گوی سبقت را از اینتل و انویدیا برباید؟