深度學習的三種硬件方案 ASICs、FPGAs 和 GPU，開發者需要知道什么？

本文作者：三川

2016-12-30 15:12

導語：深度學習的不同運算場景，分別適合何種硬件？

今年三月 AlphaGo 和李世石的“世紀之戰”炒紅了深度學習—— AlphaGo 采用了人工神經網絡技術，充分挖掘了深度學習的潛力。簡單來說，深度學習是一個包含了許多層級數據處理的神經網絡，以自動化方式組合起來解決問題。

人機大戰之前，相當多的人并不看好 AlphaGo，包括許多圍棋、AI 業內人士。但公眾并不清楚的是：當時谷歌手中握著一張王牌——AlphaGo 的計算設備搭載了特制硬件，一個被谷歌稱為“Tensor Processing Unit”（TPU）的計算卡。

深度學習的三種硬件方案 ASICs、FPGAs 和 GPU，開發者需要知道什么？

谷歌 TPU

深度學習的三種硬件方案：ASICs，FPGAs，GPU

人機大戰落幕后的兩個月，谷歌硬件工程師 Norm Jouppi 才公開了它的存在。在博客中，他解釋道，谷歌給數據中心裝備這些加速器卡已經有超過一年的時間。雖然谷歌對技術細節嚴格保密，但已透露它們專為谷歌開源項目 TensorFlow 而優化；并且，它采取了一個越來越流行的深度學習運算加速方式：ASICs。它全稱為應用型專用集成電路（application-specific integrated circuit）。

而微軟采用了另一種逐漸流行起來的方式：FPGAs（現場可編程門陣列，field-programmable gate arrays）。它的優勢是，如果計算機需要改變，它可以被重新裝配。但是，最通用、最主流的方案仍舊是使用 GPU，以并行處理大量數學運算。不出預料，GPU 方案的主要推動者是該市場的霸主英偉達。

深度學習的三種硬件方案 ASICs、FPGAs 和 GPU，開發者需要知道什么？

英偉達旗艦顯卡 Pascal Titan X

事實上， 2009 年之后人工神經網絡的復興與 GPU 有緊密聯系——那一年，幾名斯坦福的學者向世界展示，使用 GPU 可以在合理的時間內訓練深度神經網絡。這直接引發了 GPU 通用計算——GPGPU 的浪潮。

英偉達首席科學家、斯坦福并發 VLSI 架構小組的負責人 William J. Dally 表示：“行內每個人現在都在做深度學習，這方面，GPU 幾乎已經達到了最好。”

深度學習的三種硬件方案 ASICs、FPGAs 和 GPU，開發者需要知道什么？

William J. Dally (又名 Bill Dally)

深度學習的三種運算任務

William Dally 進一步解釋，深度學習硬件的選擇有三個不同領域要考慮。

1. “數據中心的訓練”

第一個被他稱之為“在數據中心訓練”。這里，他指的是任何深度學習系統需要做的第一步：調整神經元之間的數百萬連接，讓神經網絡來執行分配的任務。

對于這方面的硬件，行業領頭羊是一家最近被英特爾收購的公司 Nervana Systems。該公司的計算機學者 Scott Leishman 透露，他們開發出的 ASIC 深度學習加速器 Nervana Engine, 將于 2017 年中投產。他注意到，另外一項需要大量計算的任務——比特幣挖礦，正從一開始在 CPU 上運行，轉移到 GPU，再到 FPGAs，最終到 ASICs。這是由于提升的能耗效率。他說：“在深度學習領域我觀察到了同樣的趨勢”。

2. “數據中心的推理（inference）”

第二個深度學習硬件的任務是，“數據中心的推理（inference）”。推理在這里指代的是，基于云端、被訓練來處理特定任務的神經網絡的連續運行。每天，谷歌的神經網絡都要運行天文數字級別的推理計算，來進行圖片分類，語言翻譯，語音識別。雖然現在的信息不足以證實，但據雷鋒網所知，業內人士普遍推測谷歌的 TPU 是為這些任務而定制。

訓練和推理通常需要不同的技能組合。對訓練來說，計算機往往需要以較高的精確度運算，一般使用 32 位浮點運算。對于推理，精確度可以適當犧牲，換取更快的速度和更低的能耗。對此，Leishman 表示：“這是一個熱門研究領域，能耗到底可以降低到什么程度？”

William Dally 拒絕透露英偉達的深度學習產品計劃，而是強調如今做出的成績。他說，英偉達的 GPU 在不斷進化。上代 Mazwell 架構可以進行雙精度（64 位）或者單精度（32 位）運算，而這一代的帕斯卡（ Pascal ）架構能以單精度運算兩倍的吞吐量和效率進行 16 位運算。我們能想象，英偉達很可能最終會發布能進行 8 位運算的 GPU 。對于云端的推理計算來說，這十分理想，因為能耗對于降低成本十分關鍵。

3. “嵌入式設備的推理”

第三個深度學習運算需要考慮的是 “嵌入式設備的推理”，比如智能手機、攝像頭和平板電腦。這類應用的核心是低能耗的 ASICs。近年來，深度學習軟件越來越多地集成入手機應用。它已經被用來查殺惡意軟件和翻譯圖片中的文字。

雷鋒網消息，大疆已經在精靈 4 中應用了類似于深度學習 ASIC 的東西：使用加州公司 Movidius 的視覺處理芯片來識別障礙。順便說一句，Movidius 是最近另一家被英特爾收購的神經網絡公司。另外，高通也在旗艦芯片 820 中加入了優化深度學習計算的特殊電路。

深度學習的三種硬件方案 ASICs、FPGAs 和 GPU，開發者需要知道什么？

今天，各家公司有極強的商業動機，去開發能加速深度神經網絡的硬件。但這里有一個很大的風險：如果技術迭代太快，為昨天的神經網絡而設計的芯片，可能在最終生產、鋪貨時就已經過時了。對此，William Dally 說道：“算法正在飛速變化，所有開發這些硬件的人，都試圖讓產品方案覆蓋盡可能多的對未來的賭注。”

目前，基于 ASICs 和 FPGAs 產品大多應用在企業端，大多數個人開發者的的首選仍然是 GPU。至于在未來 GPU 的霸主地位是否會動搖，雷鋒網會繼續關注。

via ieee

【兼職召集令！】

如果你對未來充滿憧憬，喜歡探索改變世界的科技進展，look no further！

我們需要這樣的你：

精通英語，對技術與產品感興趣，關注人工智能學術動態的蘿莉&萌妹子&技術宅；

文字不求妙筆生花，但希望通俗易懂；

在這里，你會收獲：

一群來自天南地北、志同道合的小伙伴；

前沿學術科技動態，每天為自己充充電；

更高的生活品質，翻翻文章就能掙到零花錢；

有意向的小伙伴們把個人介紹/簡歷發至 guoyixin@leiphone.com，如有作品，歡迎一并附上。