日韩视频在线精品视频免费观看-日韩视频在线观看中字-日韩视频在线观看一区-日韩视频在线观看免费-日韩视频在线观看-日韩视频在线播放

產(chǎn)品分類

當(dāng)前位置: 首頁(yè) > 儀表工具產(chǎn)品 > 專用工具 > 長(zhǎng)度測(cè)量工具 > 直尺

類型分類:
科普知識(shí)
數(shù)據(jù)分類:
直尺

Xilinx 全可編程器件 :出色的計(jì)算密集型系統(tǒng)開發(fā)平臺(tái)

發(fā)布日期:2022-07-14 點(diǎn)擊率:35

  賽靈思 All Programmable FPGA 和 SoC 針對(duì)一系列計(jì)算密集型工作負(fù)載提供最高效、最具成本效益、時(shí)延最低、最具設(shè)計(jì)靈活性并且滿足未來(lái)需求的計(jì)算平臺(tái)。

  摘要

  為了滿足不斷攀升的數(shù)據(jù)處理需求,未來(lái)系統(tǒng)需要在計(jì)算能力上大幅改進(jìn)。傳統(tǒng)解決方案(例如 x86 處理器)再也無(wú)法以高效、低成本的方式提供所需的計(jì)算帶寬,系統(tǒng)設(shè)計(jì)人員必須尋找新的計(jì)算平臺(tái)。

  FPGA 和 GPU 越來(lái)越多地被系統(tǒng)設(shè)計(jì)人員看好,認(rèn)為它們能夠滿足未來(lái)需求的計(jì)算平臺(tái)。

  為新時(shí)代提供必要的計(jì)算效率和靈活性,本白皮書將對(duì) GPU 以及賽靈思 FPGA和 SoC 器件進(jìn)行分析。

  簡(jiǎn)介

  未來(lái)系統(tǒng)(例如云數(shù)據(jù)中心 [DC] 和自動(dòng)駕駛汽車)需要在計(jì)算能力上大幅改進(jìn),以支持不斷增多的工作負(fù)載以及不斷演進(jìn)的底層算法。例如,大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、視覺處理、基因組以及高級(jí)駕駛員輔助系統(tǒng) (ADAS) 傳感器融合工作負(fù)載都在促使計(jì)算性能能以低成本、高效的方式實(shí)現(xiàn)提升,并且超出現(xiàn)有系統(tǒng)(例如 x86 系統(tǒng))的極限。

  系統(tǒng)架構(gòu)師正在尋找能滿足要求的新計(jì)算平臺(tái)。該平臺(tái)需要足夠靈活,以便集成到現(xiàn)有的架構(gòu)中 , 并支持各種工作負(fù)載及其不斷演進(jìn)的算法。此外,這些系統(tǒng)很多還必須提供確定性的低時(shí)延性能,以支持實(shí)時(shí)系統(tǒng)(例如自動(dòng)駕駛汽車)所需的快速響應(yīng)時(shí)間。

  圖形處理單元 (GPU) 廠商非常積極地將 GPU 定位成新時(shí)代計(jì)算平臺(tái)的最佳之選,主要依據(jù)其在機(jī)器學(xué)習(xí)訓(xùn)練的高性能計(jì)算 (HPC) 領(lǐng)域取得的成功。在此過程中, GPU 廠商針對(duì)機(jī)器學(xué)習(xí)推斷工作負(fù)載修改了他們的架構(gòu)。

  然而, GPU 廠商還是忽視了基本的 GPU 架構(gòu)的局限性。這些局限性會(huì)嚴(yán)重影響 GPU 以高效、低成本方提供必要的系統(tǒng)級(jí)計(jì)算性能的能力。例如,在云端 DC 系統(tǒng)中,對(duì)工作負(fù)載的需求在一天內(nèi)會(huì)發(fā)生很大變化。此外,這些工作負(fù)載的底層算法也會(huì)發(fā)生快節(jié)奏變化。 GPU 架構(gòu)的局限性會(huì)阻止很多今天的工作負(fù)載和明天形成的工作負(fù)載映射到 GPU,導(dǎo)致硬件閑置或低效。本白皮書的“ GPU 架構(gòu)的局限性”部分對(duì)這些局限性進(jìn)行了更詳細(xì)介紹。

  相反,賽靈思 FPGA 和 SoC 具有眾多關(guān)鍵屬性,使它們非常適合解決未來(lái)系統(tǒng)要求所提出的種種挑戰(zhàn)。這些獨(dú)特屬性包括 :

  ● 針對(duì)所有數(shù)據(jù)類型提供極高的計(jì)算能力和效率

  ● 具備極高靈活性,能夠針對(duì)多種工作負(fù)載將計(jì)算和效率優(yōu)勢(shì)最大化

  ● 具備 I/O 靈活性,能方便地集成到系統(tǒng)中并實(shí)現(xiàn)更高效率

  ● 具備大容量片上存儲(chǔ)器高速緩存,可提高效率并實(shí)現(xiàn)最低時(shí)延

  GPU 起源和目標(biāo)工作負(fù)載

  GPU 的起源要追溯到 PC 時(shí)代,英偉達(dá) (NVidia) 公司聲稱在 1999 年推出世界首款 GPU,但有很多其他顯卡要先于該公司的出品。 GPU 是一款全新設(shè)計(jì)的產(chǎn)品,用來(lái)分擔(dān) / 加速圖形處理任務(wù),例如替 CPU 進(jìn)行像素陣列的陰影和轉(zhuǎn)換處理,其架構(gòu)非常適合高并行吞吐量處理。本質(zhì)上, GPU 的主要作用是為視覺顯示器 (VDU) 渲染高質(zhì)量圖像。

  多年來(lái),少量非圖形的大規(guī)模并行和存儲(chǔ)器相關(guān)工作負(fù)載是在 GPU(而非 CPU)上實(shí)現(xiàn)并且受益良多,例如需要大規(guī)模矩陣計(jì)算的醫(yī)療成像應(yīng)用。 GPU 廠商意識(shí)到他們可以將 GPU 的市場(chǎng)延伸到非圖形應(yīng)用領(lǐng)域,并導(dǎo)致 GPU 的非圖形編程語(yǔ)言(諸如 OpenCL)應(yīng)運(yùn)而生。這些編程語(yǔ)言實(shí)際上是將 GPU 轉(zhuǎn)化成了通用 GPU (GPGPU)。

  機(jī)器學(xué)習(xí)

  最近,能夠良好映射到 GPU 實(shí)現(xiàn)方案的工作負(fù)載之一就是機(jī)器學(xué)習(xí)訓(xùn)練。通過充分運(yùn)用 GPU,顯著縮短了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間。GPU 廠商試圖利用機(jī)器學(xué)習(xí)訓(xùn)練方面的成功來(lái)助推其在機(jī)器學(xué)習(xí)推斷上的發(fā)展(部署經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò))。隨著機(jī)器學(xué)習(xí)算法和所需數(shù)據(jù)精度的發(fā)展演進(jìn), GPU 廠商一直在調(diào)整他們的架構(gòu)以保持自身地位優(yōu)勢(shì)。例如,英偉達(dá)在他們的 Tesla P4 產(chǎn)品中提供 INT8 支持。然而,即使是更低的精度,例如二進(jìn)制和三進(jìn)制,今天也正在被很多用戶探索。要利用機(jī)器學(xué)習(xí)及其它領(lǐng)域的進(jìn)步, GPU 用戶必須等待新硬件推出之后購(gòu)買新硬件。正如本白皮書后面所述,賽靈思 FPGA 和 SoC 的用戶則無(wú)需等待或購(gòu)買新硬件,因?yàn)檫@類產(chǎn)品本身就具有高度的靈活性。

  GPU 廠商想使自身成為這個(gè)新計(jì)算時(shí)代的首選計(jì)算平臺(tái),機(jī)器學(xué)習(xí)是他們的基礎(chǔ)。但要弄清楚 GPU 是否適合未來(lái)系統(tǒng),還要做更全面的系統(tǒng)級(jí)分析,需要考慮 GPU 架構(gòu)的很多局限性以及系統(tǒng)要求如何隨時(shí)間發(fā)展演進(jìn)。

  GPU 架構(gòu)的局限性

  本部分將深入研究典型的 GPU 架構(gòu),以揭示它的局限性以及如何將它們應(yīng)用于各種算法和工作負(fù)載。

  SIMT ALU 陣列

  圖 1 給出了典型的 GPU 方框圖。通用 GPU 計(jì)算功能的核心是大型的算數(shù)邏輯單元 (ALU) 或內(nèi)核陣列。

  這些 ALU 通常被認(rèn)為是單指令多線程 (SIMT),類似于單指令多數(shù)據(jù) (SIMD)。

圖 1 : GPU 方框圖

 

  基本原理是將工作負(fù)載分成數(shù)千個(gè)并行的線程。需要大量 GPU 線程來(lái)防止 ALU 閑置。然后,對(duì)這些線程進(jìn)行調(diào)度,以使 ALU 組并行執(zhí)行同一(單個(gè))指令。利用 SIMT, GPU 廠商能實(shí)現(xiàn)相對(duì) CPU 占位面積更小和能效更高的方案,因?yàn)閮?nèi)核的很多資源都可與相同組中的其他內(nèi)核共享。

  然而,顯然只是特定的工作負(fù)載(或部分工作負(fù)載)能被高效映射到這種大規(guī)模并行架構(gòu)中。如果構(gòu)成工作負(fù)載的線程不具有足夠的共性或并行性(例如連續(xù)工作負(fù)載或適度并行工作負(fù)載),ALU 會(huì)閑置,導(dǎo)致計(jì)算效率降低。此外,構(gòu)成工作負(fù)載的線程預(yù)期要最大化 ALU 利用率,從而產(chǎn)生額外的時(shí)延。即使有英偉達(dá)的 Volta 架構(gòu)中的獨(dú)立線程調(diào)度這樣的功能,底層架構(gòu)也保持 SIMT,也需要大規(guī)模并行工作負(fù)載。

  對(duì)于連續(xù)、適度并行或稀疏工作負(fù)載, GPU 提供的計(jì)算功能和效率甚至低于 CPU 。例如用 GPU 實(shí)現(xiàn)稀疏矩陣計(jì)算 ;如果非零元素?cái)?shù)量較少,則從性能和效率角度看 GPU 低于或等同于 CPU。

  有趣的是,很多研究人員正在研究稀疏卷積神經(jīng)網(wǎng)絡(luò),以利用很多卷積神經(jīng)網(wǎng)絡(luò)中的大規(guī)模冗余。這種趨勢(shì)顯然在機(jī)器學(xué)習(xí)推斷領(lǐng)域向 GPU 提出了挑戰(zhàn)。

  稀疏矩陣計(jì)算也是大數(shù)據(jù)分析中的關(guān)鍵環(huán)節(jié)。

  包含大量并行計(jì)算任務(wù)的大多數(shù)工作負(fù)載也包含一些連續(xù)或適度并行元素,意味著需要 GPU-CPU 混合系統(tǒng)來(lái)滿足系統(tǒng)性能要求。顯然,高端 CPU 需求會(huì)影響平臺(tái)的效率和成本效益, CPU 與GPU 之間的通信也會(huì)給系統(tǒng)增加潛在瓶頸。SIMT/GPU 架構(gòu)的另一個(gè)局限性是 ALU 的功能取決于它的固定指令集和所支持的數(shù)據(jù)類型。

  離散數(shù)據(jù)類型精度支持

  系統(tǒng)設(shè)計(jì)人員正在探索簡(jiǎn)化數(shù)據(jù)類型精度,以此實(shí)現(xiàn)計(jì)算性能的跳躍式提升,而且不會(huì)使精度明顯降低。

  機(jī)器學(xué)習(xí)推斷在降低精度方面一馬當(dāng)先,首先是 FP16,然后是 INT16 和 INT8。研究人員正在探索進(jìn)一步降低精度,甚至降到二進(jìn)制。

  GPU ALU 通常原生支持單精度浮點(diǎn)類型 (FP32),有些情況支持雙精度浮點(diǎn) (FP64)。 FP32 是圖形工作負(fù)載的首選精度,而 FP64 經(jīng)常用于一些 HPC 用途。低于 FP32 的精度通常無(wú)法在 GPU 中得到有效支持。因此采用標(biāo)準(zhǔn) GPU 上的更低精度,除了能減少所需存儲(chǔ)器帶寬以外,作用甚微。

  GPU 通常提供一些二進(jìn)制運(yùn)算功能,但通常只能每 ALU 進(jìn)行 32 位寬運(yùn)算。 32 位二進(jìn)制運(yùn)算存在很大的復(fù)雜性和面積需求。在二值化神經(jīng)網(wǎng)絡(luò)中,算法需要 XNOR 運(yùn)算,緊接著進(jìn)行種群 (population) 計(jì)數(shù)。NVidia GPU 只能每四個(gè)周期進(jìn)行一次種群計(jì)數(shù)運(yùn)算,這會(huì)極大影響二進(jìn)制計(jì)算。

  如圖 2 所示,為了與機(jī)器學(xué)習(xí)推斷空間的發(fā)展保持同步, GPU 廠商一直進(jìn)行必要的芯片修改,以支持有限的幾種降精度數(shù)據(jù)類型,例如 FP16 和 INT8。例如, Tesla P4 和 P40 卡上的 NVidia GPU 支持 INT8,每 ALU/Cuda 內(nèi)核提供 4 個(gè) INT8 運(yùn)算。

圖 2 : 英偉達(dá)降精度支持

 

  然而,英偉達(dá)面向 Tesla P40 上的 GoogLeNet v1 Inference 發(fā)布的機(jī)器學(xué)習(xí)推斷基準(zhǔn)結(jié)果表明, INT8 方案與 FP32 方案相比效率只提升 3 倍,說(shuō)明要在 GPU 架構(gòu)中強(qiáng)行降低精度并取得高效結(jié)果存在較大難度。

  隨著機(jī)器學(xué)習(xí)和其他工作負(fù)載轉(zhuǎn)向更低精度和定制精度, GPU 廠商需要向市場(chǎng)推出更多新產(chǎn)品,他們的現(xiàn)有用戶也需要升級(jí)平臺(tái)才能受益于這種改進(jìn)。

  通過嚴(yán)格的存儲(chǔ)器層級(jí)實(shí)現(xiàn)軟件定義數(shù)據(jù)路徑

  與 CPU 類似, GPU 中的數(shù)據(jù)流也由軟件定義,并取決于 GPU 的嚴(yán)格而復(fù)雜的存儲(chǔ)器層級(jí)。典型的 GPU 存儲(chǔ)器層級(jí)如圖 3 所示。

  每個(gè)線程在寄存器文件中都有自己的存儲(chǔ)器空間,用以存儲(chǔ)線程的本地變量。少量線程(相同的存儲(chǔ)塊中)可通過共享存儲(chǔ)器通信 ;所有線程都能通過全局或片外存儲(chǔ)器通信。

  如圖 3 所示,與存儲(chǔ)器訪問有關(guān)的能耗和時(shí)延分別增加 100 倍和 80 倍以上,因?yàn)閿?shù)據(jù)需要遍歷存儲(chǔ)器層級(jí)——從寄存器文件到全局存儲(chǔ)器。此外,存儲(chǔ)器沖突不可避免,會(huì)增大時(shí)延,導(dǎo)致 ALU 閑置,致使計(jì)算能力和效率降低。

圖 3 : 典型的 GPU 存儲(chǔ)器層級(jí)

 

  因此,如果實(shí)現(xiàn) GPU 的計(jì)算和效率潛能,工作負(fù)載的數(shù)據(jù)流必須準(zhǔn)確映射到 GPU 存儲(chǔ)器層級(jí)。工作負(fù)載要具備足夠的數(shù)據(jù)局部性,才能高效地映射到 GPU,實(shí)際上這樣的工作負(fù)載很少。對(duì)大多數(shù)工作負(fù)載而言,當(dāng)在 GPU 上實(shí)現(xiàn)時(shí),實(shí)際的計(jì)算能力和效率會(huì)大打折扣,解決方案的時(shí)延也會(huì)增加。

  機(jī)器學(xué)習(xí)推斷作為量化實(shí)例,能清楚反應(yīng)出這種數(shù)據(jù)流局限性。 GPU 必須批處理,例如 128,以實(shí)現(xiàn)高效但時(shí)延更長(zhǎng)的解決方案。最終,批處理使機(jī)器學(xué)習(xí)處理局部化,但代價(jià)是時(shí)延增加。

  GoogLeNet v1 Inference 的 NVidia P40 基準(zhǔn)測(cè)試結(jié)果可清楚地反映出該效應(yīng)。對(duì)于 GoogLeNet v1,網(wǎng)絡(luò)因 P40 存儲(chǔ)器帶寬而受計(jì)算束縛,因此與批處理有關(guān)的存儲(chǔ)器帶寬削減不會(huì)產(chǎn)生很大幫助。然而, P40顯然需要 128 批處理以實(shí)現(xiàn) 50% 的 GPU 理論性能,會(huì)給系統(tǒng)帶來(lái)很大時(shí)延。有些情況下,可利用 CPU 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以便工作負(fù)載更好地映射到 GPU SIMT 架構(gòu)和存儲(chǔ)器層級(jí),但代價(jià)是產(chǎn)生更多 CPU 計(jì)算和功耗,抵消了 GPU 的優(yōu)勢(shì)。

    有限的 I/O 選項(xiàng)

  如“ GPU 起源和目標(biāo)工作負(fù)載”部分所述, GPU 的角色是作為協(xié)處理器。為了便于與主機(jī)通信, GPU以往只有一個(gè)硬 PCIe? 接口以及幾個(gè)片外 DRAM 接口(例如 GDDR5)。最近幾代產(chǎn)品中,有些 GPU 采用硬接口實(shí)現(xiàn) GPU 到 GPU 通信。仍然需要使用 CPU 來(lái)與網(wǎng)絡(luò)進(jìn)行連接以及向 GPU 分配任務(wù),這會(huì)增加系統(tǒng)功耗,同時(shí)會(huì)因 PCIe 的有限帶寬而帶來(lái)瓶頸問題。例如,英偉達(dá)的 Tesla P40 支持 PCIe 3.0 x16,只能實(shí)現(xiàn) 16GB/s 帶寬。

  GPU 廠商已經(jīng)開始構(gòu)建小型 SoC,例如 NVidia Tegra X1,能夠提供集成 GPU 計(jì)算、 ARM? 處理器以及一些通用汽車外設(shè)(如 HDMI、 MIPI、 SIP、 CAN 和基礎(chǔ)以太網(wǎng))。這些器件只具備少量計(jì)算能力,必須依靠額外的分立 GPU 實(shí)現(xiàn)必要的計(jì)算能力。然而,分立 GPU 的接口有很大局限性,例如 Tegra X1 僅支持 PCIe 2.0 x4,造成嚴(yán)重瓶頸。額外的 SoC 的功耗會(huì)進(jìn)一步降低平臺(tái)的效率。

  片上存儲(chǔ)器資源

  除了時(shí)延、效率和吞吐量方面的不利影響,片外存儲(chǔ)器的帶寬要顯著低于本地 / 片上存儲(chǔ)器。因此,如果工作負(fù)載需要依靠片外存儲(chǔ)器,不僅片外存儲(chǔ)器的帶寬會(huì)成為瓶頸,而且計(jì)算資源也會(huì)被閑置,從而降低 GPU 提供的計(jì)算功能和效率。

  因此,更有利的做法是采用大型低時(shí)遲、高帶寬片上存儲(chǔ)器。再次以機(jī)器學(xué)習(xí)推斷為例, GoogLeNet 共需要  的存儲(chǔ)器,假設(shè) FP32 方案,這樣沒能提供 GPU,這意味著需要片外存儲(chǔ)器。

  很多情況下需采用高昂的高帶寬存儲(chǔ)器 (HBM) 和批處理,以防止內(nèi)核閑置。如果選擇具有更大型片上存儲(chǔ)器的器件,就能避免 HBM 成本以及額外的時(shí)延和功耗問題。

  功耗范圍

  GPU 廠商在設(shè)計(jì)板卡和 GPU 時(shí)通常要適應(yīng) 250W 功耗上限,并依靠有效熱管理來(lái)調(diào)節(jié)溫度。針對(duì)機(jī)器學(xué)習(xí)推斷市場(chǎng),英偉達(dá)開發(fā)了滿足 75W 功耗范圍的器件,例如 Tesla M4 和 P4。即使 75W 也遠(yuǎn)超出所允許的系統(tǒng)級(jí)功耗和熱范圍。 GPU 的絕對(duì)功耗依然是阻礙 GPU 廣泛使用的一大因素。

  功能安全性

  GPU 源自消費(fèi)圖形處理和高性能計(jì)算領(lǐng)域,不存在功能安全性要求。隨著 GPU 廠商瞄準(zhǔn) ADAS 市場(chǎng),功能安全性就變成了優(yōu)先考慮和要求。器件需要全新設(shè)計(jì),以確保實(shí)現(xiàn)所需的功能安全性認(rèn)證等級(jí),以便用在 ADAS 系統(tǒng)中。對(duì) GPU 廠商來(lái)說(shuō)這是一個(gè)長(zhǎng)期學(xué)習(xí)過程,涉及各個(gè)方面,需要新的工具和設(shè)備。

  賽靈思 FPGA 的起源

  1984 年,賽靈思發(fā)明了現(xiàn)場(chǎng)可編程門陣列 (FPGA),使用戶能夠在單個(gè)器件中編程(重編程)幾乎無(wú)限數(shù)量的功能。以前,系統(tǒng)設(shè)計(jì)人員使用很多通用的分立邏輯組件或通過構(gòu)建高成本的 ASIC 來(lái)實(shí)現(xiàn)這些功能。

  三十多年來(lái),靈活性和可編程性仍然是賽靈思 All Programmable FPGA 和 SoC 的支柱。賽靈思提供的可編程平臺(tái)能滿足有線與無(wú)線通信、云計(jì)算、醫(yī)療、汽車、工業(yè)以及航空航天與國(guó)防領(lǐng)域中多種終端應(yīng)用的核心需求。所有這些應(yīng)用都需要強(qiáng)大的計(jì)算能力,很多還有非常嚴(yán)格的實(shí)時(shí)要求,例如工業(yè)自動(dòng)化和 ADAS。

  通常, FPGA 在使用上的挑戰(zhàn)之一是需要利用硬件描述語(yǔ)言 (HDL)(例如 Verilog 或 VHDL)對(duì)其進(jìn)行編程。最近,賽靈思開發(fā)出了 SDSoC ? 和 SDAccel ? 工具,能夠?qū)⒖删幊唐骷闹T多優(yōu)勢(shì)提供給更廣泛的用戶(例如軟件開發(fā)人員和系統(tǒng)架構(gòu)師) ;并且構(gòu)建了更多加速堆棧,使系統(tǒng)設(shè)計(jì)人員能更快速地實(shí)現(xiàn)賽靈思器件的優(yōu)勢(shì)。

  賽靈思 FPGA 和 SoC 的獨(dú)特優(yōu)勢(shì)

  原始計(jì)算能力

  與 GPU 擁護(hù)者的說(shuō)法不同,單個(gè)賽靈思器件能提供強(qiáng)大的原始計(jì)算能力,例如 Virtex? UltraScale+ ?XCVU13P FPGA 的性能達(dá)到 38.3 INT8 TOP/s。最先進(jìn)的 NVidia Tesla P40 加速卡以基礎(chǔ)頻率運(yùn)行時(shí)提供相似的 40 INT8 TOP/s 原始計(jì)算能力,但功耗是賽靈思解決方案的 2 倍多。賽靈思器件的靈活性和片上存儲(chǔ)器能針對(duì)很多工作負(fù)載和應(yīng)用顯著提高計(jì)算能力(詳見 All Programmable 器件靈活性和片上存儲(chǔ)器資源)。

  此外,賽靈思器件的靈活性意味著能夠支持各種數(shù)據(jù)類型精度,例如 FP32、 INT8、二進(jìn)制和定制[ 參考資料 27]。例如,針對(duì)二值化神經(jīng)網(wǎng)絡(luò),賽靈思提供 500TOPs/s 的超高二進(jìn)制計(jì)算能力(假設(shè)  運(yùn)算),相當(dāng)于 GPU 典型性能的 25 倍。有些精度最適合使用 DSP 資源,有些最適合在可編程邏輯中實(shí)現(xiàn),還有些適合將二者結(jié)合起來(lái)使用。這種靈活性確保器件的計(jì)算和效率隨著精度降低而調(diào)整,一直到二進(jìn)制運(yùn)算。

  機(jī)器學(xué)習(xí)領(lǐng)域的大量研究都從計(jì)算、精度和效率角度來(lái)研究最佳精度。無(wú)論最佳點(diǎn)在哪,對(duì)于給定工作負(fù)載,賽靈思器件的計(jì)算能力和效率都能隨之調(diào)整,以實(shí)現(xiàn)降低精度后的所有優(yōu)勢(shì)。

  幾年來(lái),很多 FPGA 用戶實(shí)現(xiàn)了脈動(dòng)陣列處理設(shè)計(jì),以便針對(duì)多種工作負(fù)載實(shí)現(xiàn)最佳性能,包括機(jī)器學(xué)習(xí)推斷。為了確保賽靈思 FPGA 和 SoC 用戶能夠在現(xiàn)有的賽靈思器件上針對(duì)此類工作負(fù)載將可實(shí)現(xiàn)的計(jì)算能力和效率實(shí)現(xiàn)最大化,賽靈思為此提供多種資源。這些資源包括 INT8最優(yōu)化以及將 DSP 陣列映射到 block RAM 和 UltraRAM 的最高效存儲(chǔ)器層級(jí)。如需了解有關(guān)這些資源的更多信息,敬請(qǐng)聯(lián)系您所在地的賽靈思銷售代表。

  為了針對(duì)當(dāng)今的深度學(xué)習(xí)工作負(fù)載提高可用的計(jì)算能力和效率,英偉達(dá)在 Volta 架構(gòu)中以 Tensor Core 的形式硬化了類似功能。然而,深度學(xué)習(xí)工作負(fù)載會(huì)隨時(shí)間演進(jìn),因此 Tensor Core 架構(gòu)也可能需要改變,而且 GPU 用戶需要等待和購(gòu)買新的 GPU 硬件。

  效率和功耗

  從系統(tǒng)級(jí)角度看,計(jì)算平臺(tái)必須在給定的功率和熱范圍之內(nèi)提供最大計(jì)算能力。為滿足這一需求,計(jì)算平臺(tái)需要 :

  ● 處于允許的功率范圍內(nèi)

  ● 能夠在功率預(yù)算內(nèi)將計(jì)算能力最大化

  賽靈思提供豐富的 All Programmable 器件,這使用戶能選擇與功率和熱范圍最匹配的器件。此外,賽靈思的 UltraScale+ 器件具有低壓模式 (VLOW),能將功耗降低 30%,效率提升 20%。

  如表 1 所示,賽靈思器件針對(duì)固定精度數(shù)據(jù)類型提供從原始計(jì)算角度看最高效的通用計(jì)算平臺(tái)。這主要是因?yàn)橘愳`思 FPGA 架構(gòu)中的處理開銷更低。例如, GPU 需要圍繞計(jì)算資源實(shí)現(xiàn)更多復(fù)雜性,以便實(shí)現(xiàn)軟件可編程功能。對(duì)于當(dāng)今的深度學(xué)習(xí)工作負(fù)載的張量運(yùn)算,英偉達(dá)的 Tesla V100 憑借硬化的 TensorCore 能實(shí)現(xiàn)與賽靈思 FPGA 和 SoC 差不多的效率。然而,深度學(xué)習(xí)工作負(fù)載也在快節(jié)奏演進(jìn),因此無(wú)法確定英偉達(dá)的 Tensor Core 能夠針對(duì)深度學(xué)習(xí)工作負(fù)載保持多久的高效性。顯然對(duì)于其他通用工作負(fù)載,NVidia V100 也存在效率方面的挑戰(zhàn)。

表 1 : 器件效率假設(shè) 90% 器件利用率和 80% 有效時(shí)鐘周期 (1)

 

  鑒于本白皮書之前介紹的局限性,對(duì)于真實(shí)的工作負(fù)載與系統(tǒng), GPU 很難接近表 1 中所給出的數(shù)字。

  賽靈思器件的靈活性及其他優(yōu)勢(shì),加之賽靈思最新軟件開發(fā)堆棧,能確保基于賽靈思的解決方案為大量最終應(yīng)用和工作負(fù)載實(shí)現(xiàn)顯著提高的效率。

  賽靈思器件的附加優(yōu)勢(shì)——例如靈活性和片上存儲(chǔ)器——能確保賽靈思器件的效率被大量最終應(yīng)用和工作負(fù)載所實(shí)現(xiàn)。

  All Programmable 器件的靈活性

  賽靈思器件經(jīng)過精心設(shè)計(jì),能滿足多種高性能終端系統(tǒng)的計(jì)算、效率、成本和靈活性需求。賽靈思將硬件可編程資源(例如邏輯、走線和 I/O)與靈活、獨(dú)立的集成內(nèi)核模塊(例如 DSP Slice 和 UltraRAM)組合在一起,全部構(gòu)建在領(lǐng)先的工藝技術(shù)上,例如臺(tái)積電 (TSMC) 的 16nm FinFET 工藝技術(shù),從而達(dá)到這種平衡。

  賽靈思器件具備硬件可編程性和靈活性,意味著底層硬件通過配置可滿足給定工作負(fù)載的需求。隨后,甚至在運(yùn)行時(shí)也可通過部分重配置功能方便地重新配置數(shù)據(jù)路徑。 圖 4 試圖捕捉賽靈思 All Programmable 器件提供的部分靈活性,但是賽靈思器件的真正靈活性無(wú)法通過單張圖片來(lái)體現(xiàn)。內(nèi)核(或用戶設(shè)計(jì)元素)可以直接連接可編程 I/O、任意其它內(nèi)核、 LUTRAM、 block RAM 和UltraRAM、外部存儲(chǔ)器等。

圖 4 : All Programmable 數(shù)據(jù)路徑和任意到任意 I/O

 

  賽靈思器件具有獨(dú)特的硬件可編程性,意味著它們不存在特定局限性,例如 SIMT 或固定數(shù)據(jù)路徑。無(wú)論是大規(guī)模并行、適度并行、流水線連續(xù)或者混合形式,都能獲得賽靈思器件的計(jì)算能力和效率。此外,如果底層算法改變(例如機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展),則平臺(tái)也能相應(yīng)調(diào)整。

  很多系統(tǒng)和工作負(fù)載中都能看到賽靈思器件發(fā)揮靈活性優(yōu)勢(shì)。其中一種工作負(fù)載就是機(jī)器學(xué)習(xí)推斷。機(jī)器學(xué)習(xí)推斷的趨勢(shì)之一是向稀疏網(wǎng)絡(luò)過渡。賽靈思器件的用戶已經(jīng)在利用這種趨勢(shì)。英偉達(dá)公司本身就是這些用戶中的一個(gè)。在最近與英偉達(dá)聯(lián)合編寫的關(guān)于語(yǔ)音辨識(shí)的一篇文章中,通過使用賽靈思FPGA,相對(duì) CPU 實(shí)現(xiàn)了 43 倍速度提升和 40 倍效率提升,相對(duì) NVidia GPU 實(shí)現(xiàn)了 3 倍速度提升和11.5 倍效率提升。可編程數(shù)據(jù)路徑還減少了賽靈思 FPGA 批處理需求。批處理是系統(tǒng)的時(shí)延 vs 實(shí)時(shí)性能的重要決定因素。

  從大數(shù)據(jù)角度看,賽靈思器件的靈活性也展現(xiàn)出明顯優(yōu)勢(shì)。賽靈思 FPGA 在處理 SQL 工作負(fù)載時(shí)非常高效和快速,包括具有復(fù)雜數(shù)據(jù)(例如可變長(zhǎng)度字符串)的情況。百度利用基于賽靈思 Kintex? UltraScale ? KU115 器件的加速卡實(shí)現(xiàn)了 25 倍以上的提速。該加速卡的功耗僅 50W。百度該解決方案的效率比 GPU 方案快 4 倍 。對(duì)于文本和圖案匹配工作負(fù)載,研究表明基于賽靈思的RegEx 方案比 CPU 方案快 14.5–18 倍,比 GPU 方案快了將近 3 倍。

  基因組分析是另一個(gè)切實(shí)的實(shí)例。有人已經(jīng)利用 GPU 來(lái)加速基因組分析,可相較于 Intel Xeon CPU 方案提速 6–10 倍。不過,賽靈思 FPGA 的提速效果要高得多,相較于同等 CPU 可提速 80倍]。

  賽靈思器件的靈活性還使其成為云服務(wù)提供商的理想選擇,可作為計(jì)算平臺(tái)即服務(wù)的一部分。多種類型的軟件即服務(wù)都可以利用賽靈思器件的優(yōu)勢(shì)。

  最后,對(duì)于正在努力研發(fā)自動(dòng)駕駛功能的汽車系統(tǒng)設(shè)計(jì)人員來(lái)說(shuō),賽靈思器件的靈活性能夠?yàn)樗麄兲峁┛蓴U(kuò)展的平臺(tái),用以滿足完全自動(dòng)駕駛道路上的各種美國(guó)汽車工程師學(xué)會(huì) (SAE) 標(biāo)準(zhǔn)。如需了解關(guān)于SAE 標(biāo)準(zhǔn)的更多信息 , 敬請(qǐng)?jiān)L問 SAE 網(wǎng)站。賽靈思器件可以高效處理來(lái)自各種源頭的傳感器數(shù)據(jù),例如雷達(dá)、照相機(jī)和超聲波,同時(shí)保持系統(tǒng)的實(shí)時(shí) / 時(shí)延目標(biāo)。

  任意到任意 I/O 靈活性

  除了器件計(jì)算資源的靈活性,賽靈思的任意到任意 I/O 靈活性能夠確保器件可無(wú)縫集成到現(xiàn)有的基礎(chǔ)架構(gòu),例如直接連接到網(wǎng)絡(luò)或存儲(chǔ)設(shè)備,無(wú)需使用主機(jī) CPU 。 I/O 靈活性還允許平臺(tái)針對(duì)基礎(chǔ)架構(gòu)的變化或更新進(jìn)行調(diào)整。

  如需了解關(guān)于賽靈思 UltraScale 架構(gòu)器件的更多詳情,請(qǐng)參閱不斷擴(kuò)大的賽靈思大型白皮書庫(kù)。

  片上存儲(chǔ)器

  如表 2 所示,賽靈思器件提供業(yè)界領(lǐng)先的靈活、高帶寬、低時(shí)延的 500Mb 片上存儲(chǔ)器。如此大的片上存儲(chǔ)器緩存意味著工作負(fù)載的很大一部分存儲(chǔ)器要求都能通過片上存儲(chǔ)器來(lái)滿足,從而減小外部存儲(chǔ)器訪問帶來(lái)的存儲(chǔ)器瓶頸問題,以及高存儲(chǔ)器帶寬解決方案(例如 HBM2)的功耗和成本問題。例如,針對(duì)大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)技術(shù)(例如 GoogLeNet)的系數(shù) / 特性圖都可存在片上存儲(chǔ)器中,以提高計(jì)算效率和降低成本。

表 2 : 器件片上存儲(chǔ)器大小

 

  片上存儲(chǔ)能消除片外存儲(chǔ)器訪問引起的巨大時(shí)延問題,將系統(tǒng)的實(shí)時(shí)性能最大化。

  封裝內(nèi)的 HBM

  針對(duì)需要高帶寬存儲(chǔ)器的情況,賽靈思在部分 Virtex UltraScale+ 器件中提供 HBM。除了封裝內(nèi) HBM堆棧的 460GB/s 存儲(chǔ)器帶寬,賽靈思 HBM 存儲(chǔ)器控制器還增加更大的靈活性,以便將工作負(fù)載高效映射到器件和可用存儲(chǔ)器帶寬,將效率和計(jì)算效率最大化。

  功能安全性

  賽靈思長(zhǎng)期以來(lái)能夠滿足各種功能安全性,包括工業(yè)自動(dòng)化以及最近的 ADAS。賽靈思工具和器件經(jīng)過重新設(shè)計(jì),以便支持功能安全性應(yīng)用,并達(dá)到相應(yīng)認(rèn)證等級(jí)。

  因此,多家汽車制造商在安全關(guān)鍵型 ADAS 應(yīng)用中采用 Zynq?-7000 All Programmable SoC 量產(chǎn)器件。Zynq UltraScale+ MPSoC 還進(jìn)一步擴(kuò)大對(duì)功能安全應(yīng)用的支持。

  結(jié)論

  系統(tǒng)設(shè)計(jì)人員在這個(gè)新的計(jì)算時(shí)代面對(duì)不同選擇。賽靈思 FPGA 和 SoC 為系統(tǒng)設(shè)計(jì)人員提供最低風(fēng)險(xiǎn),幫助其滿足未來(lái)系統(tǒng)的核心要求與挑戰(zhàn),同時(shí)提供足夠的靈活性以確保平臺(tái)在未來(lái)不會(huì)落伍。

  在深度學(xué)習(xí)領(lǐng)域, UltraScale 架構(gòu)中的 DSP 架構(gòu)內(nèi)在的并行性能夠針對(duì)具有可伸縮 INT8 向量點(diǎn)積性能的神經(jīng)網(wǎng)絡(luò)加強(qiáng)卷積和矩陣乘法計(jì)算量。這能為深度學(xué)習(xí)推斷實(shí)現(xiàn)更低時(shí)延。快速 DSP 陣列、最高效的block RAM 存儲(chǔ)器層級(jí)以及 UltraRAM 存儲(chǔ)器陣列可實(shí)現(xiàn)最佳功率效率。

  現(xiàn)在,利用鏈接  中的開發(fā)套件,以及多種設(shè)計(jì)輸入工具,例如 HLS、 SDSoC 和 SDAccel 工具,用戶可發(fā)揮賽靈思器件的諸多優(yōu)勢(shì)。

  


下一篇: PLC、DCS、FCS三大控

上一篇: 安森美半導(dǎo)體提供全面

推薦產(chǎn)品

更多
主站蜘蛛池模板: 九九热国产视频 | 国产在线精品二区 | 女人被狂躁c到高潮视频 | 国产深夜男女无套内射 | 国产亚洲综合av | 日本爽快片100色毛片 | 蜜桃精品在线观看 | 可以免费在线观看的av | 免费黄网站在线观看 | 91天堂视频 | 一区二区三区四区国产 | 亚洲国产成人一区二区三区 | 狠狠色狠狠色综合久久一 | 中文字幕第68页 | 久久婷婷伊人 | www色欧美| 免费一级做a爰片久久毛片 免费一区 | 性啪啪chinese东北女人 | 亚洲一区和二区 | 大尺度激情吻胸视频 | 夜夜躁狠狠躁日日躁2020 | 日本a级片在线播放 | 亚洲欧洲av综合色无码 | 免费观看污 | 苍井空一区二区波多野结衣av | 中文字幕在线免费看 | 人妻中文字幕在线网站 | 国产黄色一级录像 | 人妻精油按摩bd高清中文字幕 | 日韩一欧美内射在线观看 | 污动漫网站 | 中文字幕一级片 | 在线天堂新版最新版在线8 麻豆成人精品国产免费 | av首页在线观看 | 久久天天躁狠狠躁夜夜网站 | 国产一级特黄,真人毛片 | 37p粉嫩大胆色噜噜噜 | 91国内在线视频 | 国语对白精品 | 老牛嫩草二区三区观影体验 | av射进来| 少妇吹潮 | 精品久久久久久久久久久久久久久久 | 蜜桃91丨九色丨蝌蚪91桃色 | 亚洲婷婷在线 | 爱情岛论坛永久亚洲品质 | 国产成人无码一区二区在线观看 | 四虎永久在线精品免费网站 | wwww.8888久久爱站网 | 亚洲成av人综合在线观看 | 美女少妇av | 影虎的最新视频 | 美女mm131爽爽爽免费动视频 | 国产午夜大片 | 久草操 | 欧美 偷窥 清纯 综合图区 | 欧美在线免费看 | 人人澡澡人人 | 欧美另类videossexo高潮 | 无码专区无码专区视频网址 | 成人精品一区二区三区电影 | 久久精品色| 天天狠天天插天天透 | mm131国产精品 | 中国少妇内射xxxx狠干 | 久久久xxx | 久久在线免费观看 | 三级毛片视频 | 久久综合给合久久狠狠狠97色69 | 精品国产鲁一鲁一区二区张丽 | 秋霞欧洲| 午夜免费视频 | 日韩在线二区 | 国产精品专区在线观看 | 少妇又紧又色又爽又刺激的视频 | 欧美精品乱码99久久蜜桃 | 亚洲天天 | 国产精品高清网站 | 91免费视频入口 | 日本人妻丰满熟妇久久久久久 | 国产热视频 | 国产色频| 久久综合给合综合久久 | 成人看片17c.com | 成人午夜免费视频 | 国内av片 | 色淫av蜜桃臀少妇 | 日韩免费一二三区 | 日韩黄色免费网站 | 日韩性av| 国产日韩欧美不卡在线二区 | 免费asmr色诱娇喘呻吟欧美 | 中文字幕人妻熟女人妻洋洋 | 国产精品区一区二区三在线播放 | 欧美国产一区二区三区 | 男人边吃奶边揉好爽免费视频 | 国产成年妇视频 | 久久国产36精品色熟妇 | 久久最新网址 | 日产精品高潮呻吟av久久 | 日韩国产欧美精品 | 日本免费一区二区三区视频 | 国产一区91 | 中字幕一区二区三区乱码 | 国产麻豆一级片 | 性征服新婚少妇69xx | 国产成人毛毛毛片 | 国产成人精品日本亚洲专区 | 精品国产一 | 中文字幕乱码一区二区三区四区 | 欧美成人高清在线播放 | 亚洲日韩精品无码专区加勒比 | 亚洲精品成人无码中文毛片不卡 | 最近的中文字幕在线看视频 | 中国东北少妇bbb真爽 | 污污视频在线观看网站 | 人妻少妇偷人精品无码 | 成人亚洲网 | 天天综合天天添夜夜添狠狠添 | 欧美性折磨bdsm激情另类视频 | 成 人 黄 色 片 在线播放 | 国产在线观看黄 | 国产农村妇女精品久久 | 国产免费又黄又爽又色毛 | 国产人妻精品一区二区三区不卡 | 亚洲精品乱码久久久久久中文字幕 | 把腿张开老子臊烂你多p视频 | 久久久无码精品一区二区三区蜜桃 | 91综合在线 | 另类二区 | 黄色片高清 | 中文字幕天堂 | 亚洲人成图片小说网站 | 在线免费观看麻豆 | 伊人国产在线 | 已婚少妇露脸日出白浆 | 久久97精品国产96久久小草 | 黄色91视频| 中文字幕最新 | 精品人妻无码一区二区三区抖音 | 午夜av激情 | 久久九九爱| 欧美日韩中文一区 | 中文字幕一区二区三区四区五区 | 欧美精品18videosex性欧美 | 欧美日本一区二区 | 欧美激情一二三 | 征服少妇柔佳系列 | 国内精品卡一卡二卡三 | 国产精品一区二区在线免费观看 | 久草中文在线视频 | 亚洲3p激情在线观看 | 无码人妻av一区二区三区波多野 | 国产在视频线在精品视频55 | 97久久偷偷做嫩草影院免费看 | 色欲麻豆国产福利精品 | 日本亲子乱子伦xxxx | 公车乳尖揉捏酥软呻吟 | 日本少妇xx | 久久55 | 少妇高潮av | 一本免费视频 | 日韩不卡在线视频 | 日本大乳高潮视频在线观看 | 亚洲丁香五月激情综合 | 亚洲精品自产拍在线观看亚瑟 | av影院在线观看 | 久久久情 | 992tv成人国产福利在线观看 | 婷婷成人丁香五月综合激情 | k8经典少妇在线观看 | 少妇性bbb搡bbb爽爽爽欧美 | 少妇熟女高潮流白浆 | 强开小婷嫩苞又嫩又紧视频韩国 | 黄色资源在线观看 | 2020精品国产自在现线看 | 日本中文字幕精品 | 国产三区在线播放 | 五月激情啪啪 | 久热国产精品 | 精品亚洲国产成av人片传媒 | 一级黄色a级片 | 亚洲熟妇少妇任你躁在线观看无码 | 国产欧美一区二区精品久久 | 韩国三级hd中文字幕三义 | 日本在线免费播放 | 绯色av一区 | 欧美日韩国产一区 | 麻豆安全免费网址入口 | 色婷婷综合视频 | 久久男女视频 | 亚洲国产精品成人无久久精品 | 亚洲男人天堂网站 | 视频在线观看一区二区三区 | 99国产精品丝袜久久久久久 | 伊人久久青青 | 欧美一区二区三区爽爽爽 | 午夜一区二区国产好的精华液 | 色播视频在线观看 | 国产精品女同一区二区 | 欧美a v在线 | 亚洲免费精品 | 日韩福利视频导航 | 国产成人精品日本亚洲999 | 我要看一级黄色毛片 | 日本不卡视频在线 | 国产情侣激情在线对白 | 日韩av片免费观看 | 99精品一级欧美片免费播放 | 日韩人妻无码一区二区三区久久 | 亚洲区视频 | 天天爽夜夜爽夜夜爽 | 免费的黄网站在线观看 | а中文在线天堂 | 亚洲熟妇久久国产精品 | re久久| 国产综合在线观看 | 内射人妻少妇无码一本一道 | 亚洲欧美精品在线观看 | 91av视频在线播放 | 日韩熟女精品一区二区三区 | 在线观看国产精品视频 | 又色又爽又大免费区欧美 | 亚洲狼人综合 | 成年人性视频 | 未满十八18禁止午夜免费网站 | 久久久久久久久久久免费精品 | 国产麻豆一精品一av一免费 | 亚洲第一福利网站 | 国产在线观看a | 色一情一乱一伦一视频免费看 | 欧美一区二区三区免费在线观看 | 午夜理论片yy6080私人影院 | 午夜影院黄色 | 一级全黄裸体免费观看视频 | 男女日批免费视频 | 又爽又黄又无遮挡的视频 | 视频一区二区在线播放 | 国产免费一级 | 中文字幕乱人伦高清视频 | 日本亚洲国产 | 精东粉嫩av免费一区二区三区 | 日本高清熟妇老熟妇 | 久久青草费线频观看 | 天天综合日韩 | 久久三区| 精品一区二区三区免费 | 国产精品正在播放 | 色综合久久88色综合天天提莫 | 欧美偷窥清纯综合图区 | 国产精品熟女高潮视频 | 国产特级毛片aaaaaa | 亚洲国产成人久久精品软件 | 天天av综合 | 欧美一区二区久久久 | 国产久一 | 国产成人精品亚洲一区 | 5151精品国产人成在线观看 | 乱人伦中文字幕 | 亚洲xx网站| 蜜桃色视频 | 激情久久一区二区三区 | 人人妻人人澡人人爽秒播 | 女人高潮潮呻吟喷水 | 亚洲天堂网在线观看 | 少妇性生活视频 | 成人免费版欧美州 | 依人成人综合网 | 玩弄放荡人妻一区二区三区 | 亚洲熟妇av一区二区三区宅男 | 欧美成人aaa | 亚洲欧洲在线视频 | 久久精品播放 | 欧美综合专区 | 黄色a级网站 | 中国一级特黄毛片 | www亚洲国产 | 久本草在线中文字幕亚洲 | 国产精选一区二区 | 亚洲精品乱码久久久久久国产主播 | 爱爱的免费视频 | 国产午夜精品av一区二区 | а天堂8中文最新版在线官网 | 午夜在线播放 | 少妇一级淫免费观看 | 精品日韩一区二区 | 久久国产小视频 | 久久爽久久爽久久av东京爽 | 少妇性生活视频 | 777亚洲熟妇自拍无码区 | 天堂网视频在线观看 | 波多野结衣一级 | 狠狠躁18三区二区一区传媒剧情 | 久久久国产精品消防器材 | 拔插拔插海外华人免费视频 | 青青青视频在线 | 国产精品久久久久久久久免费 | 首页 国产 欧美 日韩 丝袜 | 久久久久夜色精品国产老牛91 | 看全色黄大色大片60岁 | 欧美精品欧美极品欧美激情 | 久久国产免费观看 | 免费无遮挡在线观看视频网站 | 无码人妻av一区二区三区波多野 | 少妇被粗大猛进进出出 | 精品亚洲成a人在线观看 | 日韩中文一区二区三区 | 91涩漫直接入口 | 女女互揉吃奶揉到高潮视频 | 久久人人爽av亚洲精品天堂 | 亚洲成av | 香蕉视频入口 | 成人免费一区 | 国产农村老太xxxxhdxx | 国产美女精品一区二区三区 | 国产又黄又硬又粗 | 日韩欧美一区二区三区在线 | 三级三级三级三级 | 狠狠躁夜夜躁人人爽超碰97香蕉 | 日本黄色中文字幕 | 视频二区中文字幕 | 日本亚洲网站 | 国产又大又粗又猛又爽的视频 | 99爱精品 | 亚洲精品小视频 | 黄色成人av网站 | 亚洲人成网站色www 久久在线视频免费观看 | 果冻传媒mv免费播放在线观看 | 免费人成在线观看网站品爱网 | 伊人久久大香线焦av综合影院 | 免费在线看黄网站 | 国产www网站 | jizz在线观看视频 | 一本色道久久综合狠狠躁 | 成人性生交大片免费看 | 日本中文字幕视频在线 | 日本十大三级艳星 | 日本午夜理伦影片大全 | 久青草影院| 久久99精品久久久久久琪琪 | 狠狠干综合网 | 成人av网站免费 | 在线成人欧美 | 久久黄色网络 | 伊人情人综合网 | 在线涩涩 | 涩涩网站在线看 | 中文字幕有码av | 久久久久久久久免费视频 | 国产97色 | 亚洲一区久久 | 日韩欧美在线综合网 | 日韩欧美亚 | 久久久香蕉 | 中国少妇做爰全过程毛片 | 色嗨嗨av一区二区三区 | 涩涩视频免费看 | 久久久婷| 欧美 日韩 国产 在线观看 | 看片国产 | 永久视频在线 | 精品人妻中文字幕有码在线 | 亚洲精品国产精品99久久 | 少妇啪啪高潮肉谢 | 中文字幕在线亚洲精品 | 欧美一二三四成人免费视频 | wwwxxx日本免费 | 精品国产精品三级精品av网址 | 久久狠狠一本精品综合网 | 国产欧美日韩综合精品二区 | 日韩视频在线观看 | 日韩在线观看 | 无码福利日韩神码福利片 | 国产精品丝袜黑色高跟鞋v18 | 国产不卡一| 成人毛片18女人 | 亚洲成人综合视频 | aaa亚洲精品 | 福利一区三区 | 欧美精品久久久久久久久老牛影院 | 噜噜噜亚洲色成人网站 | 国产真实偷乱视频 | 潮喷失禁大喷水无码 | 国产超碰人人模人人爽人人喊 | 国产精品黄网站 | 国产精品99久久久久久夜夜嗨 | 日韩一级色片 | 精品黄网站 | 久9在线| 精品欧美一区免费观看α√ | 免费av日韩 | 欧美最猛性xxxxx免费 | 日日夜夜精品视频免费 | 色在线免费 | 亚洲精品第二页 | 人妻少妇精品中文字幕av | 五月天导航| 韩国精品在线 | 久久精品成人 | 男女爽爽无遮挡午夜视频 | 国产毛片不卡 | 激情啪啪网站 | 狠狠狠狠狠 | 亚洲精品v日韩精品 | 狠狠躁三区二区久久天天 | 美女初尝巨物嗷嗷叫自拍视频 | 久久久五月天 | 总受合集lunjian双性h | 国产新婚疯狂做爰视频 | 日韩精品一区二区在线观看 | 国产在线国偷精品免费看 | 久久久久免费看成人影片 | 国产福利片在线观看 | 日韩精品一区二区三区色欲av | 免费在线观看成年人视频 | 男女啪啪做爰高潮免费网站 | 成人一区二区毛片 | 波多野结衣视频网 | 成人欧美一区二区三区 | 男女无遮挡做爰猛烈黄文 | 黄色av网站在线看 | 99re国产精品视频 | 中文字幕视频免费观看 | 亚洲欧洲无码av不卡在线 | 四虎黄色网 | av噜噜在线 | 狠狠色噜噜狠狠狠狠色综合久 | 小视频在线看 | 在线视频一区二区三区 | 呦女精品 | 激情综合激情五月 | 久草福利 | 成人区人妻精品一区二区不卡网站 | 白嫩少妇各种bbwbbw | 久久综合九色欧美综合狠狠 | 亚洲精品久久久久久久不卡四虎 | 亚洲狠狠丁香综合一区 | 波多野结衣aⅴ在线 | 亚洲欧洲精品成人久久曰 | 少妇放荡的呻吟干柴烈火动漫 | 少妇愉情理伦片丰满丰满午夜 | 成人蜜桃视频 | 天天av天天干 | 精品无码人妻一区二区三区品 | 国产精品天干天干在线 | 国产农村老太xxxxhdxx | 日韩欧美亚洲一区二区 | 亚洲 欧美 日韩 在线 | 成人传媒 | 毛片视频在线免费观看 | 8×8x8×8人成免费视频 | 色综合91| 亚洲中文无码av在线 | 亚洲狠狠婷婷综合久久久久图片 | 久久久久亚洲国产av麻豆 | 免费黄色小说视频 | 国产精品久久久久久久久免费相片 | 欧美天天性影院 | 韩国日本三级在线观看 | 九色福利视频 | a毛看片免费观看视频 | 寂寞骚妇被后入式爆草抓爆 | 五月婷六月 | 日韩精品免费 | 国产一级免费大片 | 精品一区二区免费 | 国产精品久久婷婷六月丁香 | 久久久久成人精品 | videos性| 国产另类综合 | 免费观看一区二区 | 日本不卡一区二区三区 | 日本欧美色| 久久国产精品久久喷水 | 少妇久久久久久被弄到高潮 | 可以在线看的av | 国产第一草草影院 | 国产性猛交╳xxx乱大交 | 在线不卡免费av | 在线播放91| 国产成人无码区免费内射一片色欲 | 国产黄色片视频 | 欧美成人一级视频 | 国产青草视频在线观看 | 懂色av一区二区三区蜜臀 | 精品视频一区二区三区在线观看 | 一本色道久久综合精品竹菊 | 成人区人妻精品一区二区不卡网站 | 欧美黑人xxxⅹ高潮交 | 九九操| 国产成人欧美一区二区三区的 | 污网站免费观看 | 麻豆网站免费观看 | 亚洲 欧美 日韩 综合 国产aⅴ | 日日夜夜人人 | 亚洲精品国产免费 | 国产中文字幕免费 | 日本黄色生活片 | 国产精品36p| av网址免费观看 | 特级西西444ww大胆视频 | 日本大胆裸体做爰视频 | 99精产国品一二三产区网站 | 天天拍夜夜添久久精品大 | 东北少妇不戴套对白第一次 | 亚洲精品9999久久久久 | 国产乱码精品一区二区三区中文 | 久久在线免费视频 | 欧美国产高清 | 在线观看波多野结衣 | 久热在线视频 | 天天摸天天碰天天添 | xx中文字幕乱偷avxx | 在线国产中文字幕 | 亚洲欧美在线播放 | 国产剧情精彩演绎 | 国内精品久久久久久久 | xvideos成人免费中文版 | 男人天堂av在线播放 | 色综合久久中文娱乐网 | 国产一级片中文字幕 | 亚洲精品视频在线 | 国产成人精品2021 | 欧美成人看片黄a免费看 | 日韩在线观看视频一区二区 | 中文字幕丰满乱孑伦无码专区 | 秋霞午夜鲁丝一区二区老狼 | 131mm少妇做爰视频 | fc2成人免费人成在线观看播放 | 久久中文视频 | www.国产视频 | 欧美精品欧美精品系列 | 伊人www22综合色 | 96福利视频 | 国产第一福利 | 性欧美长视频免费观看不卡 | 人人妻人人澡人人爽超污 | 91免费福利 | 精品亚洲欧美无人区乱码 | 毛片久久久 | 国产欧美日韩视频 | 在线播放91灌醉迷j高跟美女 | 亚洲精一区 | 日韩一级免费毛片 | babes性欧美69 | 国产无遮挡裸体免费直播 | 白嫩嫩翘臀美女在线视频 | 天天摸天天草 | 极品少妇被猛得白浆直流草莓视频 | 少妇出轨精品中出一区二区 | 欧美三区四区 | 精品黄网站 | 人妻被按摩师玩弄到潮喷 | 亚洲精品理论电影在线观看 | 男女猛烈xx00免费视频试看 | av不卡免费观看 | 亚洲综合伊人 | 免费观看黄色一级片 | 成人亚洲| 国产乱色精品成人免费视频 | 青草av.久久免费一区 | 免费人成在线观看视频高潮 | 91精品在线播放 | 99麻豆久久久国产精品免费 | 午夜免费福利 | 成人丁香婷婷 | 性猛交富婆╳xxx乱大交视频 | 好吊妞这里都是精品 | 国产在线导航 | 久久亚洲国产成人精品性色 | 国产亚洲精品久久久久久牛牛 | 欧美视频中文在线看 | 真人毛片一24 | 人妻av中文系列 | 特级毛片爽www免费版 | 成人免费看片' | 欧美综合视频 | 久久一区二区三区视频 | 亚洲色图50p | a男人天堂| 91精品国产色综合久久不卡98口 | 精品久久久久国产免费第一页 | 玩弄放荡人妻一区二区三区 | 亚洲精品456 | 草草在线视频 | 白嫩少妇喷水正在播放 | 欧美日韩亚洲激情 | 亚洲精品中文字幕乱码无线 | 成人片在线看 | 精品对白一区国产伦 | 国产一二三区在线 | 女人裸体夜夜爽快 | 精品综合在线 | 亚洲 欧美日韩 综合 国产 | 人妻系列无码专区av在线 | 中文字幕精品三级久久久 | 久久依人| 日日干夜夜干 | 丝袜福利视频 | 精品国产品香蕉在线 | 精品人伦一区二区三区蜜桃视频 | 国产女人叫床高潮大片免费 | 欧美怡红院免费全部视频 | 午夜dj高清免费观看视频 | 中国一级毛片黄 | 国产成人无码午夜视频在线观看 | 国产午夜片无码区在线播放 | 久久综合久久美利坚合众国 | 精品久久久久久无码专区 | 欧美aa大片 | 五月婷婷六月婷婷 | 国产91在线高潮白浆在线观看 | 欧美一级免费大片 | 国产女主播自拍 | 天天综合日日夜夜 |