欢迎光临
我们一直在努力

谷歌Pixel 3外形/配置曝光:18:9全面屏、前置雙攝

admin阅读(205)

日前,外媒表示,谷歌已經基本確定10月9日在紐約發佈新一代Pixel手機,其包含了Pixel 3和Pixel 3XL兩款手機。

谷歌Pixel 3XL已經被曝光的差不多了,已經沒有什麼秘密可言,因為外媒公佈過其開箱視頻、配置參數、相機對比等。而關於谷歌Pixel 3的消息曝光的卻不多。

8月31日消息,外媒Android Police報導了谷歌Pixel 3的外觀以及主要參數。

從圖中來看,谷歌Pixel 3正面非劉海屏設計,而是採用了18:9全面屏,額頭和下巴比較寬,背部與Pixel 3 XL設計相似,以及一顆單攝像頭。

需要注意的是,該機前置是雙攝像頭,均是800萬像素,而且採用了f/1.8光圈、f/1.8 和f/2.2光圈,這種參數與三星Galaxy S9+的可變光圈技術相似。

具體規格上,該機搭載高通驍龍845芯片,配別4GB RAM,運行Android 9 Pie,電池容量為2915mAh,至於ROM暫未顯示,不過應該提供64GB和128GB。

另外,雖然谷歌Pixel 3外觀和配置已經曝光的差不多,但該機前置鏡頭的雙光圈還是令人期待。

Office 365訂閱服務全新升級:取消安裝設備數限制

admin阅读(191)

8月31日消息,微軟宣佈對Office 365訂閱服務條款做出修改,競爭力大大增強。

具體來說包括——

一、取消家庭版和個人版的安裝設備限制

目前,Office 365家庭版/個人版不僅有用戶限制,還有設備限制。比如家庭版僅可在5台電腦/手機/平板上使用,個人版則是1台。微軟表示,從10月2日起取消設備安裝限制,用戶可以在不限量的設備上安裝Office套件,不過,單賬戶最多同時在線的數量為5台。

也許有人想借此鑽空子了,這就需要注意了,首先Office 365在離線狀態下功能受限,另外,若超過30天未登陸賬戶,會強制啟用只讀模式。

二、Office 365的用戶上限從5名提升到6名

也就是說,Office 365家庭版用戶在無需增加年費的情況下(99.99美元或498元),可以添加最多6個賬戶共享Office套件和1TB的OneDrive網絡存儲空間。

同時,家庭版訂閱也集成了微軟家庭服務,可直接在微軟家庭組中共享。

三、更簡捷的訂閱管理

用戶很快可以在Office.com/MyAccount中管理Office 365的訂閱,同時可在account.microsoft.com這個唯一渠道管理所有的微軟訂閱服務以及兌換折扣碼等。

iPhone XS首次曝光:蘋果啟用全新配色!

admin阅读(173)

從最新爆料的情況來看,新一代iPhone命名應該不會出現iPhone X Plus這樣的名稱了,而取而代之的是iPhone XS的稱號,這也很符合今年是iPhone“S”年的升級策略。

9to5Mac曝光新手錶定妝照的圖片時,還送出了新一代iPhone的圖片,其被冠以iPhone XS的稱號,對應的應該是6.5英吋屏幕的版本,同時還有全新的配色亮相。

從圖片上看,這個iPhone XS換上了全新的金色配色,同時匹配的是黑色面板,看上去應該是走的奢侈路線,畢竟據說今年新iPhone售價最貴的版本要突破萬元。

此外,從目前洩漏的圖片來看,新的iPhone在外形上跟去年的iPhone X並沒有什麼不同,這也是意料之中的事情,因為今年的三款新機外形都不會是蘋果主要發力點,都是劉海屏+人臉識別的設計。

大家期待新一代iPhone嗎?

黑莓KEY2 LE發佈:物理全鍵盤設計 售價399美元

admin阅读(194)

8月31日消息,TCL在柏林舉行的IFA展會上公佈了黑莓新機,就是傳聞已久的黑莓KEY2 LE。

該機可以說是黑莓KEY2的青春版,除了外觀以外,其它配置都略有縮水,新增石板灰、香檳金和原子紅三種配色,機身材質為塑料。

據悉,它搭載的是驍龍636處理器(黑莓KEY2搭載的是高通驍龍660),配備4GB內存(黑莓KEY2是6GB內存),電池容量為3000mAh(黑莓KEY2為3500mAh)。

外觀方面仍是黑莓經典的設計,採用4.5英吋顯示屏,屏幕縱橫比為3:2,正面配備物理全鍵盤設計,指紋識別為中間空格鍵。

另外,而且黑莓KEY2 LE的相機規格也有所降低,它配備的是1200萬+500萬雙攝,而黑莓KEY2配備的是雙1200萬像素。

至於價格方面,該機也要比黑莓KEY2便宜。據瞭解,黑莓KEY2 LE在美國的售價為399美元起(32GB ROM),64GB ROM則是449美元。

相比黑莓KEY2的首發價格,KEY2 LE要便宜200美元。對於喜歡全鍵盤的用戶來說,是個不錯的選擇。

諾基亞PureView回歸:“新”配方還能重新定義手機拍照嗎?

admin阅读(253)

擁有諾基亞手機和平板電腦品牌獨家授權的HMD Global公司,近兩年已經把Nokia品牌經營得很不錯,不說大紅大紫,至少復甦計畫一直在穩步進行當中。關鍵在於,HMD Global很善於利用Nokia品牌的影響力,也就是“情懷”。

最近,HMD Global再一次加大了對“情懷”的投入,重新拿回了諾基亞粉絲熟悉的PureView(純景)商標。

今年8月底,相繼有關注諾基亞和微軟情報的外媒放出消息稱,HMD Global已經從微軟手中收購了PureView商標,因為一份來自歐盟知識產權局(EUIPO)的文件顯示,HMD Global已經完全擁有PureView品牌商標。更具體來說,微軟自8月23日起將將PureView相機商標的所有權轉讓給了HMD Global。

PureView本身是諾基亞的嗎?

一定會有人問,為什麼之前HMD Global沒有PureView授權呢?Nokia這個牌子不是來自諾基亞本身嗎?

Nokia品牌和HMD Global公司都來自芬蘭諾基亞沒錯,但我們都知道,在2013年時諾基亞賣身給了微軟,而當初交易時諾基亞直接打包了整個輝煌無比的設備和服務(Nokia Devices and Services)部門,所有任何諾基亞手機的商標和技術都轉移到了微軟手上。

而HMD Global公司從諾基亞手中獲得的Nokia品牌授權,也只是花授權費通過諾基亞高科技(Nokia Technologies)部門拿到的純Nokia品牌而已。

因此,即便在微軟禁止諾基亞三年內推出手機的合同期限結束之後,HMD Global拿到的Nokia這個品牌授權也僅限於品牌本身,根本不可能做出原汁原味的諾基亞智能手機。

也就是說,無論HMD Global公司血統多純正,有多少位高管出身自原諾基亞,或者是參與研發、製造、銷售和售後的富士康,兩者都只能且必須做出脫胎換骨的徹底改變。

其實不只是PureView商標,當初HMD Global宣佈拿下Nokia品牌之後,基本上早期諾基亞手機那些鋪天蓋地宣傳深入人心的賣點功能,無一能出現在新Nokia手機上,包括悅幕Clear Black屏幕技術,以及諾基亞手機聞名於世的標誌性的卡爾蔡司(ZEISS)認證的鏡頭等等。

想必大家也看到了,Nokia品牌於2016年回歸,但直到2017年7月HMD Global才真正與蔡司宣佈簽署獨家合作協議,建立長期合作夥伴關係,從而才帶回了大家熟悉的“諾基亞+蔡司”組合。蔡司之所以與HMD Global進行合作,也是建立在蔡司和原諾基亞智能手機的悠長合作歷史與業內影響力上。

PureView對Nokia意義非凡

那麼,拿回了PureView商標將意味著什麼呢?這個商標對HMD Global來說非常重要嗎?

按照去年HMD Global與蔡司聯合簽署的獨家長期合作協議,雙方都希望能夠為諾基亞手機設立全新的成像標準,從軟件、服務到屏幕質量和光學設計,打造創新成像體驗,提升整體成像體驗與品質,並且橫跨整個生態系統,不斷為消費者帶來日趨完美的智能手機成像體驗。

HMD Global當時表示,未來諾基亞手機將“全方位成像體驗,不僅僅滿足於設立標準,還需要重新定義標準。”

簡單來說,隨著蔡司的回歸,HMD Global和蔡司的合作軟硬件都有可能合作,可能涉及到相機模組、鏡頭設計、成像調教和配套軟件上,畢竟無論像素多高,光學系統對圖像質量的影響開始變得不可估量。而在這其中,此前最令諾基亞驕傲的軟件技術莫過於PureView純景了。

考慮到在舊諾基亞時期,PureView技術是諾基亞與蔡司聯合耗費五年時間才共同研發出來的技術,所以,我們不妨將拿到手的PureView作為與蔡司簽訂合作之後的軟件方案補充,至少可以先做到原配方的“蔡司+純景”組合,而還能不能繼續樹立革命性的拍照體驗則是後話了。

回顧以往,PureView一直是諾基亞手機的最佳賣點,同時也是最受粉絲熱捧的拍照技術。該技術能夠在超高像素傳感器原始信息層面上,通過專門的處理芯片將超高的數千萬像素快速“濃縮”成僅千萬或百萬像素級的圖像。

如將4100萬採樣成800萬或500萬像素,從而形成圖像精度損失很少並且無比清晰的照片,也帶有“無損數碼變焦”的效果。

儘管過去五六年時間裡,智能手機的攝像頭配置不斷更新換代,照片成像質量也一直在不斷變化,攝像頭的超採樣技術如今同樣已經不新鮮,而且多倍無損變焦技術也更出色,但不可否認的是,PureView依然在手機行業對拍照的創新史上寫下了重重的一筆。

過去,PureView技術最典型的代表作是兩款諾基亞出品手機,也就是2012年運行Symbian系統4100萬像素手機Nokia 808 PureView,以及2013年後續採用 Windows Phone平台的Lumia 1020,即便巨大的“奧利奧”影響便攜性,不過這兩款產品依然被公認為拍照手機的革命之作,所提供的攝像頭配置最令人難以置信,堪稱當年同級最出色。

當然了,諾基亞一些常規的智能手機,以及被微軟收購之後的一些新Lumia手機,也用到了PureView品牌進行宣傳,例如2012年推出的Lumia 920,以及微軟標榜拍照最好的機皇Lumia 1520,還有微軟2015年最後的旗艦Lumia 950和Lumia 950 XL,官方稱這些機子在PureView加持下也擁有相當不錯的拍照效果,例如有光學防抖和超強夜景。

PureView能否讓Nokia手機再次起飛?

現在,大家可能更想知道的是,未來貼上Nokia品牌手機運用PureView技術之後,會不會出現大家所期待的革命性拍照機皇呢?

目前幾乎可以確定的是,HMD Global拿到PureView商標之後,肯定會充分利用這個品牌來打造和宣傳新機,保持諾基亞品牌的情懷因素一直是HMD Global最擅長的營銷策略,因為過去曾經使用諾基亞手機的用戶,如今大多數剩下的只有滿滿的回憶。說實話,相信無論是哪一家公司,只要拿到Nokia牌子都會這麼做營銷。

很多人會問,未來諾基亞PureView手機是否還會標配4100萬像素的“巨型奧利奧”攝像頭?這目前還是未知數,不過如今超高像素傳感器也並非難事,7月底時索尼就發佈了4800萬像素的手機傳感器IMX 586,更早還有4000萬像素的IMX600,並且塞進手機完全不影響便攜性,不會有突兀的“奧利奧”。

但需要注意的是,如果Nokia手機貼上PureView標籤之後,卻未能帶來更出色的拍照體驗,那必然就是失敗之舉,相信HMD Global肯定不想而且也不會把PureView品牌搞砸。

因此,除了炒作難以磨滅的情懷之外,HMD Global應該會在未來諾基亞手機中,繼續強化PureView技術,就如與蔡司合作所承諾的那樣,利用“蔡司+純景”打造更出色的攝像頭體驗,或實現更卓越的成像品質。

其實就是說,HMD Global可能不會經常把PureView拿出來炫,真正能貼上這個標籤的應該只會是拍照旗艦手機。

按道理來說,既然“蔡司+PureView”都拿到手了,有了之前PureView技術的積累以及與蔡司那麼長時間的合作,或許“超採樣”、“無損數碼變焦”的理念應該更易於率先回歸到Nokia手機上。

然後,還能再加上此前在Nokia 8上首發的Dual-Sight前後同拍技術,同時使用前置和後置攝像頭拍攝照片或錄製視頻。

說到Nokia 8,就不要忘了OZO Audio黑科技,這是來自純正芬蘭諾基亞的技術,雖然僅限音頻,但HMD Global既然能授權OZO技術,說明拿下諾基亞全球領先的OZO 360 video全景拍攝技術也不是難事,只不過要求配備更多的攝像頭,至少諾基亞自己的OZO VR攝像機就有8個攝像頭覆蓋整個球面,從而實現360度專業拍攝,還原“最真實現場”。

不過,諾基亞雖然停止了OZO技術的研發,但OZO 360°VR拍攝這對於手機而言依然還是有點難以實現,除非做超精簡版,然後配合到行業即將興起的“三攝像頭”潮流中,如此以來諾基亞手機還是有望通過PureView + OZO提供新的玩法的,只是如何融入OZO技術就不清楚了。

你一定還想問,這些技術一大堆,真正對成像有什麼提升?大家都知道華為 P20 Pro,該機子被公認為是目前最好的拍照手機,主要是得益於4100萬像素的攝像頭帶來了巨大的提升。

但你應該清楚一件事情,那些曾經負責諾基亞808和1020 PureView技術的技術專家,在被華為芬蘭研究所基本整編收入麾下,從而才打造了PureView的“精華續作”P20 Pro,但這樣足夠說明當年PureView技術的強大。

不過說到底,HMD Global儘管拿到PureView商標,但沒有了曾經的功臣,必然無法“原汁原味”了。所以,HMD Global還需尋求“新配方”,也就是為“PureView+蔡司”繼續完善一支新的團隊。

不過,HMD Global之前也聘用了相當多前諾基亞手機的影像工程師,其中時候也包含當初PureView團隊的部分成員就不得而知了,現在只希望HMD Global有了蔡司和PureView加持,配合新影像團隊能夠帶來更加與眾不同的化學反應

情懷雖好,未來更讓人期待

HMD Global還會不會帶會為Nokia手機更多的情懷呢?例如諾基亞擅長的氙氣閃光燈、圖像/視頻穩定技術以及後期處理技術等。

就目前來看,HMD Global拿回PureView品牌,似乎意味著未來諾基亞手機又進一步回歸到了熟悉的配方上,不只有熟悉的“手拉手”的開機界面、熟悉的諾基亞鈴聲、夠格的蔡司鏡頭等,還重新帶回了強大的PureView技術,似乎只差那個在觸屏機時代完全衰落的Symbian系統了。

但話說回來,懷唸過去雖好,相信更多的人希望HMD Global和蔡司能夠拿出在移動行業從未出現過的技術,而不是各種再續前緣。不管HMD Global在未來的Nokia手機能夠拿出的是什麼技術,也只有能夠推動智能手機行業拍照成像體驗更進一步發展的技術,才是最大的價值所在。

當然了,很多高端複雜的技術,並非說有就馬上有,通常需要一定的時間才能在高端旗艦上配備。在你來看,PureView的回歸還能讓諾基亞手機重新奪下拍照機皇的榮耀嗎?

蘋果新手錶Watch 4外形曝光:全新表盤很搶眼

admin阅读(202)

蘋果已經確定,美國當地時間9月12日(北京時間9月13日凌晨1點)舉行他們的秋季新品發佈會,而大家之所以這麼關注,主要還是真正的主角要在這個大會上亮相,它就是新一代iPhone,不出意外的話,今年還是三款但都是iPhone X衍生版。

現在,外媒9to5Mac給出了所謂Apple Watch Series 4的定妝照,而他們強調圖片是出自蘋果自己的官網,而從圖片本身來看,這個爆料的準確相當的高,別的不說單看那全新的表盤,不是蘋果自己出手,誰能帶來這樣的設計?

我們就來看看圖片中透露了這個新的Watch 4哪些亮點,首先它換上了新配色,這個金色顯然跟之前Watch 3系列上的不一樣,因為蘋果應該是進行了重新調色,看起來是那種更有亮度的金色。

再來說說新的表盤設計,因為它看起來足夠搶眼,在全新的Watch Series 4系列上,蘋果竟然換了一個思路,把機器能做到的數據都在表盤上進行了設計,比如計時器、溫度、日程、日期、Apple Music、健身記錄等等。

最後再來說說機身設計上的不同,首先數字表冠上加入了紅圈設計,這跟上一代的紅點設計完全不同,其次機身還多處了一個小孔,應該是新增的麥克風。

對於新一代Apple Watch Series 4的這些調整,你們打算換新了嗎?

UHS-I與UHS-II存儲卡有什麼區別?

admin阅读(189)

我們在選購高速SD卡的時候往往會被一個奇怪的參數迷惑,UHS-I與UHS-II那麼這一參數有什麼不同呢?支持UHS-II的存儲卡與支持UHS-I的又有著什麼區別呢?

說到這裡我們就要來簡單的說一下“UHS”是什麼意思,“UHS”就是“Ultra-High Speed 超高速”的縮寫,支持超高速總線接口的存儲卡一般都會有著更快的讀寫速度,這一標準是由“SD卡協會”這一非營利性組織來制定。

其中,支持UHS-I(第一代超高速)的SD卡產品於2010年被發布,理論傳輸速度可達104MB/s,其接口插腳排向下兼容,與不支持UHS-I的SD卡產品是相同的。

不過支持UHS-II(第二代超高速)的SD卡產品就第一代有所不同,無論是傳輸速度還是金手指結構均有所不同,支持UHS-II的SD卡產品理論傳輸速度可達312MB/s,速度翻了三倍,在金手指結構上也有所改變,啟用了額外的一排的金手指,有效提升了數據傳輸速度,不過在價格上也有著顯著的提升。

我們在選購這類高速SD存儲卡的時候,應該注意的是我們的設備是否支持這一接口,尤其是在選購UHS-II高速SD存儲卡的產品的時候,現在支持這一接口的產品多為高端旗艦級產品,如果您使用的是一款中低端產品的話,在使用UHS-II高速SD存儲卡的產品的時候是無法完全發揮它的最高速度的,機身接口將直接限制數據傳輸速度的上限。

另一個需要注意的是,選購存儲卡產品的時候要根據個人需求來選擇,如果只是進行普通的照片拍攝,這類高速存儲卡與普通的存儲卡產品能為我們帶來的使用感受其實是不大的,但如果要進行高清視頻或高清圖片的拍攝工作,那麼我們就必須選購這類高速存儲卡產品,畢竟支持這一協議的高速存儲卡產品的售價都遠高於普通存儲卡產品。

滴滴被棄用:中國iOS下載量排名從第9跌至61位

admin阅读(238)

市場研究公司App Annie的數據顯示,在因順風車乘客遇害事件遭到全國聲討後,打車應用滴滴出行的的下載量出現大幅下滑。

每日下載量數據顯示,自從滴滴順風車在三個月內造成第二名乘客遇害後,用戶開始嘗試滴滴對手的打車服務。乘客遇害事件引發公眾憤怒,促使用戶公開刪除滴滴應用。中國監管部門、媒體以及用戶指責滴滴這個亞洲估值最高創業公司將增長置於安全之上。

App Annie的數據顯示,截至週三,滴滴在蘋果中國iOS平台的應用下載量排名已從8月20日的第9,下滑至第61位,創下自5月份以來的最差排名。今年5月份,一名空姐搭乘滴滴順風車遇害,挫傷了滴滴。滴滴在出行類應用的下載量排名從第一下滑至第四,現在落後於規模更小的兩家對手—嘀嗒拼車和曹操專車,以及在線預訂服務攜程網。

這一數據只涵蓋中國iPhone平台,反映的是新下載量而不是目前已安裝應用的狀況。在中國,絕大多數用戶使用Android手機。但是,這對滴滴來說是一個潛在威脅。在中國本土贏得與Uber的燒錢戰後,滴滴試圖成為一家全球出行巨頭。

乘客遇害事件並沒有讓用戶徹底棄用打車應用,但是似乎把滴滴對手的應用下載量提高到了少見的高度。嘀嗒拼車下載量距離滴滴最近,排名已經從8月20日的僅124位飆升到了第9位。排在第三位的曹操專車此前甚至沒有進入過前200名。其他小型服務也實現了下載量的上漲,但是沒有達到嘀嗒拼車和曹操專車的類似水平。

滴滴CEO程維和總裁柳青在本週公開道歉,承諾會把乘客安全放在優先位置,並推出了旨在保護乘客的新舉措。

市場研究公司Gartner研究總監沈哲怡表示,從長遠來看,滴滴可能會因此重拾信任。“如果滴滴真心誠意,採取積極措施確保他們保護乘客的安全和隱私,那麼我認為人們可能會逐漸恢覆信心使用滴滴,因為滴滴現在是中國最大打車應用,”她表示,”但是這需要一段時間。“

蘋果新品發佈會來了:三款新iPhone齊發 9月12日見

admin阅读(352)

8月31日凌晨,蘋果宣佈將於9月12日在加利福尼亞州庫比蒂諾舉辦新品發佈會,不出意外新一代iPhone將在此亮相。

根據已經披露的信息,蘋果今年同樣會推出三款iPhone。和去年發佈會不同的是,今年這三款iPhone均為異形全面屏設計(劉海屏)。

據悉,蘋果今年將推出三種屏幕尺寸的iPhone:5.8英吋、6.1英吋和6.5英吋。其中6.1英吋iPhone採用的是LCD顯示屏,配備單攝像頭,5.8英吋和6.5英吋版新iPhone則是採用的OLED顯示屏,配備雙攝像頭。

三款新iPhone整體設計區別不大,都是配備Face ID,支持人臉識別。其中6.1吋iPhone的成本較其它兩款iPhone低,所以其價格相對要“便宜”,俗稱“廉價版”iPhone。

此外,蘋果可能會針對國行用戶推出雙卡版iPhone。

值得一提的是,蘋果在本次發佈會上有可能推出新款Apple Watch、iPad等產品,值得期待。

NVIDIA Tensor Core深度學習核心解析:全是干貨

admin阅读(296)

不久前,NVIDIA在SIGGRAPH 2018上正式發佈了新一代GPU架構——Turing(圖靈),黃仁勳稱Turing架構是自2006年CUDA GPU發明以來最大的飛躍。

Turing架構的兩大重要特性便是集成了用於光線追蹤的RT Core以及用於AI計算的Tensor Core,使其成為了全球首款支持實時光線追蹤的GPU。

不過說到AI計算,NVIDIA GPU成為最好的加速器早已是公認的事實,但將Tensor Core印上GPU名片的並不是這次的Turing,而是他的上任前輩——Volta。

基於Volta架構的Titan V是NVIDIA在計算領域成就的集大成者。深度學習和神經網絡已成為NVIDIA GPU的背後驅動力,作為最先進的計算加速器,它集成了用於機器學習操作的內置硬件和軟件加速,深度學習能力完全可以被當做Titan V和Volta的名片。

Titan V與初代基於開普勒的GeForce GTX Titan已經相去甚遠,初代Titan的定位是一款萬能顯卡,既可作為遊戲發燒友的旗艦遊戲顯卡,也為專業消費者提供全雙精度浮點(FP64)計算能力。

在Titan V誕生之前,Titan產品線幾乎都是基於這種設計方法,一顆巨大的GPU核心是NVIDIA“高大全”設計思路的最好代表。

 

而在Titan V上,NVIDIA再次擴展了大核心的上限。Volta最引人注目的則是其全新的專用處理模塊——Tensor Core(張量計算核心),它與Volta的其他微架構改進,以及支持深度學習和高性能計算(HPC)的軟件/框架集成在一起。

憑藉面積達815mm?的巨大GV100核心,Titan這一產品線變得比以往任何時候都更接近工作站級,Titan V在擁有世界最強圖形渲染性能的同時,深度學習和高性能計算方面的性能都有了極大的提升,當然它的價格也達到了工作站級的3000美元。

強化算力,重造Titan

除了深度學習和通用計算之外,Titan品牌的這次迭代還涉及到其他一些因素。 NVIDIA其實已經不太需要通過Titan系列為自己樹立形象,最初的GTX Titan已經通過NVIDIA K20Xs為Oak Ridge國家實驗室的Titan超級計算機提供計算力。況且,Titan系列在產品價格和性能方面也沒有任何特別的競爭壓力。

儘管Titan V的非ECC HBM2顯存和GeForce驅動程序堆棧都更加面向消費者,但該卡仍可直接受益於框架和API的軟件支持,這是NVIDIA深度學習開發整體工作的一部分。

鑑於單路Titan V並不會對服務器計算卡Quadro GV100產生什麼影響,NVIDIA在Titan V上只砍掉了針對服務器多路互聯設計的NVLink高速總線,而主要的計算能力(FP64/FP16/Tensor Core)都被完整保留。

與Pascal及更早期的產品均使用面向PC設計的GPU以及常規GDDR5(x)顯存不同,NVIDIA這次選擇了一顆規模巨大、產量和良品率都不高的服務器級芯片,有大量的晶體管被花費在了非圖形功能上(即Tensor Core),這是NVIDIA在計算領域押下的賭注,NVIDIA已經不滿足於只在傳統圖形計算卡和通用計算方面處於領先地位。

由於是首次分析GPU的深度學習性能,所以目前市面上還沒有確定一套標準的基準測試,特別是對於Volta獨特的張量內核和混合精度功能。對於Titan V,我們將使用百度DeepBench、NVIDIA的Caffe2 Docker、Stanford DAWNBench和HPE深度學習基準套件(DLBS)來測試。

但是在深入研究這些測試數據之前,雷鋒網首先會就深度學習、GPU、Volta微架構以及深度學習性能基準進行一些背景介紹。

GPU與深度學習

首先要說明的是,雖然“機器學習”或更通用的“AI”有時可互換用於“深度學習”,但從技術上講,它們各自指的是不同的東西,機器學習是AI的子集,深度學習則是機器學習的子集。

深度學習是因“深度神經網絡”(Deep Neural Networks)而得名,其最終被設計為識別數據中的模式,產生相關預測,接收關於預測準確度的反饋,然後基於反饋進行自我調整。計算發生在“節點”上,“節點”被組織成“層”:原始輸入數據首先由“輸入層”處理,“輸出層”推出代表模型預測的數據。兩者之間的任何一層都被稱為“隱藏層”,而“deep”則代表著深度神經網絡有許多隱藏層。

這些隱藏層可以在不斷增加的抽象層次上運行,使得它們甚至可以從複雜的輸入數據中提取和區分非線性特徵。一個標準的例子是圖像識別,其中初始層尋找某些邊緣或形狀,這通知後面的層尋找鼻子和眼睛,之後的層可能尋找面部。最後的圖層組合了所有這些數據以進行分類。

隨著輸入數據在模型中向前推進,計算包括特殊的內部參數(權重),最後會產生一個表示模型預測與正確值之間誤差的損失函數。然後使用此錯誤信息反向運行模型以計算將改善模型預測的權重調整,該前向和後向傳遞(或反向傳播)序列包括單個訓練迭代。

為了進行推斷,這個過程自然地排除了逆向傳遞,最終需要的計算強度比訓練模型更小。從這個意義上說,推斷也不太需要像FP32這樣高的精度,並且可以對模型進行適當的修剪和優化,以便在特定的設備上部署。然而推斷設備對延遲、成本和功耗變得更加敏感,尤其是在邊緣計算的場景下。

卷積神經網絡(CNN)和遞歸神經網絡(RNN)是深度神經網絡的兩個重要子類型。卷積本身是一種操作,將輸入數據和卷積核結合起來形成某種特徵映射,轉換或過濾原始數據以提取特徵。

CNN通常是“前饋”的,因為數據在沒有循環的情況下流過各層。而對於RNN(以及像LSTM和GRU這樣的變體)來講,每次計算後都會有一個單獨的權重循環回自身,給網絡一種“記憶”感,這讓網絡能夠做出有時間意識的預測,在文本分析等場景中很有用。

由於深度學習數學可以歸結為線性代數,因此某些操作可以重寫為對GPU更友好的矩陣間乘法。當NVIDIA首次開發並公佈cuDNN時,其中一個重要實現就是將算法降級為矩陣乘法以加速卷積。多年來cuDNN的發展包括“預先計算的隱式GEMM”卷積算法,它恰好是觸發Tensor Core卷積加速的唯一算法。

NVIDIA GPU的優勢

對於深度學習訓練來說,GPU已經成為加速器的最佳選擇。大多數計算本質上是並行的浮點計算,即大量的矩陣乘法,其最佳性能需要大量的內存帶寬和大小,這些需求與HPC的需求非常一致,GPU正好可以提供高精度浮點計算、大量VRAM和並行計算能力,NVIDIA的CUDA可謂恰逢其時。

CUDA和NVIDIA的計算業務的發展與機器學習的研究進展相吻合,機器學習在2006年左右才重新成為“深度學習”。GPU加速神經網絡模型相比CPU可提供數量級的加速,反過來又將深度學習重新推廣到如今的流行詞彙。與此同時,NVIDIA的圖形競爭對手ATI在2006年被AMD收購;OpenCL 1.0在2009年才發佈,同年AMD剝離了他們的GlobalFoundries晶圓廠。

隨著DL的研究人員和學者們成功地使用CUDA來更快地訓練神經網絡模型,NVIDIA才發佈了他們的cuDNN庫的優化深度學習原語,其中有很多以HPC為中心的BLAS(基本線性代數子例程)和相應的cuBLAS先例,cuDNN將研究人員創建和優化CUDA代碼以提高DL性能的需求抽象出來。至於AMD的同類產品MIOpen,去年才在ROCm保護傘下發佈,目前也只在Caffe公開發布。

所以從這個意義上講,儘管NVIDIA和AMD的底層硬件都適合DL加速,但NVIDIA GPU最終成為了深度學習的參考實現。

剖析Tensor Core

在關於Volta混合精度Tensor Core的幾個謎團中,一個比較煩人的問題是4 x 4矩陣乘法的能力。Tensor Core是一種新型處理核心,它執行一種專門的矩陣數學運算,適用於深度學習和某些類型的HPC。Tensor Core執行融合乘法加法,其中兩個4*4 FP16矩陣相乘,然後將結果添加到4*4 FP16或FP32矩陣中,最終輸出新的4*4 FP16或FP32矩陣。

NVIDIA將Tensor Core進行的這種運算稱為混合精度數學,因為輸入矩陣的精度為半精度,但乘積可以達到完全精度。碰巧的是,Tensor Core所做的這種運算在深度學習訓練和推理中很常見。

 

Tensor Core雖然在GPU裡是全新的運算單元,但其實它與標準的ALU流水線並沒有太大差別,只不過Tensor Core處理的是大型矩陣運算,而不是簡單地單指令流多數據流標量運算。Tensor Core是靈活性和吞吐量權衡的選擇,它在執行標量運算時的表現很糟糕,但它可以將更多的操作打包到同一個芯片區域。

Tensor Core雖然有一定的可編程性,但仍然停留在4*4矩陣乘法累加層面上,並且不清楚累積步驟是如何以及何時發生的。儘管被描述為進行4*4矩陣數學運算,但實際上Tensor Core運算似乎總是使用16*16矩陣,並且操作一次跨兩個Tensor Core進行處理。這似乎與Volta架構中的其他變化有關,更具體地說,與這些Tensor Core是如何集成進SM中有關。

對於Volta架構,SM被劃分為四個處理塊或子核。對於每個子核,調度器每個時鐘向本地分支單元(BRU)、Tensor Core陣列、數學分派單元或共享MIO單元發出一個warp指令,這就首先阻止了Tensor運算和其他數學運算同時進行。在利用兩個Tensor Core時,warp調度器直接發出矩陣乘法運算,並且在從寄存器接收輸入矩陣之後,執行4*4*4矩陣乘法。待完成矩陣乘法後,Tensor Core再將得到的矩陣寫回寄存器。

在Tensor Core執行實際指令時,即使在使用NVVM IR(LLVM)的編譯器級別上,也僅存在用於warp級矩陣操作的本征,對於CUDA++和PTX ISA,warp級別仍然是唯一級別。加載輸入矩陣的形式是每個扭曲線程持有一個片段,其分佈和身份均未指定。從廣義上講,它遵循標準CUDA核心的基於線程級別拼接的GEMM計算的相同模式。

 

一般而言,給定A*B+C Tensor Core操作,片段由A的8個FP16*2元素(即16個FP16元素)和B的另外8個FP16*2元素,以及FP16累加器的4個FP16*2元素或 FP32累加器的8個FP32元素組成。

在矩陣乘法累加運算之後,計算結果會分散在每個線程的目標寄存器片段中,需要在整個範圍內統一,如果其中一個warp線程退出,這些低級操作基本上就會失敗。

 

Citadel LLC團隊的低級微基準測試揭示了許多Volta微體系結構細節,包括Tensor Core操作和相關的片段,與輸入矩陣相比,它們都位於寄存器和標識中。他們觀察到,子核核心以特定的拼接模式計算矩陣乘法,其中所有32個warp線程都在運行。

從概念上講,Tensor Core在4*4子矩陣上運行,以計算更大的16*16矩陣。warp線程被分成8組,每組4個線程,每個線程組連續計算一個8*4塊,總共要經過4組的過程,每一個線程組都處理了目標矩陣的1/8。

在一個集合中,可以並行完成四個HMMA步驟,每個步驟適用於4*2子塊。這四個線程直接鏈接到寄存器中的那些矩陣值,因此線程組可以處理單個Step 0 HMMA指令,從而一次性計算子塊。

由於矩陣乘法在數學上需要對某些行列進行復用,以允許跨所有8*4塊並行執行,每個4*4矩陣被映射到兩個線程的寄存器。在計算16*16父矩陣的4*4次子矩陣運算中,這將包括將連續計算的集合相加,形成16*16矩陣中4*8個元素的相應塊。儘管Citadel沒有對FP16進行測試,但它們發現FP16 HMMA指令只產生2個步驟,而不是4個步驟,這或許與FP16只佔用的較小的寄存器空間有關。

通過獨立的線程調度和執行,以及warp同步和warp-wide結果分配,基本的4*4*4 Tensor Core操作轉換為半可編程16*16*16混合精度矩陣乘法累加。雖然CUDA 9.1支持32*8*16 and 8*32*16矩陣,但相乘的矩陣都需要相應的列和行為16,最終矩陣為32*8或8*32。

Tensor Core的運行方式似乎是NVIDIA GEMM計算層次結構的一個硬件實現的步驟,如CUTLASS(用於GEMM操作的CUDA C ++模板庫)中所示。對於傳統的CUDA核心,最後一步需要將warp tile結構分解為由各個線程擁有的標量和向量元素。使用WMMA API(現在表示張量核),所有這些都被抽象掉了,只剩下了需要處理的合作矩陣片段加載/存儲和多重積累。積累發生在一個FMA類型的操作中。

 

在寄存器級別上,NVIDIA在他們的Hot Chips 2017論文中提到“使用三個相對較小的乘法和累加器數據的4*4矩陣,可以執行64次乘加運算。”而增強的Volta SIMT模型的每線程程序計數器(能夠支持張量核)通常需要每個線程2個寄存器槽。HMMA指令本身會儘可能多復用寄存器,所以我無法想像寄存器在大多數情況下不會出現瓶頸。

對於獨立的4*4矩陣乘法累加,Tensor Core陣列在寄存器、數據路徑和調度方面很有核能並沒有物理設計,它只能用於特定的子矩陣乘法。

無論如何,從NVIDIA的角度來看,Volta不是一顆深度學習的專用ASIC,它仍然覆蓋GPGPU的領域,因此保持CUDA可編程Tensor Core適用於GEMM / cuBLAS和HPC是合乎邏輯的。對於CUDA c++的CUTLASS來說,情況更是如此,因為它的WMMA API支持旨在為廣泛的應用程序啟用Tensor CoreGEMM操作。從根本上說,NVIDIA深度學習硬件加速的發展與cuDNN(以及cuBLAS)的發展有很大關係。

讓FP16適用於深度學習

Volta的深度學習能力是建立在利用半精度浮點(IEEE-754 FP16)而非單精度浮點(FP32)進行深度學習訓練的基礎之上。

該能力首先由cuDNN 3支持並在Tegra X1的Maxwell架構中實現,隨後原生半精度計算被引入Pascal架構並被稱為“偽FP16”,即使用FP32 ALUs處理成對的FP16指令,理論上可以使每個時鐘的FP16吞吐量增加一倍。這一特性實際上已經在Tensor Core處理寄存器中矩陣片段的過程中得到體現,其兩個FP16輸入矩陣被收集在8個FP16*2或16個FP16元素中。

就FP32與FP16而言,由於單精度浮點所包含的數據多於半精度浮點,因此計算量更大,需要更多的內存容量和帶寬來容納和傳輸數據,並帶來更大的功耗。因此,在計算中成功使用低精度數據一直是窮人的聖盃,而目標則是那些不需要高精度數據的應用程序。

除了API/編譯器/框架的支持之外,深度學習一直都有在使用FP16數據類型時損失精度的問題,這會讓訓練過程不夠準確,模型無法收斂。

據雷鋒網瞭解,NVIDIA以前也曾在類似的情況下推出過“混合精度”這一概念,在Pascal的快速FP16(針對GP100)和DP4A/DP2A的整數點積操作(針對GP102、GP104和GP106 GPU)中,就曾提出過類似的說法。

 

當時人們關注的是推理能力,就像Titan V的“深度學習TFLOPS”一樣,Titan X(Pascal)推出了“44 TOPS(新型深度學習推斷指令)”。新的指令對4元8位向量或2元8位/16位向量執行整數點積,從而得到一個32位整數積,可以與其他32位整數一起累積。

對於Volta的混合精度而言,重要的精度敏感數據(如主權重)仍然會存儲為FP32;而Tensor Core的混合精度訓練則會將兩個半精度輸入矩陣相乘得到一個精度乘積,然後累積成一個精度和。NVIDIA表示,在將結果寫入內存之前,Tensor Core會將結果轉換回半精度,這樣當使用半精度格式時,寄存器和存儲器中需要的數據更少,這有助於處理超大矩陣中的數據。

FP16與FP32所包含的數據空間並不相同,歸一化方法可以解決FP32格式數據超出FP16可表示範圍的問題。舉個例子,許多激活梯度的值都落在FP16的範圍之外,但由於這些值聚集在一起,因此將損耗乘以縮放因子便可以移動FP16範圍內的大部分值。在完成最終的權重更新之前,將梯度重新縮放到原始範圍,便可以維持其原始的精度。

不過,並非所有的數學、神經網絡和層都適用於FP16,通常FP16和Tensor Core的混合精度最適合卷積和RNN重圖像處理等,而對於不適合的神經網絡框架或類型,FP16將默認禁用或不推薦使用。

內存改進,SM變化

使用Tensor Core處理混合精度數據似乎可以減輕內存帶寬問題,但事實證明,儘管Volta在幾乎所有方面都得到了內存子系統的增強,但幅度並不明顯。

首先,Volta有一個12 KB的L0指令緩存,雖然Pascal及其他之前的GPU核心也有指令緩存,但Volta更高效的L0是子核心SM分區私有的,因此它對warp調度器來說也是私有的,這對Volta架構更大的指令大小是一種補償,並有可能為支持Tensor Core通道的框架做出貢獻。同時Volta指令延遲也要低於Pascal,特別是核心FMAs從6個週期減少到了4個週期。

隨著每個SM中調度器比例的增加,砍掉第二個調度端口似乎是對具有獨立數據路徑和數學調度單元的子核心的權衡。而具備FP32/INT32執行能力,也為其他低精度/混合精度模型打開了大門。這些子核方面的增強,都是為了優化Tensor Core陣列。

另一個重大變化是合併L1緩存和共享內存。在同一個塊中,共享內存可配置為每SM 最高96 KB。HBM2控制器也進行了更新,其效率提高了10~15%。

深度學習基準測試

深度學習從框架到模型,再到API和庫,AI硬件的許多部分都是高度定製化的,這樣的新領域有時會讓人非常難以理解。

俗話說“光說不練假把式”,實踐永遠是檢驗真理的唯一標準。對計算機來說,介紹的再詳細也不如真刀真槍跑一下測試,沒有什麼比benchmark更能提現硬件的實際表現了。

隨著ImageNet和一些衍生模型(AlexNet、VGGNet、Inception、Resnet等)的影響,ILSVRC2012(ImageNet大規模視覺識別挑戰)中的圖像數據集訓練逐漸被行業所認可。

現在基本上所有深度學習框架都支持CUDA和cuDNN,對於Volta而言,支持FP16存儲的框架也都支持Tensor Core加速,啟用FP16存儲後Tensor Core加速會自動啟用。

JPHub

聯系我們聯系我們