忍者ブログ
CUDA+GPGPU、C++、C#などのプログラムについての備忘録がわり
[7] [6] [5] [4] [3] [2] [1
Posted by - 2024.04.27,Sat
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

Posted by サンマヤ - 2008.07.15,Tue
CUDAにおけるKernel実行を最適化する際に重要な要素の一つに、
SharedMemoryを有効に使うということがあります。
これは、いくつかのサンプルでも最適化方針としてあげられていることですが、
いまいち、どういう場合にバンク衝突が起こるか分かりませんでした。

SharedMemoryはいくつかのバンクに分けられており、
同時に複数のスレッドが同じバンクにアクセスしようとすると、遅延が生じます。
これを回避するためのアドレッシングをどのように行ったらよいのか、ということなのですが、
日本語のプログラミングガイドでははっきり言って、意味が分かりませんw
ということで、英語版やらサンプルを見ながら分かったことを書いておきます。

・現状では、バンク数はワープ数の半分の16
 これは、実際の実行がワープ単位ではなく半ワープ単位で行われているため。
 今後のチップ能力の向上によっては、この数値は32になる可能性が高い。

・1バンクは32ビット(4バイト)の連続したメモリを含んでいる。

・バンクの番号は周期的に割り振られている。
 たとえば、
char ___shared___ sdata[];
と定義してある場合、sdata[0],sdata[1],sdata[2],sdata[3]がバンク0に属するわけですが、
16×4=64バイト先のメモリである、
sdata[64],sdata[65],sdata[66],sdata[67]もバンク0に属する、らしい。。。

これについては、近日中に検証プログラムを書いて報告する予定です。
PR
Comments
Post a Comment
Name :
Title :
E-mail :
URL :
Comments :
Pass :   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
TrackBack URL
TrackBacks
カレンダー
03 2024/04 05
S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
フリーエリア
最新コメント
[11/19 矢野 忠]
[02/25 山本義和]
[07/08 hirota]
[07/06 hirota]
[02/05 矢野 忠]
最新トラックバック
プロフィール
HN:
サンマヤ
性別:
非公開
職業:
プログラマ
趣味:
ゲーム
バーコード
ブログ内検索
カウンター
忍者アナライズ
Template by mavericyard*
Powered by "Samurai Factory"
忍者ブログ [PR]