Program for Tuesday, April 25th

PROGRAM FOR TUESDAY, APRIL 25TH

Days:

previous day

next day

all days

View: session overview talk overview

10:00-11:30 Session 4: Keynote Talk B

Chair:

Kenjiro Taura (University of Tokyo, Japan)

Location: Hall B 3+4

10:00

Michael Cusumano (MIT, USA)

The Puzzle of Japanese Innovation and Entrepreneurship

SPEAKER: Michael Cusumano

ABSTRACT. Japan has great capabilities in technological innovation. We can see this in the large number of patents that Japanese companies and universities produce. However, Japan seems to lag behind many other countries in the creation of new companies or even new businesses within existing companies. This talk focuses on explaining this puzzle, relying on data and frameworks from an initiative started at the Massachusetts Institute of Technology called MIT REAP (Regional Entrepreneurship Acceleration Program). This talk will also explain briefly efforts a team in Tokyo is making to address the weaknesses in Japan's entrepreneurial ecosystem.

11:30-13:00Lunch Break

13:00-14:30 Session 5: Invited Talk A

Chair:

Toshio Endo (Tokyo Institute of Technology, Japan)

Location: Hall B 3+4

13:00

拓哉秋葉 (Preferred Networks, Japan)

大規模分散深層学習の進歩と課題

SPEAKER: 拓哉秋葉

ABSTRACT. 画像認識、自然言語処理、音声認識など、機械学習が応用される様々な分野において、深層学習が既存の手法を遥かに凌駕する予測性能を達成することが分かってきました。本講演では、まず深層学習の技術的基礎や応用事例を説明します。次に、分散処理による高速化・大規模化に焦点を当て、我々の開発した分散深層学習フレームワーク ChainerMN の紹介を交えながら、アプローチの比較や今後の課題・方向性について議論します。

14:30-15:00Coffee Break

15:00-16:30 Session 6A: High Performance Communication

Chair:

Toshio Endo (Tokyo Institute of Technology, Japan)

Location: Hall B 3+4

15:00	Che Huang (Nara Institute of Science and Technology, Japan) Chawanat Nakasan (Nara Institute of Science and Technology, Japan) Kohei Ichikawa (Nara Institute of Science and Technology, Japan) Yasuhiro Watashiba (Nara Institute of Science and Technology, Japan) Hajimu Iida (Nara Institute of Science and Technology, Japan) A Multipath OpenFlow Controller for GridFTP SPEAKER: unknown ABSTRACT. A large amount of data needs to be transferred from one site to another as fast as possible in the computational science fields. To achieve high-speed data transfer, many applications utilize multiple TCP streams. However, since multiple TCP streams of applications are usually routed according to the default IP routing protocol, only a single shortest path among the multiple paths can be utilized for the data transfer. This research proposes a multipath controller that increases the performance of data transfer by leveraging multiple paths simultaneously for parallel TCP streams. For this purpose, we utilize Software-Defined Networking (SDN) technology and its implementation, OpenFlow. Furthermore, we proposed a method to determine optimal numbers of parallel TCP streams to be assigned for each path according to its own network condition. This paper presents the design and implementation of the proposed system. As a case study, we applied our proposed system on GridFTP and conducted evaluations. The results demonstrate that our proposed system accelerates the data transfer of GridFTP in both a virtual and a real global-scale environment.
15:30	Wataru Endo (The University of Tokyo, Japan) Kenjiro Taura (The University of Tokyo, Japan) Parallelized Software Offloading in Low-Level Communication Layer SPEAKER: unknown ABSTRACT. The recent increase of the number of cores per node in modern HPC architectures raises a scalability problem in communication systems. Offloading communication requests to a dedicated communication thread is a promising method to improve the multi-threading performance of communication systems. To fully utilize multiple communication resources per node, it is desirable to allocate a distinct thread for each communication resource if possible. However, the impact of parallelizing the offloaded communication progress has not been examined in detail. We developed and implemented a low-level communication library that can offload requests to multiple dedicated threads efficiently. In microbenchmark results, we show that our offloading architecture is beneficial not only for efficient multi-threading and latency hiding, but also for aggregating messages to improve the message rate.
16:00	Harunobu Daikoku (University of Tsukuba, Japan) Hideyuki Kawashima (University of Tsukuba, Japan) Osamu Tatebe (University of Tsukuba, Japan) 大規模MapReduce実行環境向けShuffle通信のRDMAによる高速化 SPEAKER: unknown ABSTRACT. 本研究では先端ネットワーク技術であるInfiniBandとRDMA（Remote Direct Memory Access）を活用し，大規模なMapReduce実行環境に適したshuffle通信手法の高速化を行う．初めにshuffle通信を実現する方式として既存のMapReduce実装であるApache HadoopやApache Sparkにおいて採用されているFully-Connectedと，HPC分野で幅広く利用されているMPI（Message Passing Interface）でのall-to-all通信の1手法であるPairwiseの2方式に関して解説する．その後大規模クラスタ環境においてはPairwise方式がより高い性能を示し得ることを実験結果を交えて示した上で，Pairwise方式に焦点を当ててRDMAによる高速化手法を示す．本研究では独自in-memory MapReduce処理系を実装し，RDMAの適用がshuffle通信の性能に与える影響を評価する．評価実験では典型的なMapReduceワークロードであるWord Countを独自処理系及びSpark上で実行し，独自処理系の実装の妥当性を示す．続いてshuffle-heavyなMapReduceワークロードを用いて，RDMAの適用により独自処理系のshuffleフェーズが1 GbE比で3.16倍，IPoIB比で1.44倍高速化することを示す．

15:00-16:30 Session 6B: Algorithm

Chair:

Takeshi Yamamuro (NTT corp., Japan)

Location: Hall B 1

15:00

Hiroshi Yoritaka (Graduate School of Computer Science and Systems Engineering, Kyushu Institute of Technology, Japan)
Masahiro Yasugi (Department of Artificial Intelligence, Kyushu Institute of Technology, Japan)
Tasuku Hiraishi (Academic Center for Computing and Media Studies, Kyoto University, Japan)
Seiji Umatani (Graduate School of Informatics, Kyoto University, Japan)

優先度ならびに重みを用いたワークスティールフレームワークの性能改善

SPEAKER: unknown

ABSTRACT. 本論文では，ワークスティールフレームワークにおける優先度選択ならびに重み付選択のスティール戦略を提案する．提案方式では，各ワーカは自身が持つ仕事の量をユーザがプログラム中で設定した式に基づいて実数値として見積もり，ワークスティール時にこの値を優先度あるいは重みとして利用可能とする．すなわち，仕事をスティールしようとするワーカは，大きい値を持つ他ワーカをスティール先として優先的に，あるいは高い確率で選択する．これにより小さいタスクのスティールを減らし，トータルのタスク分割コストを削減できる．本研究ではタスク並列言語Tascellに本手法を実装した．性能評価の結果，Barnes-Hutアルゴリズムの128ワーカ実行で一様ランダム選択に対して優先度選択では11.8～22.6%，重み付選択では10.9～23.4%の性能向上が得られた．

15:30

Masaru Ito (Department fo Information and Communication Engineering, Graduate School of Information Science and Technology, Japan)
Kenjiro Taura (Department fo Information and Communication Engineering, Graduate School of Information Science and Technology, Japan)

Bzip2+ : FBWTを用いた高速な圧縮

SPEAKER: unknown

ABSTRACT. 圧縮技術は昔から研究開発が行われている重要な分野である.今回我々は，Linux のソースや，wikipedia のダンプファイルの配布形式等で用いられている Bzip2 という形式に着目した. Bzip2 は，対称のテキストを数 100kB のブロックに分割し，それぞれについて Burrows-Wheeler transform (BWT) という可逆変換を施し，圧縮を行う.BWT の出力は元のテキストとサイズは同じであるが，同じ文字が連続しやすい変換である.これにより，変換後のテキストはランレングス等で圧縮がしやすい特徴がある.

近年，伊藤らにより，BWT を拡張した Frag- mented BWT (FBWT) という可逆変換が提案された.FBWT はパラメータ k 個の同じ大きさの断片から構成されるデータ構造である.伊藤らの論文によると BWT よりも FBWT の方が state of the art のアルゴリズムに対して 2 倍程度高速に構築できるということが示された.FBWT は，BWT と同様に同じ文字が連続しやすい特徴は継承されている.このため，FBWT を利用することで，Bzip2 より高速で同等程度の圧縮率を期待できる.

本研究では，FBWT を実際に Bzip2 に移植し，その圧縮時間，解凍時間，圧縮率を調査した.その結果，文字が広域に一様に散っているようなテキスト，ゲノムやランダムな文字列については，圧縮時間で 1.4 倍程度，圧縮率と解答時間は元の Bzip2 とほぼ変わらない結果になり従来の Bzip2 よりも良いものであるといえる.しかし，Linux のソースや wikipedia のダンプファイルでは，圧縮時間は 1.6 倍程度高速になったが，圧縮率が最大 1.36 倍低下，解凍時間も最大 1.56 低下する結果になった.

16:30-18:00 Session 7: Poster Session

Chair:

Naoki Fujieda (Toyohashi University of Technology, Japan)

Location: Hall B 2

16:30	Mihiro Sonoyama (School of Engineering, Kyushu University, Japan) Tatsuya Fujii (Kyushu University, Japan) Takatsugu Ono (Kyushu University, Japan) Osamu Muta (Kyushu University, Japan) Koji Inoue (Kyushu University, Japan) アンテナ指向性が受信信号強度デバイス認証法に与える影響 SPEAKER: unknown ABSTRACT. 組込みシステム内における無線通信技術の適用事例が増加している．このようなシステムにおけるセキュリティ問題の一つとして，攻撃者がシステム外部から偽のデータを送信するなりすまし攻撃が存在する．その対策として，受信信号強度を用いたデバイス認証手法が提案された．この手法は自然現象に基づいたものであるため，暗号技術などの情報処理に依存しないという特徴を持つ．通信デバイスを適切に配置し，デバイス認証が成功する物理空間（攻撃可能空間）を組込みシステム内に収めることで，なりすまし攻撃を防ぐことができる．本研究では，送受信機に半波長ダイポールアンテナを想定したモデルを構築し，アンテナ指向性が攻撃可能空間に与える影響を解析する．その結果，無限遠方からの攻撃可能性，ならびに，送信機の設置角度の調整による攻撃可能性が明らかになった．これらを排除するために三つの受信機を用いた攻撃可能空間限定法を提案し，評価を行う．
16:30	Kaihui Zhang (University of Tsukuba, Japan) Yusuke Tanimura (National Institute of Advanced Industrial Science and Technology, Japan) Hidemoto Nakada (National Institute of Advanced Industrial Science and Technology, Japan) Hirotaka Ogawa (National Institute of Advanced Industrial Science and Technology, Japan) Sparkにおけるディスクを用いたRDDキャッシングの高速化と効果的な利用に関する検討 SPEAKER: unknown ABSTRACT. Spark は機械学習やデータマイニングなどの反復計算を高速に実行できる並列データ処理フレームワークである.RDD(Resilient Distributed Dataset)と呼ばれる仕組みを利用してインメモリの並列処理や耐障害性の確保を実現したり，中間データをキャッシングして再利用可能にしている点に特徴がある.扱うデータが大きくメモリ容量が不足する場合には，一部または全部のデータを処理ノードのディスクに置いて処理を行うことも可能である.しかし，ディスクを用いることにより，Spark アプリケーションの実行性能が低下する可能性がある上，このディスク利用の有無をユーザが指示しないといけない問題がある.そこで本研究では，ディスク利用時にアプリケーション(Hibenchベンチマーク)の実行性能を調査し，RDDキャッシングのストレージレベルや性能の異なるディスクを用いた場合について実行性能を比較した.その結果をもとに，ディスク利用時の RDDキャッシングの高速化について検討を行い、ディスクを利用する際を注意すべきいくつかの点を明らかにする。更に提案手法により、ベンチマークの実行性能を向上した。
16:30	黎明曦 (University of Tsukuba, Japan) Yusuke Tanimura (National Institute of Advanced Industrial Science and Technology, Japan) Hidemoto Nakada (National Institute of Advanced Industrial Science and Technology, Japan) 大規模機械学習向けクラスタにおけるネットワークバンド幅とパラメータ交換手法に関する考察 SPEAKER: unknown ABSTRACT. 大規模なデータを対象とする機械学習システムの高速化には並列化が必須である。データ並列機械学習システムにおいては、何らかの方法で機械学習機内のパラメータの値を交換する必要があるが、パラメータ交換手法とネットワーク構造の関係は知られていない。本研究では、ネットワークシミュレータSimGridを用いて、さまざまなネットワークと、パラメータ交換手法を組み合わせて評価を行った。その結果、パラメータ交換手法によっては、ネットワークバイセクションバンド幅の影響をほとんど受けず、比較的貧弱なネットワークでも遜色のない性能で実行できることがわかった。
16:30	Harunobu Daikoku (University of Tsukuba, Japan) Hideyuki Kawashima (University of Tsukuba, Japan) Osamu Tatebe (University of Tsukuba, Japan) 大規模MapReduce実行環境向けShuffle通信のRDMAによる高速化 SPEAKER: unknown ABSTRACT. 本研究では先端ネットワーク技術であるRDMAを活用し，大規模なMapReduce実行環境に適したshuffle通信手法の高速化を行う．shuffle通信手法としてApache Sparkなどの既存実装において採用されているFully-Connectedと，MPIでのall-to-all通信の1手法であるPairwiseの2方式を比較した上で，大規模環境においてより高い性能を示し得る後者に焦点を当て，独自in-memory MapReduce処理系の実装を通してRDMAによる高速化手法を示す．評価実験ではWord Countワークロードを独自処理系及びSpark上で実行し，独自処理系の実装の妥当性を示す．続いてよりshuffle-heavyなワークロードを用いて，RDMAの適用により独自処理系のshuffleフェーズが1 GbE比で3.16倍，IPoIB比で1.44倍高速化することを示す．
16:30	Yuki Ito (Tokyo Institute of Technology, Japan) Ryo Matsumiya (Tokyo Institute of Technology, Japan) Toshio Endo (Tokyo Institute of Technology, Japan) Supporting Deep Neural Networks over GPU Memory Capacity using Memory Hierarchy SPEAKER: unknown ABSTRACT. Deep learning with convolutional neural network (CNN) requires a large number of computations, thus GPUs are used for performance improvement. However, since GPU memory capacity is limited, it is difficult to implement efficient programs that compute large CNN on GPUs.In order to process data exceeding GPU memory capacity, it is necessary to swap out a part of the data to CPU memory.The overhead of data movement can not be ignored. Moreover, the source code becomes complicated. This poster describes the design and implementation of out-of-core cuDNN (ooc_cuDNN) library, which supports to compute CNN exceeding GPU memory capacity using capacity of CPU memory.ooc_cuDNN is an extension of cuDNN, which is high performance and popular deep learning library. ooc_cuDNN divides CNN computation based on its performance model for better performance.With ooc_cuDNN, we successfully computed CNN requiring 45GB memory on a single GPU with 6GB memory. Compared with an in-core case using cuDNN, performance degradation was 7%.
16:30	Ryo Matsumiya (Tokyo Institute of Technology, Japan) Toshio Endo (Tokyo Institute of Technology, Japan) Flash SSDを活用するPGASフレームワークに対する協調キャッシングの導入 SPEAKER: unknown ABSTRACT. DRAM容量を超える問題規模の計算をクラスタマシン上で行うため、我々はPGASフレームワークがノードローカルのFlash SSDを利用する手法について検討している。既存の方法では、SSD上のデータへの読み書きを行う度にSSDへのアクセスを行っていた。ここで問題となるのはSSDとDRAMのレイテンシ及びバンド幅の差である。 DRAMと比較して、SSDは高レイテンシ/低バンド幅であるため、SSDへのアクセスは計算速度の低下を招く。協調キャッシングとは、あるノードが必要としているデータを、そのデータをDRAM上に保持している他のノードから直接転送する手法である。協調キャッシングは主に分散ファイルシステムで用いられているが、これを我々のフレームワークに導入することでSSDへのアクセス回数を削減できる可能性がある。本発表では、PGASフレームワークがDRAM容量を超える問題規模に対応した場合における協調キャッシングの導入について議論する。
16:30	Kasumi Kato (Ochanomizu University, Japan) Atsuko Takefusa (National Institute of Informatics, Japan) Hidemoto Nakada (National Institute of Advanced Industrial Science and Technology, Japan) Masato Oguchi (Ochanomizu University, Japan) ビッグデータ分散処理基盤を用いた機械学習処理並列化の一検討 SPEAKER: Kasumi Kato ABSTRACT. 近年、お年寄りや子供を見守るサービスや防犯カメラなどによるライフログの利用が普及し、多様に活用されるようになってきているが、動画像解析に要する通信量や計算量、プライバシーに関する問題が介在している。また、近年ディープラーニングの技術が非常に発達してきており、画像認識や音声認識を始めとする様々な分野に応用されている。しかし正確な認識処理を行うためには大量のデータ処理が必要となるため、処理の並列化が求められる。そこで本研究では、ディープラーニングフレームワークであるChainerを、クラスタコンピューティングプラットフォームであるApache Spark上で動作させることによる、分散並列機械学習処理に関して検討する。
16:30	Kohei Azuma (The University of Tokyo, Japan) Masaaki Kondo (The University of Tokyo, Japan) 現実空間を意識した物体認識向け訓練データ自動生成システム SPEAKER: unknown ABSTRACT. 畳み込みニューラルネットワーク (CNN) に代表される深層学習は，一般物体認識の分野において目覚ましい成果を上げ，注目されている．実際の応用では，ImageNetのような大規模物体認識データセットによって学習されたパラメータを初期値として，適用先の訓練データで再学習を行うことが一般的である (fine-tuning)．しかし一般的には，適応先の物体画像を大量に取得し，手動でラベル付けすることはコストが大きい．そこで本発表では，IoTセンサを用いたデータセット自動生成システムを提案する．本手法により，従来のラベル付けのコストの大幅な低減が可能であると期待される．
16:30	Ayae Ichinose (Ochanomizu University, Japan) Atsuko Takefusa (National Institute of Informatics, Japan) Hidemoto Nakada (National Institute of Advanced Industrial Science and Technology, Japan) Masato Oguchi (Ochanomizu University, Japan) Apache Sparkのストリーミング機能を利用した機械学習処理の検討 SPEAKER: unknown ABSTRACT. 各種センサの普及やクラウドコンピューティング技術の習熟に伴い一般家庭におけるライフログの利用が普及しているが、動画像解析のようなデータ量，計算量の多い処理をクラウドでリアルタイムに行うことは困難である。また、近年ディープラーニング技術の発達で、その高い精度から画像や音声の認識などに広く用いられているが、計算負荷の高さが問題の一つとなっている。本研究では、大規模データ処理のための高速かつ汎用性の高いエンジンApache Sparkのストリーミング機能を利用して、ディープラーニングフレームワークの一つであるChainerの機械学習処理を行い、動画像データ解析処理の高速化を図る。
16:30	Ushio Jimbo (SOKENDAI (The Graduate University for Advanced Studies), Japan) Junji Yamada (The University of Tokyo, Japan) Masahiro Goshima (Information Systems Architecture Science Research Division, National Institute of Informatics, Japan) 動的タイム・ボローイングを可能にするクロッキング方式の適用 SPEAKER: unknown ABSTRACT. ワースト・ケースより平均的ケースにおける遅延に基づいた動作を実現する手法の一つとして，我々は動的タイム・ボローイングを可能にするクロッキング方式を提案している．このクロッキング方式は，動的なばらつき対策手法である動的タイミング・フォールト検出と二相ラッチによるクロッキング方式の組み合わせにより実現され，動作時にステージ間で実効的な回路遅延を融通することで，ティピカル・ケースに基づく速度で回路を動作させることが可能になる．本論文では，FPGA上の34-bitのリプル・キャリー・アダーを用いたカウンタにこの方式を適用し，通常の単相FF方式に対して1.6倍の周波数で動作することを確認した．
16:30	Keishi Tsukada (Osaka University, Japan) Fumihiko Ino (Osaka University, Japan) Kenichi Hagihara (Osaka University, Japan) GPUサイクル共有を自動化するためのタスク粒度推定手法の検討 SPEAKER: unknown ABSTRACT. 本発表ではGPUサイクル共有システムにおけるゲストの労力を削減するために，タスク粒度を自動的に選択する手法を検討する．サイクル共有システムでは，計算資源提供者（ホスト）のフレームレート維持および科学計算投入者（ゲスト）の計算高速化を両立する必要がある．これらはゲストタスクの粒度を調節することで両立できる．しかし，既存の協調マルチタスク手法は手動による調整を必要とする．そこで，提案手法はホストの遊休時間を推定し，適切なタスク粒度を自動的に選択する．一般に，ホストプログラムを変更することなく遊休時間を計測することは難しい．そこで，ホストのカーネル実行時間を間接的に計測することで，遊休時間を推定する．実験では，フィルタ処理（ホストタスク）のフレームレートを維持しつつ行列計算（ゲストタスク）の実効性能の低下を5%に抑え，適切なタスク粒度を自動的に選択できた．
16:30	Masaru Ito (東京大学大学院情報理工学系研究科電子情報学専攻, Japan) Kenjiro Taura (東京大学大学院情報理工学系研究科電子情報学専攻, Japan) Bzip2+ : FBWTを用いた高速な圧縮 SPEAKER: unknown ABSTRACT. 圧縮技術は昔から研究開発が行われている分野であり，その高速化は重要なテーマである．今回我々は，Linux のソースや，Wikipediaのダンプファイルの配布形式等で用いられているBzip2という形式に着目し，高速化を目指す．Bzip2の実行時間はBurrows-Wheeler transform (BWT) という変換が主に占めており，高速化を目指す本研究ではこの BWTを高速化することが妥当である．近年，我々の研究で，BWTを拡張したFragmented BWT (FBWT)という変換を定義した．このFBWTの変換時間はBWTの最速のアルゴリズムよりも2倍高速であることが示された．そこで，FBWTをBzip2に移植し，その圧縮時間，解凍時間，圧縮率を調査した．その結果，ゲノムやランダムな文字列については，圧縮時間で1．4 倍程度，圧縮率と解凍時間は元のBzip2と変わらない結果になり従来の Bzip2に優っている．しかし， Linuxのソースや Wikipediaのダンプファイルでは，圧縮時間は1．6倍程度高速になったが，圧縮率が最大 1．36 倍低下，解凍時間も最大1．56低下する結果になった．
16:30	Hiroki Nakazawa (The University of Tokyo, Japan) Kenjiro Taura (The University of Tokyo, Japan) AMFS: A File System for Emerging Persistent Memory Supporting Atomic Data Durability SPEAKER: unknown ABSTRACT. Persistent Memory (PM) offers byte-addressability, low latency (comparable to DRAM), and persistency at the same time. AMFS is a file system specialized for PM with a support for atomic data durability and accessibility with common load/store instructions. However, AMFS cannot efficiently handle fine-grained updates to large data and fragmentation caused by writes to random locations in a file. In this poster, I propose a new method for managing allocated blocks in PM so that AMFS can deal with a harsh fragmentation. In addition, AMFS collects dirty pages by catching write exceptions to avoid the entire scan of the page table, which improves performance of repeated fine-grained updates within large data. I also introduce Runtime Policy Switcher (RPS), a novel mechanism dynamically switching the method to collect dirty pages at runtime and reduced the extra overhead of the dynamic collection. The evaluation with microbenchmarks presents that my techniques improved the system throughput up to 85× for fine-grained updates and up to 29× for writes which causes fragmentation compared to the original version of AMFS. The results of benchmarks using KVS shows that my optimized AMFS drastically accelerated the performance of atomic operations in LevelDB.
16:30	Ryo Asai (Graduate School of Information Science and Technology, Osaka University, Japan) Masao Okita (Graduate School of Information Science and Technology, Osaka University, Japan) Kenichi Hagihara (Graduate School of Information Science and Technology, Osaka University, Japan) Apache SparkのGPU利用における効率的なデータ転送の検討 SPEAKER: unknown ABSTRACT. スケーラブルな並列処理が可能なフレームワークとしてApache Sparkがあり，Sparkの高速化を目的としてGPUを利用する試みがある． GPUでは一般にデータ転送がボトルネックになりやすいが，Sparkでは遅延評価を利用して計算を一括処理するため，GPUを利用する場合でも効率良いデータ転送を期待できる．しかし既存実装の1つであるIBMSparkGPUでは，プログラマの明示的な指示がなければ一括処理の間に冗長なデータ転送が行われる．本研究では，プログラマの指示なしに冗長なデータ転送を回避する手法を提案する． Sparkが備えるスケジューラの結果から，GPU上で一括実行可能な処理群を特定し，それらの間のデータ転送を不要と判断する． GPUへのキャッシュ命令を用いて提案手法をIBMSparkGPU上に実装した結果，高々2.4％のオーバヘッドで冗長なデータ転送を回避できた．
16:30	Mitsuru Tomono (FUJITSU LABORATORIES LTD., Japan) Katsuhiro Yoda (FUJITSU LABORATORIES LTD., Japan) Ito Makiko (FUJITSU LABORATORIES LTD., Japan) Takahiro Notsu (FUJITSU LABORATORIES LTD., Japan) Ryosuke Yamanaka (FUJITSU LABORATORIES LTD., Japan) Teruo Ishihara (FUJITSU LABORATORIES LTD., Japan) DNN学習向けプロセッサの電力効率を向上する低精度演算技術の提案 SPEAKER: unknown ABSTRACT. 近年、ニューラルネットワークの大規模化によって、処理データ量が増大し学習時の消費電力が課題となっている。従来、32ビット浮動小数点データで行われていた演算を、16ビットや8ビットの固定小数点化することで、データ量と演算器の縮小により電力を削減する方法がある。しかしながら、単純にビット幅を削減すると演算の精度が低下し、Deep Learningの学習に使用できなくなる。このような事から本案では、学習時にリアルタイムで有効データの範囲および分布を収集し、固定小数点データの表現範囲を調整することで精度を向上させる手法を提案する。これにより、16ビット以下の低精度固定小数点演算を用いて、32ビット浮動小数点演算と同程度の認識率の学習が可能となる。本機能を用いることで、ビット幅に応じたDNN学習の電力効率を向上することができる。今回LeNet、VGGNetに対して、本手法を適用した結果を報告する。
16:30	Kohei Toshimitsu (University of Tokyo, Japan) Kenjiro Taura (University of Tokyo, Japan) Instant Cloud FS : 広域分散環境で即興に構築できる分散ファイルシステム SPEAKER: unknown ABSTRACT. 近年、ビッグデータ処理の需要が高まっている。しかし、処理したいデータが初めから目的のリソース上にあるとは限らない。そこで、分散ファイルシステム(DFS)を導入して、リモートのデータにネットワーク越しですぐにアクセスできるようにすることを考える。しかし、DFSは、一般的に固定されたノードの集合（LAN内、Grid環境など）で構成されることが前提で、NATやFirewallの影響で通信が制限されると構築が困難になる。また、導入に手間がかかるという欠点もある。そこで、これらの問題を解決するために、Instant Cloud FS (ICFS) というDFSを開発した。ICFSでは、手元のPCを構築ノード群に加える、通信が制限された広域分散環境でノード群を構成するという、従来は難しかった環境でDFSを構築できる。また、構成ノード群は、非特権ユーザでもすぐ変更ができ、各ノードでの前作業も少ない。実際に、ICFSは、AWS EC2 20マシン (東京・ソウル10ずつ)、東京大学のクラウド10マシン、手元のPCという、広域分散かつ通信の制限がある環境で構築できるということが確認できている。
16:30	Fangyuan Liao (Zhuhai College of Jilin Univesity, Kochi University of Technology, Japan) Kiminori Matsuzaki (Kochi University of Technology, Japan) Experimental Analysis of Prefix-sums Implementations on multicore clusters SPEAKER: unknown ABSTRACT. Prefix-sums (also knows an scan) is an important computational pattern in parallel programming. There have been several studies on the algorithms of prefix-sums, and recently a new algorithm SAM was proposed by Maleki et al. in PLDI 2016. Though the SAM algorithm was mainly discussed on computing with a GPU, the algorithm itself is available for other environments including clusters with multicore CPUs. In this study, we reproduced the SAM and other standard algorithms for the PC clusters with multicore CPUs, and conducted several experiments to test the performance of them. We will report the experiment results as well as characteristics of the algorithms in the poster.
16:30	Wataru Endo (The University of Tokyo, Japan) Kenjiro Taura (The University of Tokyo, Japan) Parallelized Software Offloading in a Low-Level Communication Layer SPEAKER: unknown ABSTRACT. Software communication layers, which abstract the functions of HPC interconnects, often become bottlenecks of the communication performance as accessing the interconnect hardware requires a relatively high CPU overhead. The recent increase of core counts in modern HPC architectures also raises a scalability problem in communication systems because the intra-node cores share the same communication resources. We consider that we need a new scheme to schedule software communication overheads efficiently in multi-threading systems. So far, we have implemented a low-level communication library that can offload communication requests into the other cores dedicated for communication acceleration. In microbenchmark results, we showed that our offloading architecture was beneficial for both efficient multi-threading and latency hiding. We are currently designing the next prototype system to manage multiple communication resources and multiple communication threads more efficiently than a simple offloading scheme.
16:30	Masanori Sato (Yokohama National University, Japan) Kimio Kuramitsu (Yokohama National University, Japan) 自動運転カープログラムから見たコンテキスト指向プログラミング SPEAKER: unknown ABSTRACT. コンテキスト指向プログラミングは，状況に応じてふるまいが変わる処理を記述するとき、優れた抽象化とモジュール化を提供する。過去に移動ロボットなどのソフトウェア開発への導入が検討されてきた。本研究では，OpenDSによる自動運転カープログラムの開発事例を通して，コンテクスト指向プログラミングの有用性を分析し，ロボット向けに特化した言語設計を提案する。
16:30	裕太各務 (YNU, JAPAN, Japan) 君郎倉光 (YNU, JAPAN, Japan) 解析表現文法エンジンによるIoT エンジン SPEAKER: unknown ABSTRACT. 解析表現文法は，シンプルな記述性と正規表現をうわまわる表現力による構文パターンの記述記法である。解析表現文法エンジンを用いれば，プロトコルパーサからセキュリティフィルタ，イベントハンドリングなどの応用が期待できる。本発表では、IoT応用向けのエンジンの試作を報告する。
16:30	Hitoshi Sato (National Institute of Advanced Industrial Science And Technology (AIST), Japan) Hirotaka Ogawa (National Institute of Advanced Industrial Science And Technology (AIST), Japan) Satoshi Matsuoka (Tokyo Institute of Technology, National Institute of Advanced Industrial Science And Technology (AIST), Japan) Building Software Ecosystems for AI Cloud SPEAKER: unknown ABSTRACT. AI requires various HPC- and Big Data-oriented techniques for supporting highly efficient machine learning, including deep learning and reinforcement learning, combined with computational simulation on large computational resources with huge data sets with images, videos, sounds, and texts, etc. However, existing supercomputers and clouds have a deep chasm in software ecosystems in terms of computational power, user-friendliness, and productivity, etc.; how to achieve the convergence is one of the important issues for building cloud infrastructure for AI. Here, we report a demonstration of AI cloud software stack deployment based on Shifter, Linux Containers for HPC, and Slurm workload manager combined with various deep learning frameworks. We also include discussion about the requirement for AI cloud system software.
16:30	Aleksandr Drozd (Tokyo Institure of Technology, Japan) Satoshi Matsuoka (Tokyo Institute of Technology, Japan) Prototype Modular Framework for Deep Learning Performance Testing SPEAKER: unknown ABSTRACT. We present a prototype modular framework for automatic performance testing across various computational devices (such as multi- and manycore processors, FPGAs and ASICs etc), deep learning frameworks (such as Theano, TensorFlow, MXNet, Chainer etc) and particular deep neural net architectures (from simple kernels like convolutional and LSTM layers to complete networks like VGG or ResNet). The framework is written in Python programming language with extensibility in mind: new components can be easily enabled by adding corresponding plug-ins, while the framework itself is responsible for orchestrating execution, collecting runtime metrics and detailed platform characteristics. Results are stored in human and machine-readable JSON format. The framework also includes essential tools to analyze and plot collected data.

18:00-20:00 Session : Banquet

Chair:

Kenjiro Taura (University of Tokyo, Japan)

Location: Foyer