2024/12/10 更新

写真a

ムクノキ ダイチ
椋木 大地
MUKUNOKI Daichi
所属
情報基盤センター 大規模計算支援環境研究部門 特任助教
職名
特任助教
連絡先
メールアドレス
ホームページ
外部リンク

学位 1

  1. 博士(工学) ( 2013年11月   筑波大学 ) 

研究キーワード 7

  1. 高性能計算

  2. 高精度計算

  3. 自動チューニング

  4. 数値計算

  5. 再現可能な計算

  6. 並列計算

  7. GPUコンピューティング

研究分野 2

  1. 情報通信 / 高性能計算

  2. 情報通信 / 計算機システム

経歴 13

  1. 名古屋大学   情報基盤センター   特任助教

    2024年12月 - 現在

      詳細を見る

    国名:日本国

    researchmap

  2. 芝浦工業大学   システム理工学部 数理科学科   臨時技術職員

    2024年4月 - 2024年11月

      詳細を見る

    国名:日本国

    researchmap

  3. 株式会社 ソニー・インタラクティブエンタテインメント   基盤システム・エクスペリエンス設計本部 G部門 2部 7課

    2023年11月 - 2024年2月

      詳細を見る

    国名:日本国

    researchmap

  4. 特定国立研究開発法人 理化学研究所 計算科学研究センター   大規模並列数値計算技術研究チーム   研究員

    2019年4月 - 2023年10月

      詳細を見る

    国名:日本国

    researchmap

  5. 東京女子大学   理学研究科   特任研究員

    2017年10月 - 2019年3月

      詳細を見る

    国名:日本国

    researchmap

  6. 特定国立研究開発法人 理化学研究所 計算科学研究機構   フラッグシップ2020プロジェクト アーキテクチャ開発チーム   特別研究員

    2017年4月 - 2017年9月

      詳細を見る

    国名:日本国

    researchmap

  7. 独立行政法人 理化学研究所 計算科学研究機構   フラッグシップ2020プロジェクト コデザイン推進チーム   特別研究員

    2015年5月 - 2017年3月

      詳細を見る

    国名:日本国

    researchmap

  8. 独立行政法人 理化学研究所 計算科学研究機構   研究部門 大規模並列数値計算技術研究チーム   特別研究員

    2014年6月 - 2017年9月

      詳細を見る

    国名:日本国

    researchmap

  9. 独立行政法人日本学術振興会   特別研究員(PD)

    2013年12月 - 2014年5月

      詳細を見る

    国名:日本国

    researchmap

  10. 独立行政法人日本学術振興会   特別研究員(DC2)

    2013年4月 - 2013年11月

      詳細を見る

    国名:日本国

    researchmap

  11. 東京大学 情報基盤センター   客員研究員

    2021年11月 - 2023年3月

      詳細を見る

    国名:日本国

    researchmap

  12. 特定国立研究開発法人 理化学研究所 計算科学研究機構   フラッグシップ2020プロジェクト アーキテクチャ開発チーム   客員研究員

    2017年10月 - 2019年3月

      詳細を見る

    国名:日本国

    researchmap

  13. 特定国立研究開発法人 理化学研究所 計算科学研究機構   研究部門 大規模並列数値計算技術研究チーム   客員研究員

    2017年10月 - 2019年3月

      詳細を見る

    国名:日本国

    researchmap

▼全件表示

学歴 4

  1. 筑波大学   システム情報工学研究科

    2011年4月 - 2013年11月

      詳細を見る

    国名: 日本国

    備考: 博士後期課程

    researchmap

  2. 筑波大学   システム情報工学研究科

    2009年4月 - 2011年3月

      詳細を見る

    国名: 日本国

    備考: 博士前期課程

    researchmap

  3. 筑波大学   図書館情報専門学群

    2006年4月 - 2009年3月

      詳細を見る

    国名: 日本国

    researchmap

  4. 岐阜工業高等専門学校   電子制御工学科

    2001年4月 - 2006年3月

      詳細を見る

    国名: 日本国

    researchmap

所属学協会 2

  1. 情報処理学会

    2008年 - 現在

      詳細を見る

  2. 自動チューニング研究会

      詳細を見る

委員歴 34

  1. The 15th International Conference on Parallel Processing & Applied Mathematics (PPAM 2024)   Program Committee Member  

    2024年   

      詳細を見る

  2. Mini Symposium: Exploring Arithmetic and Data Representation Beyond the Standard in HPC (at ICIAM 2023)   Mini-Symposium Organizer  

    2023年   

      詳細を見る

  3. 2023 IEEE 16th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC-2023)   Program Committee Member  

    2023年   

      詳細を見る

  4. Special Session: Performance Optimization and Auto-Tuning of Software on Multicore/Manycore Systems (POAT 2023) (in conjunction with MCSoC-2023)   Program Chair  

    2023年   

      詳細を見る

    団体区分:学協会

    researchmap

  5. The 24th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2023) (in conjunction with IPDPS 2023)   Program Committee Member  

    2023年   

      詳細を見る

  6. The 22nd International Conference on Computational Science (ICCS 2022)   Program Committee Member  

    2022年   

      詳細を見る

  7. 36th IEEE International Parallel & Distributed Processing Symposium (IPDPS 2022)   Program Committee Member (Algorithm track)  

    2022年   

      詳細を見る

  8. The International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2022)   Publicity Chair  

    2022年   

      詳細を見る

  9. 自動チューニング研究会   幹事(交流促進委員会)  

    2021年 - 2023年   

      詳細を見る

    団体区分:学協会

    researchmap

  10. 情報処理学会論文誌コンピューティングシステム   編集委員  

    2020年 - 2024年   

      詳細を見る

    団体区分:学協会

    researchmap

  11. The International Conference for High Performance Computing, Networking, Storage, and Analysis (SC20)   Research Poster Committee Member  

    2020年   

      詳細を見る

  12. The 4th International Workshop on GPU Computing and AI (GCA'19) (in conjunction with CANDAR'19)   Program Committee Member  

    2019年   

      詳細を見る

  13. The Fourteenth International Workshop on Automatic Performance Tuning (iWAPT2019) (in conjunction with IPDPS 2019)   Program Committee Member  

    2019年   

      詳細を見る

  14. The 14th International Conference on Parallel Processing & Applied Mathematics (PPAM 2022)   Program Committee Member  

    2022年   

      詳細を見る

  15. Special Session: Auto-Tuning for Multicore and GPU (ATMG2022) (in conjunction with MCSoC-2022)   Program Chair  

    2022年   

      詳細を見る

  16. IEEE 22nd International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2021) (in conjunction with IPDPS 2021)   Program Committee Member  

    2021年   

      詳細を見る

  17. Workshop on Large-scale Parallel Numerical Computing Technology (LSPANC 2020 January)   Program Committee Member  

    2020年   

      詳細を見る

  18. The 21st IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2020) (in conjunction with IPDPS 2020)   Program Committee Member  

    2020年   

      詳細を見る

  19. 2019 IEEE 13th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC-2019)   Program Committee Member  

    2019年   

      詳細を見る

  20. The 20th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2019) (in conjunction with IPDPS 2019)   Program Committee Member  

    2019年   

      詳細を見る

  21. Mini Symposium: Development of Numerical Computing Software on Emerging Computing Platforms (at SIAM PP 18)   Mini-Symposium Organizer  

    2018年   

      詳細を見る

  22. Special Session: Auto-Tuning for Multicore and GPU (ATMG 2018) (in conjunction with MCSoC-2018)   Program Committee Member  

    2018年   

      詳細を見る

  23. 2018 IEEE 12th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC-2018)   Program Committee Member  

    2018年   

      詳細を見る

  24. The 19th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2018) (in conjunction with IPDPS 2018)   Program Committee Member  

    2018年   

      詳細を見る

  25. The Third International Workshop on GPU Computing and AI (GCA'18) (in conjunction with CANDAR'18)   Program Committee Member  

    2018年   

      詳細を見る

  26. The Thirteenth International Workshop on Automatic Performance Tuning (iWAPT2018) (in conjunction with IPDPS 2018)   Program Committee Member  

    2018年   

      詳細を見る

  27. The Second International Workshop on GPU Computing and AI (GCA'17) (in conjunction with CANDAR'17)   Program Committee Member  

    2017年   

      詳細を見る

  28. The 18th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2017) (in conjunction with IPDPS 2017)   Program Committee Member  

    2017年   

      詳細を見る

  29. The Twelfth International Workshop on Automatic Performance Tuning (iWAPT2017) (in conjunction with IPDPS 2017)   Program Committee Member  

    2017年   

      詳細を見る

  30. Special Session: Auto-Tuning for Multicore and GPU (ATMG 2017) (in conjunction with MCSoC-17)   Program Committee Member  

    2017年   

      詳細を見る

  31. The First International Workshop on GPU Computing and Applications (GCA'16) (in conjunction with CANDAR'16)   Program Committee Member  

    2016年   

      詳細を見る

  32. The 17th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2016) (in conjunction with IPDPS 2016)   Program Committee Member  

    2016年   

      詳細を見る

  33. The 16th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2015) (in conjunction with IPDPS 2015)   Program Committee Member  

    2015年   

      詳細を見る

  34. The 15th IEEE International Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC 2014) (in conjunction with IPDPS 2014)   Program Committee Member  

    2014年   

      詳細を見る

▼全件表示

受賞 9

  1. Best Paper Award

    2023年12月   6th IEEE International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC 2023)   Sparse Matrix-Vector Multiplication with Reduced-Precision Memory Accessor

    Daichi Mukunoki, Masatoshi Kawai, Toshiyuki Imamura

     詳細を見る

    受賞区分:国際学会・会議・シンポジウム等の賞 

    researchmap

  2. Research Poster Award 2nd Place Winner

    2022年6月   ISC High Performance 2022   A Fast Infinite Precision Inner Product using Ozaki Scheme and Dot2, and Its Application to Reproducible Conjugate Gradient Solvers

    Daichi Mukunoki, Katsuhisa Ozaki, Takeshi Ogita, Toshiyuki Imamura

     詳細を見る

  3. 2021年度理化学研究所桜舞賞

    2022年3月   理化学研究所   Precision-awareな数値演算手法の研究

     詳細を見る

  4. Research Poster Award

    2021年6月   ISC High Performance 2021   Accurate Matrix Multiplication on Binary128 using Ozaki Scheme

    Daichi Mukunoki, Katsuhisa Ozaki, Takeshi Ogita, Toshiyuki Imamura

     詳細を見る

  5. Best Research Poster Award

    2019年9月   Russian Supercomputing Days   Accurate and Reproducible Linear Algebra Operations for Many-core Architectures

    Daichi Mukunoki, Takeshi Ogita, Katsuhisa Ozaki

     詳細を見る

  6. PRACE-ISC Research Poster Award 2017

    2017年6月   ISC High Performance 2017   Implementation & Evaluation of 2.5D Matrix Multiplication on K Computer

    Daichi Mukunoki, Toshiyuki Imamura

     詳細を見る

  7. 2016年度山下記念研究賞

    2016年   情報処理学会   NVIDIA GPUにおけるメモリ律速なBLASカーネルのスレッド数自動選択手法

    椋木大地

     詳細を見る

  8. 2013年度コンピュータサイエンス領域奨励賞

    2013年   情報処理学会   GPUにおける高速なCRS形式疎行列ベクトル積の実装

    椋木大地

     詳細を見る

  9. 若手奨励賞

    2013年   情報処理学会計算機アーキテクチャ研究会   GPUにおける4倍精度演算を用いた疎行列反復解法の実装と評価

    椋木大地

     詳細を見る

▼全件表示

 

論文 54

  1. Extension of accurate numerical algorithms for matrix multiplication based on error-free transformation 査読有り

    Katsuhisa Ozaki, Daichi Mukunoki, Takeshi Ogita

    Japan Journal of Industrial and Applied Mathematics     2024年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Springer Science and Business Media LLC  

    DOI: 10.1007/s13160-024-00677-z

    researchmap

    その他リンク: https://link.springer.com/article/10.1007/s13160-024-00677-z/fulltext.html

  2. Reduced-Precision and Reduced-Exponent Formats for Accelerating Adaptive Precision Sparse Matrix–Vector Product 査読有り

    Stef Graillat, Fabienne Jézéquel, Theo Mary, Roméo Molina, Daichi Mukunoki

    Lecture Notes in Computer Science   14803 巻   頁: 17 - 30   2024年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer Nature Switzerland  

    DOI: 10.1007/978-3-031-69583-4_2

    researchmap

  3. Mixed-precision conjugate gradient algorithm using the groupwise update strategy 査読有り

    Kensuke Aihara, Katsuhisa Ozaki, Daichi Mukunoki

    Japan Journal of Industrial and Applied Mathematics     2024年2月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Springer Science and Business Media LLC  

    DOI: 10.1007/s13160-024-00644-8

    researchmap

    その他リンク: https://link.springer.com/article/10.1007/s13160-024-00644-8/fulltext.html

  4. Sparse Matrix-Vector Multiplication with Reduced-Precision Memory Accessor 査読有り

    Daichi Mukunoki, Masatoshi Kawai, Toshiyuki Imamura

    2023 IEEE 16th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC)     頁: 608 - 615   2023年12月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/mcsoc60832.2023.00094

    researchmap

  5. Infinite-Precision Inner Product and Sparse Matrix-Vector Multiplication Using Ozaki Scheme with Dot2 on Manycore Processors 査読有り

    Daichi Mukunoki, Katsuhisa Ozaki, Takeshi Ogita, Toshiyuki Imamura

    Parallel Processing and Applied Mathematics     頁: 40 - 54   2023年4月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer International Publishing  

    DOI: 10.1007/978-3-031-30442-2_4

    researchmap

  6. Task Scheduling Strategies for Batched Basic Linear Algebra Subprograms on Many-core CPUs 査読有り

    Daichi Mukunoki, Yusuke Hirota, Toshiyuki Imamura

    Proc. 2021 IEEE 14th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC)     頁: 234 - 241   2021年12月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  7. A Rapid Euclidean Norm Calculation Algorithm that Reduces Overflow and Underflow. 査読有り

    Takeyuki Harayama, Shuhei Kudo, Daichi Mukunoki, Toshiyuki Imamura, Daisuke Takahashi

    Proc. The 2021 International Conference on Computational Science and Its Applications (ICCSA 2021), Lecture Notes in Computer Science   12949 巻   頁: 95 - 110   2021年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-86653-2_7

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/iccsa/iccsa2021-1.html#HarayamaKMIT21

  8. Accurate Matrix Multiplication on Binary128 Format Accelerated by Ozaki Scheme 査読有り

    Daichi Mukunoki, Katsuhisa Ozaki, Takeshi Ogita, Toshiyuki Imamura

    Proc. The 50th International Conference on Parallel Processing (ICPP-2021)     2021年8月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  9. Matrix Engines for High Performance Computing: A Paragon of Performance or Grasping at Straws? 査読有り

    Jens Domke, Emil Vatai, Aleksandr Drozd, Peng Chen, Yosuke Oyama, Lingqi Zhang 0001, Shweta Salaria, Daichi Mukunoki, Artur Podobas, Mohamed Wahib, Satoshi Matsuoka

    Proc. 35th IEEE International Parallel & Distributed Processing Symposium (IPDPS 2021)     頁: 1056 - 1065   2021年6月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/IPDPS49936.2021.00114

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ipps/ipdps2021.html#DomkeVDCO0SMPWM21

  10. Conjugate Gradient Solvers with High Accuracy and Bit-wise Reproducibility between CPU and GPU using Ozaki scheme. 査読有り

    Daichi Mukunoki, Katsuhisa Ozaki, Takeshi Ogita, Roman Iakymchuk

    Proc. The International Conference on High Performance Computing in Asia-Pacific Region (HPCAsia 2021)     頁: 100 - 109   2021年1月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ACM  

    DOI: 10.1145/3432261.3432270

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/hpcasia/hpcasia2021.html#MukunokiOOI21

  11. Can We Avoid Rounding-Error Estimation in HPC Codes and Still Get Trustworthy Results? 査読有り

    Fabienne Jézéquel, Stef Graillat, Daichi Mukunoki, Toshiyuki Imamura, Roman Iakymchuk

    Proc. 13th International Workshop on Numerical Software Verification 2020 (NSV 20), Lecture Notes in Computer Science   12549 巻   頁: 163 - 177   2020年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-63618-0_10

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/vstte/vstte2020.html#JezequelGMII20

  12. Performance and energy consumption of accurate and mixed-precision linear algebra kernels on GPUs. 査読有り

    Daichi Mukunoki, Takeshi Ogita

    J. Comput. Appl. Math.   372 巻   頁: 112701 - 112701   2020年7月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Elsevier {BV}  

    DOI: 10.1016/j.cam.2019.112701

    researchmap

  13. DGEMM Using Tensor Cores, and Its Accurate and Reproducible Versions 査読有り

    Daichi Mukunoki, Katsuhisa Ozaki, Takeshi Ogita, Toshiyuki Imamura

    Proc. ISC High Performance 2020, Lecture Notes in Computer Science   12151 巻   頁: 230 - 248   2020年6月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-50743-5_12

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/supercomputer/isc2020.html#MukunokiOOI20

  14. Design of an FPGA-Based Matrix Multiplier with Task Parallelism. 査読有り

    Yiyu Tan, Toshiyuki Imamura, Daichi Mukunoki

    Proc. International Conference on Parallel Computing (ParCo2019), Parallel Computing: Technology Trends   36 巻   頁: 241 - 250   2019年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IOS Press  

    DOI: 10.3233/APC200047

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/parco/parco2019.html#TanIM19

  15. Reproducible BLAS Routines with Tunable Accuracy Using Ozaki Scheme for Many-Core Architectures. 査読有り

    Daichi Mukunoki, Takeshi Ogita, Katsuhisa Ozaki

    Proc. 13th International Conference on Parallel Processing and Applied Mathematics (PPAM2019), Lecture Notes in Computer Science   12043 巻   頁: 516 - 527   2019年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-43229-4_44

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ppam/ppam2019-1.html#MukunokiOO19

  16. Performance Analysis of 2D-compatible 2.5D-PDGEMM on Knights Landing Cluster. 査読有り

    Daichi Mukunoki, Toshiyuki Imamura

    Proc. International Conference on Computational Science (ICCS 2018), Lecture Notes in Computer Science   10862 巻   頁: 853 - 858   2018年6月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-319-93713-7_85

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/iccS/iccS2018-3.html#MukunokiI18

  17. Design Towards Modern High Performance Numerical LA Library Enabling Heterogeneity and Flexible Data Formats. 査読有り

    Toshiyuki Imamura, Daichi Mukunoki, Yusuke Hirota, Susumu Yamada, Masahiko Machida

    Proc. International Conference on Parallel Computing (ParCo2017), Advances in Parallel Computing     頁: 97 - 106   2017年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IOS Press  

    DOI: 10.3233/978-1-61499-843-3-97

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/parco/parco2017.html#ImamuraMHYM17

  18. Implementation and Performance Analysis of 2.5D-PDGEMM on the K Computer. 査読有り

    Daichi Mukunoki, Toshiyuki Imamura

    Proc. 12th International Conference on Parallel Processing and Applied Mathematics (PPAM2017), Lecture Notes in Computer Science   10777 巻   頁: 348 - 358   2017年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-319-78024-5_31

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ppam/ppam2017-1.html#MukunokiI17

  19. Automatic Thread-Block Size Adjustment for Memory-Bound BLAS Kernels on GPUs. 査読有り

    Daichi Mukunoki, Toshiyuki Imamura, Daisuke Takahashi

    Proc. IEEE 10th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC-16)     頁: 377 - 384   2016年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE Computer Society  

    DOI: 10.1109/MCSoC.2016.32

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/mcsoc/mcsoc2016.html#MukunokiIT16

  20. Reduced-Precision Floating-Point Formats on GPUs for High Performance and Energy Efficient Computation. 査読有り

    Daichi Mukunoki, Toshiyuki Imamura

    Proc. IEEE International Conference on Cluster Computing (Cluster 2016)     頁: 144 - 145   2016年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE Computer Society  

    DOI: 10.1109/CLUSTER.2016.77

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/cluster/cluster2016.html#MukunokiI16

  21. Fast Implementation of General Matrix-Vector Multiplication (GEMV) on Kepler GPUs. 査読有り

    Daichi Mukunoki, Toshiyuki Imamura, Daisuke Takahashi

    Proc. 23rd Euromicro International Conference on Parallel, Distributed and Network-based Processing (PDP 2015)     頁: 642 - 650   2015年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE Computer Society  

    DOI: 10.1109/PDP.2015.66

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/pdp/pdp2015.html#MukunokiIT15

  22. GPUにおける3倍・4倍精度浮動小数点演算の実現と性能評価 査読有り

    椋木 大地, 高橋 大介

    情報処理学会論文誌コンピューティングシステム(ACS)   6 巻 ( 1 ) 頁: 66 - 77   2013年1月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   出版者・発行元:情報処理学会  

    本論文では GPU において 3 倍・ 4 倍精度浮動小数点演算を実現し,線形計算への適用例として Level 1-3 の代表的な BLAS (Basic Linear Algebra Subprograms) ルーチンである AXPY, GEMV, GEMM を実装して性能評価を行った結果を示す. 4 倍精度演算には Double-Double 型 (DD型) の 4 倍精度演算 (DD演算) を用いた.一方で 3 倍精度演算として新たに, Double+Single 型 (D+S型) ・Double+Int 型 (D+I型) の 3 倍精度フォーマットを提案し,内部の計算に DD 演算を用いることで 3 倍精度演算を行う手法を実装した. NVIDIA Tesla M2090 における性能評価では, 3 倍・ 4 倍精度の AXPY・GEMV がメモリ律速となり,その実行時間はデータサイズに比例して,単精度ルーチンに対しておよそ 3 倍, 4 倍となることを示した.我々が提案した 3 倍精度演算は, 3 倍精度データに対する DD 演算がメモリ律速となるケースにおいて, 4 倍精度演算に対する速度面での利点が主張できる. 4 倍精度は必要ないが倍精度では精度が不足する場合では,特に PCI Express やネットワークの帯域が性能のボトルネックとなりやすい GPU クラスタ環境などで, 4 倍精度に対する 3 倍精度の有効性が期待できる.We have implemented triple and quadruple precision floating-point operations on GPUs. As an example of the application of linear algebra operations, we have implemented triple and quadruple precision subroutines of the Basic Linear Algebra Subprograms (BLAS), AXPY, GEMV and GEMM, and evaluated their performance. For quadruple precision, we used Double-Double (DD) type quadruple precision operations (DD-operations). On the other hand, in our research we are proposing Double+Single (D+S) and Double+Int (D+I) type triple precision floating-point formats and triple precision operations that use DD-operations internally. On an NVIDIA Tesla M2090, the triple and quadruple precision AXPY and GEMV are memory-bound. Therefore, the execution time of the triple and quadruple precision operations is approximately 3x and 4x that of the single precision, respectively. Our triple precision operations have the advantage of speed compared to quadruple precision, in cases where the triple precision operations are memory-bound. In cases where quadruple precision is not required, but double precision is insufficient, we predict that our triple precision operations will perform well, especially in environments such as GPU clusters where the bandwidth of the PCI Express and the network may become bottlenecks.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00089921/

  23. Optimization of Sparse Matrix-Vector Multiplication for CRS Format on NVIDIA Kepler Architecture GPUs. 査読有り

    Daichi Mukunoki, Daisuke Takahashi

    Proc. 13th International Conference on Computational Science and Its Applications (ICCSA 2013), Part V, Lecture Notes in Computer Science   7975 巻   頁: 211 - 223   2013年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-642-39640-3_15

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/iccsa/iccsa2013-5.html#MukunokiT13

  24. Using Quadruple Precision Arithmetic to Accelerate Krylov Subspace Methods on GPUs. 査読有り

    Daichi Mukunoki, Daisuke Takahashi

    Proc. 10th International Conference on Parallel Processing and Applied Mathematics (PPAM 2013), Part I, Workshop on Numerical Algorithms on Hybrid Architectures, Lecture Notes in Computer Science   8384 巻   頁: 632 - 642   2013年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-642-55224-3_59

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ppam/ppam2013-1.html#MukunokiT13

  25. Implementation and Evaluation of Triple Precision BLAS Subroutines on GPUs. 査読有り

    Daichi Mukunoki, Daisuke Takahashi

    Proc. 2012 IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW 2012), The 13th Workshop on Parallel and Distributed Scientific and Engineering Computing (PDSEC-12)     頁: 1378 - 1386   2012年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE Computer Society  

    DOI: 10.1109/IPDPSW.2012.175

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/ipps/ipdps2012w.html#MukunokiT12

  26. GPUによる4倍・8倍精度BLASの実装と評価 査読有り

    椋木 大地, 高橋 大介

    ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集   2011 巻 ( 2011 ) 頁: 148 - 156   2011年1月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語  

    researchmap

  27. Implementation and Evaluation of Quadruple Precision BLAS Functions on GPUs. 査読有り

    Daichi Mukunoki, Daisuke Takahashi

    Proc. 10th International Conference on Applied Parallel and Scientific Computing (PARA 2010), Part I, Lecture Notes in Computer Science   7133 巻   頁: 249 - 259   2010年

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-642-28151-8_25

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/conf/para/para2010-1.html#MukunokiT10

  28. Performance Evaluation of Adaptive-Precision SpMV with Reduced-Precision Formats

    Stef Grailla, Fabienne Jézéquel, Théo Mary, Roméo Molina, Daichi Mukunoki

    HAL   hal-04261073 巻   2023年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(その他学術会議資料等)  

    researchmap

  29. White Paper from Workshop on Large-scale Parallel Numerical Computing Technology (LSPANC 2020): HPC and Computer Arithmetic toward Minimal-Precision Computing.

    Roman Iakymchuk, Daichi Mukunoki, Artur Podobas, Fabienne Jézéquel, Toshiyuki Imamura, Norihisa Fujita, Jens Huthmann, Shuhei Kudo, Yiyu Tan, Jens Domke, Kai Torben Ohlhus, Takeshi Fukaya, Takeo Hoshi, Yuki Murakami, Maho Nakata, Takeshi Ogita, Kentaro Sano, Taisuke Boku

    CoRR   abs/2004.04628 巻   2020年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    In numerical computations, precision of floating-point computations is a key factor to determine the performance (speed and energy-efficiency) as well as the reliability (accuracy and reproducibility). However, precision generally plays a contrary role for both. Therefore, the ultimate concept for maximizing both at the same time is the minimal-precision computing through precision-tuning, which adjusts the optimal precision for each operation and data. Several studies have been already conducted for it so far (e.g. Precimoniuos and Verrou), but the scope of those studies is limited to the precision-tuning alone. Hence, we aim to propose a broader concept of the minimal-precision computing system with precision-tuning, involving both hardware and software stack. In 2019, we have started the Minimal-Precision Computing project to propose a more broad concept of the minimal-precision computing system with precision-tuning, involving both hardware and software stack. Spe cifically, our system combines (1) a precision-tuning method based on Discrete Stochastic Arithmetic (DSA), (2) arbitrary-precision arithmetic libraries, (3) fast and accurate numerical libraries, and (4) Field-Programmable Gate Array (FPGA) with High-Level Synthesis (HLS). In this white paper, we aim to provide an overview of various technologies related to minimal- and mixed-precision, to outline the future direction of the project, as well as to discuss current challenges together with our project members and guest speakers at the LSPANC 2020 workshop; https://www.r-ccs.riken.jp/labs/lpnctrt/lspanc2020jan/.

    arXiv

    researchmap

    その他リンク: https://dblp.uni-trier.de/db/journals/corr/corr2004.html#abs-2004-04628

  30. GPUの単精度演算・Tensorコアを用いた行列積のエラーフリー変換

    尾崎克久, 椋木大地, 荻田武史

    日本応用数理学会年会講演予稿集(CD-ROM)   2020 巻   2020年

     詳細を見る

  31. 尾崎スキームを用いたbinary128による4倍精度行列積

    椋木大地, 尾崎克久, 荻田武史

    日本応用数理学会年会講演予稿集(CD-ROM)   2020 巻   2020年

     詳細を見る

  32. オーバー・アンダーフローを抑えた高精度かつ高速な2ノルム計算手法

    原山赳幸, 工藤周平, 椋木大地, 今村俊幸, 高橋大介

    情報処理学会研究報告(Web)   2020 巻 ( HPC-177 )   2020年

     詳細を見る

  33. 尾崎スキームによる高精度かつ再現性のあるBLAS実装

    椋木大地, 荻田武史, 尾崎克久, 今村俊幸

    日本応用数理学会年会講演予稿集(CD-ROM)   2019 巻   2019年

     詳細を見る

  34. Level-3BLASに基づく高精度行列積計算法による高精度かつ再現性のあるBLASルーチンの実装とその最適化

    椋木大地, 荻田武史, 尾崎克久

    情報処理学会研究報告(Web)   2018 巻 ( HPC-166 )   2018年

     詳細を見る

  35. 京コンピュータにおける2.5次元アルゴリズムを用いた分散並列行列積の実装と評価

    椋木大地, 今村俊幸

    情報処理学会研究報告(Web)   2017 巻 ( HPC-159 )   2017年

     詳細を見る

  36. KMATHLIB-京コンピュータにおける高性能かつスケーラブルな数値計算ライブラリ-

    大井祥栄, 廣田悠輔, 椋木大地, 今村俊幸

    日本応用数理学会年会講演予稿集(CD-ROM)   2016 巻   2016年

     詳細を見る

  37. 大規模並列計算機における連立一次方程式の精度保証付き数値計算に対する性能評価

    森倉悠介, 椋木大地, 深谷猛, 山中脩也, 大石進一

    情報処理学会研究報告(Web)   2016 巻 ( HPC-157 )   2016年

     詳細を見る

  38. コンシューマレンジのGPUに最適化した固有値ソルバーの実装と評価

    今村俊幸, 椋木大地

    情報処理学会研究報告(Web)   2016 巻 ( HPC-157 )   2016年

     詳細を見る

  39. CUDA-BLAS等の選択による最速GPU固有値ソルバーの性能評価

    今村俊幸, 今村俊幸, 椋木大地, 山田進, 山田進, 町田昌彦, 町田昌彦

    情報処理学会研究報告(Web)   2015 巻 ( HPC-148 )   2015年

     詳細を見る

  40. 短尺浮動小数点形式の検討

    椋木大地, 今村俊幸

    情報処理学会研究報告(Web)   2015 巻 ( HPC-152 )   2015年

     詳細を見る

  41. 京・FX10における倍々精度演算の高速化

    佐々木信一, 菱沼利彰, 藤井昭宏, 田中輝雄, 椋木大地, 今村俊幸

    情報処理学会研究報告(Web)   2015 巻 ( HPC-151 )   2015年

     詳細を見る

  42. SYMV・GEMVルーチン群のマルチGPU化とその評価

    今村俊幸, 今村俊幸, 椋木大地, 山田進, 山田進, 町田昌彦, 町田昌彦

    情報処理学会研究報告(Web)   2015 巻 ( HPC-151 )   2015年

     詳細を見る

  43. NVIDIA GPUにおけるメモリ律速なBLASカーネルのスレッド数自動選択手法

    椋木大地, 今村俊幸, 高橋大介

    情報処理学会研究報告(Web)   2015 巻 ( HPC-150 )   2015年

     詳細を見る

  44. NVIDIA GPUにおけるGEMVカーネルの自動チューニング

    椋木大地, 今村俊幸, 高橋大介

    計算工学講演会論文集(CD-ROM)   20 巻   2015年

     詳細を見る

  45. FFTを使った時間発展問題における累積誤差

    佐々成正, 山田進, 町田昌彦, 椋木大地, 今村俊幸

    日本応用数理学会年会講演予稿集(CD-ROM)   2015 巻   2015年

     詳細を見る

  46. CUDA-xSYMVの実装と評価

    今村俊幸, 今村俊幸, 椋木大地, 山田進, 山田進, 町田昌彦, 町田昌彦

    情報処理学会研究報告(Web)   2014 巻 ( HPC-146 )   2014年

     詳細を見る

  47. MaxwellアーキテクチャGPUにおける疑似倍精度演算を用いたDGEMMの実装と評価

    椋木大地, 今村俊幸

    情報処理学会研究報告(Web)   2014 巻 ( ARC-213 )   2014年

     詳細を見る

  48. GPUにおける高速なCRS形式疎行列ベクトル積の実装

    椋木大地, 高橋大介

    研究報告ハイパフォーマンスコンピューティング(HPC)   2013 巻 ( 5 ) 頁: 1 - 7   2013年2月

     詳細を見る

    記述言語:日本語  

    疎行列ベクトル積 (SpMV) は科学技術計算において多用される重要な基本演算である.本稿では GPU における高速な CRS 形式 SpMV の実装について報告する.GPU として NVIDIA 社の Kepler アーキテクチャを対象とし,CUDA5.0 環境において実装を行った.従来の Fermi アーキテクチャまでの GPU を対象に提案されていた実装手法をベースに,Kepler アーキテクチャで新たにサポートされた機能や仕様変更を活用して,最適化を行った.Kepler アーキテクチャの Tesla K20 における性能評価では,CUDA5.0 に付属の cuSPARSE における CRS 形式の倍精度 SpMV ルーチンに対して,200 種類の行列において,平均で約 1.86 倍,177 種類の行列で性能向上を達成した.

    CiNii Books

    researchmap

  49. GPUにおける4倍精度浮動小数点演算を用いたクリロフ部分空間法の高速化

    椋木大地, 椋木大地, 高橋大介

    情報処理学会研究報告(Web)   2013 巻 ( HPC-140 )   2013年

     詳細を見る

  50. GPUにおける4倍精度演算を用いた疎行列反復解法の実装と評価

    椋木大地, 高橋大介

    情報処理学会研究報告(CD-ROM)   2012 巻 ( 5 )   2013年

     詳細を見る

  51. GPUにおける4倍精度演算を用いた疎行列反復解法の実装と評価

    椋木大地, 高橋大介

    研究報告ハイパフォーマンスコンピューティング(HPC)   2012 巻 ( 37 ) 頁: 1 - 8   2012年12月

     詳細を見る

    記述言語:日本語  

    疎行列の反復解法として用いられるクリロフ部分空間法は,丸め誤差の影響によって収束までの反復回数が増加したり,収束しなくなるケースがある.このような場合に高精度演算を用いることで収束性を改善できるケースがあることが報告されている.このとき,高精度演算を行うことによる1反復あたりの計算時間の増大に対して,反復回数の削減による計算時間の短縮効果が大きければ,求解までの計算時間を短縮できる可能性がある.我々は GPU (Tesla M2050) において Double-Double (DD) 演算による 4 倍精度を用いて,クリロフ部分空間法の一つである BiCGStab 法を実装し性能を評価した. GPU 上では 4 倍精度 BiCGStab 法の 1 反復あたりの計算時間が,倍精度の約 1.0-2.2 倍となり,反復回数の削減量によっては, 4 倍精度演算を用いることで求解までの計算時間を短縮できる場合が存在した.本稿では GPU 上の疎行列反復解法における 4 倍精度演算の性能と有効性について検討する.

    CiNii Books

    researchmap

  52. GPUによる3倍精度浮動小数点演算の検討

    椋木大地, 高橋大介

    情報処理学会研究報告(CD-ROM)   2011 巻 ( 4 )   2011年

     詳細を見る

  53. GPUによる4倍精度BLASの実装と評価

    椋木大地, 高橋大介

    計算工学講演会論文集   15 巻 ( 2 )   2010年

     詳細を見る

  54. GPUによる4倍精度BLASの実装と評価

    椋木大地, 高橋大介

    情報処理学会研究報告(CD-ROM)   2009 巻 ( 4 )   2009年

     詳細を見る

▼全件表示

科研費 6

  1. 次世代計算機のための高精度かつ精度検証可能な行列計算法の開発

    研究課題/研究課題番号:20KK0259  2022年4月 - 2023年10月

    日本学術振興会  科学研究費助成事業 国際共同研究加速基金(国際共同研究強化(A))  国際共同研究加速基金(国際共同研究強化(A))

    椋木 大地

      詳細を見る

    担当区分:研究代表者 

    配分額:9230000円 ( 直接経費:7100000円 、 間接経費:2130000円 )

    researchmap

  2. 超並列計算環境のための高精度かつ再現性のある行列計算ライブラリの開発

    研究課題/研究課題番号:19K20286  2019年4月 - 2022年3月

    日本学術振興会  科学研究費助成事業 若手研究  若手研究

    椋木 大地

      詳細を見る

    本研究の目的は数値計算における計算の高精度化および再現性の保証を実現し,かつ最先端の超並列計算機アーキテクチャにおいて高性能を実現できるBLASライブラリの開発を行うことである.本研究では4つの手法:(1)尾崎スキーム,(2)ExBLASスキーム,(3)DotKスキーム,(4)CADNAスキームに着目し,このうち(1)を主たる手法として検討する.
    2019年度は主として(1)(4)に関する進捗が得られた.(1)に関してはCPU・GPU向けのBLASの基本ルーチンを開発し,オープンソースソフトウェアとして公開した.またこれらに関する査読付き論文を国際学会(PPAM2019)において発表した.さらにその応用として,疎行列反復解法(CG法)への適用,FP16の活用に関する研究を前倒しして実施した(これらは当初2021年度の実施を予定していた).このうち後者については,FP16/32の混合精度ハードウェアであるTensor Coresを活用して高速に高精度・再現性のある実装を行う方法を開発し,査読付き論文が国際学会(ISC2020)に採択された.また(4)CADNAスキームについては,その開発元であり共同研究を進めているソルボンヌ大学側で新しい手法が考案され,共著者として参加した論文を国際学会に投稿した(プレプリント公開済み,現在査読中).
    一方,計算結果の精度を担保しながら数値計算に用いられる演算精度を最適化して計算の高速化,省電力化を実現する方法の研究を開始した.本科研費課題で取り組む上記(1)-(4)の手法はその要素技術となりうるため,本研究の応用として位置付けられる.これに関しては本年度は国際会議(SC19)での査読付きポスター発表を行った.

    researchmap

  3. 高性能・省電力な計算のための短尺浮動小数点表現の検討

    研究課題/研究課題番号:16K16062  2016年4月 - 2019年3月

    日本学術振興会  科学研究費助成事業 若手研究(B)  若手研究(B)

    椋木 大地

      詳細を見る

    本研究では数値計算において広く用いられている32/64ビットのIEEE浮動小数点フォーマットに対して,ビット長が短い短尺フォーマットを導入することにより,計算の高速化と省電力化が可能であるかを検討した.ソフトウェアによる軽量な実装方法を検討するとともに,主にGPUをターゲットとして,数値計算に用いられる基本的な線形計算カーネルで性能がデータアクセス律速となるものにおいて,計算速度と電力性能の両面での有効性を示した.

    researchmap

  4. GPUスパコンのための3倍・4倍精度線形演算ライブラリの開発に関する研究

    研究課題/研究課題番号:13J01290  2013年4月 - 2015年3月

    日本学術振興会  科学研究費助成事業 特別研究員奨励費  特別研究員奨励費

    椋木 大地

      詳細を見る

    本研究の目的は,GPUスパコンにおける3倍・4倍精度演算の実用化を目的として,GPUにおける高性能な3倍・4倍精度線形計算ライブラリの実現に向けた基礎研究を行うことであった.本年度は主として,GPUにおける複数の演算精度に対応した線形計算ライブラリの効率的な実装手法に関する研究を行った,その結果として,複数のNVIDIA GPUアーキテクチャに対応した高速な行列ベクトル積ルーチン(GEMV)の実装手法を開発した.本実装ではGPUにおけるプログラムの実行メカニズムをモデル化し,実行効率が最大となるようなスレッドブロックサイズを自動的に決定するオンライン自動チューニングを採用する.これにより既存の実装と比べ,実行環境や問題サイズに依存して生じる性能の変動を防ぎ,常に高い性能を維持できる.本手法は,ある線形計算を行うプログラム(例えばBLASルーチンなど)において演算精度が異なる複数バージョンを実装・最適化する上で有効であると考えられる.またこの他に,4倍精度演算手法の応用として,倍精度演算性能が単精度演算性能の1/32であるNVIDIA社の最新GPUにおいて,ソフトウェアエミュレーションによる疑似倍精度演算を実装し,倍精度行列積ルーチン(DGEMM)においてハードウェア処理による実装を上回る性能が得られることを示した.本年度に開発したGPU向けソフトウェアの一部は,オープンソースのライブラリとしてウェブ上で公開しており,今後も開発を継続する予定である.

    researchmap

  5. エクサ時代の非同期タスクを応用した高性能高次元数値線形代数の研究

    研究課題/研究課題番号:19H04127  2019年4月 - 2022年3月

    日本学術振興会  科学研究費助成事業 基盤研究(B)  基盤研究(B)

    今村 俊幸, 工藤 周平, 廣田 悠輔, 鈴木 智博, 椋木 大地, 鈴木 厚

      詳細を見る

    担当区分:研究分担者 

    本年度は、研究計画の初年度として本基盤研究が目指す数値計算アルゴリズム由来の難スケジューリングについて調査とプロトタイプ実装による効果と問題点の絞りだしを行った。問題点は今後整理し、スケジューラプロトタイプの主要機能として実装を進める。数値計算アルゴリズム由来のスケジューリング調査について、まず、バッチスケジュール方式を中心とした、内部での細粒度パイプライン処理方式の開発と実問題でのテストを行い、スケジューリング方式の予備調査として中間結果を国際会議に発表している(高次FFTと粗密混合精度行列計算)。非同期ならびに優先度付きスケジューリングについては、本研究の中核をなす新規提案であり十分な予備調査と試験実装が行われた。特に, 既存言語であるOpenMPのtask構文とpriority句などの優先順位付けのアルゴリズムと我々が所望する数値アルゴリズムとの整合性(機能実現性・親和性・表現能力も含めて)研究を実施し国内外の研究会で報告をしている。行列分解アルゴリズムをCPU/GPUハイブリッド環境上に実装し、同実装においてpriority句によるタスクの優先順位付けにより、並列実行可能なタスクを部分的に増加できることが分かったが、その効果はさほど大きくないなどの結果を得ている。既存スケジューラの機能調査として, INRIAが開発をしているStarPUを調査し、 その内部機能や基本性能を確認した。実情は我々がDissectionで構成しているタスクスケジューラよりもオーバーヘッドが大きく定量的に20~30%の性能低下が見込まれれた. さらに既存スケジューラで活用されているDAGの表現能力についても調査し, LDU分解の限られた範囲であるが数値計算アルゴリズムにDAGの記述能力が問題にならないなど、次年度に展開する良好な調査結果を得ることができた。

    researchmap

  6. O(1億)コア環境におけるスケーラブルな数値計算ソフトウェアの理論と応用

    研究課題/研究課題番号:15H02709  2015年4月 - 2018年3月

    日本学術振興会  科学研究費助成事業 基盤研究(B)  基盤研究(B)

    今村 俊幸, 大井 祥栄, 深谷 猛, 廣田 悠輔, 椋木 大地, 山本 有作, 藤堂 眞治

      詳細を見る

    本研究は、数万から数億のコアプロセッサが搭載される計算システム環境下において、過去に蓄積された高性能な数値計算サービスを新しい数学原理に基づき実現することを目的にし、「異粒度数値カーネル構築」と共に「非同期的な数値計算アルゴリズム」の2大テーマのもと、1)非同期的数値計算アルゴリズムに関する理論と実用レベルにある省通信・省同期アルゴリズムについて研究しCAHTRやFDTD向けの手法を提案した。更に、2)超メニイコアでのスケーラブルな軽量コード生成のための自動チューニングなどの核基盤技術研究を推進し次世代数値計算ソフトウェアの新技術創出に繋がる新機軸探究を進めた。

    researchmap

▼全件表示

 

担当経験のある科目 (本学以外) 1

  1. 情報処理技法(リテラシ)II

    2018年9月 - 2019年1月 東京女子大学)

     詳細を見る