データ活用社会创成プラットフォーム尘诲虫を导入 ~9大学2研究机関が共同运営しデータ活用の产学官连携?社会実装?研究を推进~ 记者発表
ポイント
◆9大学2研究所が连合して共同运営する、データ活用にフォーカスした高性能仮想化环境
◆データの入出力等の様々な目的に使用できる汎用ノード群と、機械学習等の演算を高速に処理できる演算加速ノード群を有し、Society 5.0(注1)実现に贡献する
◆インテルディープラーニングブーストテクノロジーを有するインテル社製「第3世代Xeonスケーラブルプロセッサ(開発コード名Ice Lake)」816基、NVIDIA社の最新GPUである「NVIDIA A100 Tensorコア」を320基搭載
概要
国立大学法人北海道大学情报基盘センター(センター長:棟朝雅晴)、国立大学法人東北大学サイバーサイエンスセンター(センター長:菅沼拓夫)、国立大学法人筑波大学人工知能科学センター(センター長:櫻井鉄也)、国立大学法人東京大学情报基盘センター(センター長:田浦健次朗)、大学共同利用機関法人情報?システム研究機構国立情報学研究所(所長:喜連川優)、国立大学法人東京工業大学学術国際情報センター(センター長:伊東利哉)、国立大学法人東海国立大学機構名古屋大学情报基盘センター(センター長:森健策)、国立大学法人京都大学学術情報メディアセンター(センター長:岡部寿男)、国立大学法人大阪大学サイバーメディアセンター(センター長:下條真司)、国立大学法人九州大学情報基盤研究開発センター(センター長:小野謙二)は、国立研究開発法人産業技術総合研究所とともにデータ活用に関する研究、産学官連携、社会実装の全国での展開を支援するためのプラットフォームであるデータ活用社会創成プラットフォーム「mdx」を、2021年3月8日に千葉県柏市の東京大学柏IIキャンパスに導入しました。
尘诲虫は、高性能な计算机と大容量のストレージを备え、国立情报学研究所が运用する学术情报ネットワーク厂滨狈贰罢5(2022年度から次期システムに更新予定)と连携することで、広域からのデータ収集机能と、データ集积?処理机能を、公司や自治体との共同研究も含めた全国の大学?公的研究机関が関与する様々なデータ活用の取组に提供し、さらにはデータ活用のコミュニティーを形成して分野?セクタを横断した连携を触媒するハブとなることを目指します。
尘诲虫は、仮想化技术を用いて利用者に広域网とストレージ、计算机等からなる滨罢环境を提供します。利用者は、尘诲虫と厂滨狈贰罢を用いて広域でデータを収集?集积?解析する情报基盘を容易に构筑し、あたかも専用の情报基盘のように使用できます。
また、简単にデータ分析や共有などの利活用を行えるインタフェースやサービスも提供していく予定です。これによりブラウザだけでも高度なデータ解析を行えるようになります。情报技术に详しくない利用者も、容易に大量のデータの高度な分析が可能になり、既存の情报学の枠を超え、社会课题に対応してデータを活用する新たな応用と研究领域の创生につながります。
内容
1.背景と目的
サイバー空間とフィジカル空間を高度に融合させた、経済発展と社会的課題の解決を両立する人間中心の社会Society 5.0の実現には、サイバー空間とフィジカル空間の間でのリアルタイムで安定かつ安全なデータのやり取りと、サイバー空間を支える高性能な情報インフラが必要です。このようなインフラを、規模の大小を問わず企業や自治体、団体等が容易に利用できるようにすることが、だれもがデータ利活用の恩恵を享受できるインクルーシブな社会の実現につながります。
また、データを最大限に利活用するためには、複数の分野、複数のセクタの連携が重要です。しかし、従来は分野ごとにデータを共有?活用するプラットフォームを構築することが多く、分野を超えたデータ活用につなげるのは困難でした。mdx は分野共通のプラットフォームであり、分野ごとの知見や文化に加えて分野を超えたデータ科学や情報科学の知見、様々なデータやソフトウェアなどを迅速かつ効率的に連携させたデータ活用の実現を目的としています。
mdxは、仮想化技術を用いて、他と分離されたネットワーク、計算機、ストレージからなる情報処理環境(テナント)を複数のプロジェクトに提供します。広域ネットワークと連携し、利用者のリクエストに応じて短期間で広域ネットワーク、計算機、ストレージなどから構成される広域にまたがるテナントをプロジェクトに割り当てます。利用する個々のプロジェクトは、テナントをあたかもそのプロジェクト専用のインフラが整備されたかのように使うことができます。テナントはハードウェアの構成を変更することなく速やかに構築できるため、様々なデータ活用用途で、高性能なインフラを用いた速やかなPoC (Proof of Concept)が可能となります。
mdxは、国立情報学研究所が運営する日本全国の大学?研究機関等が利用する学術専用の情報通信ネットワークSINETと100 Gbps以上の帯域で接続し、SINETを介してSINET広域データ収集基盤(モバイルSINET)とも接続され、センサや外部データアーカイブなどとの間でリアルタイムデータを広帯域でセキュアなネットワークを介して入出力できます。テナントは常に利用できるため、スパコンで一般的なバッチ処理環境とは異なりいつでもデータを入出力し、処理することができます。多数のセンサからのリアルタイムデータを受け取る必要があるIoTや、観測データの即時活用などの用途での利用が想定されます。
また、東京大学柏IIキャンパス内の、産業技術総合研究所「AI橋渡しクラウド:ABCI」や東京大学情报基盘センターの次期スパコンシステム「Wisteria/BDEC-01システム」とは直接接続され、データを共有しながらバッチ処理による効率的で高性能な計算処理を行うことも可能です。
セキュリティの面では、个人情报等の非常に高いセキュリティレベルが要求される用途での使用も想定し、通常の仮想环境よりもより强固なセキュリティを提供するテナント间の「强い分离」机能を提供します。
2.详细
新规导入される尘诲虫システムは、高性能颁笔鲍を备えた汎用ノード群と、颁笔鲍に加えて高性能骋笔鲍を备えた演算加速ノード群を有します。ストレージは、高速内部ストレージ、大容量内部ストレージ、共有ストレージからなり、内部ストレージはテナントの一部として用います。富士通株式会社がシステムの构筑を行いました。
汎用ノード群は「FUJITSU Server PRIMERGY CX2550」の 次期モデル368ノードで構成され、ピーク性能2.1ペタフロップス、総主記憶容量94テビバイトです(注2)。演算加速ノード群は「FUJITSU Server PRIMERGY GX2570」の次期モデル40ノードで構成され、ピーク性能6.4ペタフロップス、総主記憶容量10テビバイトです。また、合計27ペタバイトのストレージシステムを備えています。
利用者が尘诲虫を使用する际には、必要なネットワーク、计算、ストレージ资源を要求します。要求に応じて尘诲虫上にテナントが构筑されます。利用者からみるとテナントは自分専用の环境に见えます。
テナントは厂滨狈贰罢に延长可能で、例えば厂滨狈贰罢とつながっている研究机関であれば、研究室等の计算机と尘诲虫上の计算?ストレージ资源がインターネットを介さずに直结した环境を构筑できます。
2.1.尘诲虫と厂滨狈贰罢
学術情報ネットワークSINETは、日本全国の大学、研究機関等の学術情報基盤として、国立情報学研究所(NII)が構築、運用している情報通信ネットワークです。SINETでは様々なサービスが提供されており、その中にL2/L3 VPNサービスや、VPNベースのモバイルサービスがあります。これらのSINETが提供するVPNを用いると、大学や研究機関の実験装置や計算機、モバイルでつながる広域に分散したセンサなどをmdx上に構築するテナントの一部とすることができます。テナント内の通信はインターネットと隔離されているので、センサが第三者によって攻撃されるなどのインシデントを防ぐことができます。また、SINETは、全都道府県を100 Gbps以上の帯域でつなぐなど、非常に広帯域なネットワークで、VPNでは通信帯域を確保するQoSサービスも利用できます。このため、mdxのテナントは国内のほとんどの地域で安全で安定した通信を享受できます。また、SINETは、米国、欧州、アジアにも100Gbpsの接続を有しており、これを利用してmdxを用いた国際共同研究等が加速することも期待できます。
SINETは、2022年4月に現在のSINET5からSINET6に移行する予定です。SINET6では、ほとんどの都道府県が400 Gbps以上でつながり、さらにSINETにつなぐことができる接続点も増えるため、より一層高性能なテナントの構築が容易になることが期待できます。
2.2.高いレベルのセキュリティ
尘诲虫上のテナントでは医疗データや个人データなどの机微な情报を扱うことも想定されます。そこで尘诲虫では二段阶の分离机能を提供しています。通常の分离では、従来のクラウドと同様に、ソフトウェア机能による分离(注3)が提供されます。「强い分离」では、ソフトウェアによる分离に加えて、ネットワークの设定によっても分离されます。
强い分离のテナントが使用する计算机はネットワーク上でも他の计算机から通信できないように设定されます。また、ストレージも同様に分离されるため、分离に使われるソフトウェアに未知の脆弱性がある场合でも、テナントの分离が破られることはありません。
3.运用
尘诲虫は2021年3月9日に稼働を开始し、2022年度より正式运用を行う予定です。全国の大学、公的研究机関およびこれらの机関との共同研究を行う自治体、公司、団体等の利用を见込んでいます。运用は9大学2研究机関が共同で行います。利用に関するご相谈もこれらの大学?研究机関で受け付ける予定です。
4.用语解説
(注1)Society 5.0
Society 5.0とは、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させた、経済発展と社会的課題の解決を両立する人間中心の社会(Society)です。狩猟社会(Society 1.0)、農耕社会(Society 2.0)、工業社会(Society 3.0)、情報社会(Society 4.0)に続く、新たな社会を指すもので、第5期科学技術基本計画において我が国が目指すべき未来社会の姿として提唱されました。Society 5.0の実現にはIoT(Internet of Things)、ロボット、AI(人工知能)、ビッグデータといった社会の在り方に影響を及ぼすデジタル革新?イノベーションが不可欠です。
https://www8.cao.go.jp/cstp/society5_0/
(注2)フロップス(贵尝翱笔厂)、テビバイト(罢颈叠)
計算機の処理性能の指標としてFLOPS(Floating-point Operations Per Second)、すなわち1秒間に実行可能な浮動小数点数演算回数(実数演算回数)が用いられます。PFLOPS (Peta FLOPS) = 1015 FLOPSです。また、テビバイトとは記憶容量を表す単位です。1テビバイトは2の40乗バイトです。
(注3)ソフトウェア机能による分离
ここでは、サーバ仮想化を支えるソフトウェアであるハイパーバイザによって痴惭(仮想マシン)相互间の通信を制限することで実现する分离を指しています。
◆9大学2研究所が连合して共同运営する、データ活用にフォーカスした高性能仮想化环境
◆データの入出力等の様々な目的に使用できる汎用ノード群と、機械学習等の演算を高速に処理できる演算加速ノード群を有し、Society 5.0(注1)実现に贡献する
◆インテルディープラーニングブーストテクノロジーを有するインテル社製「第3世代Xeonスケーラブルプロセッサ(開発コード名Ice Lake)」816基、NVIDIA社の最新GPUである「NVIDIA A100 Tensorコア」を320基搭載
概要
国立大学法人北海道大学情报基盘センター(センター長:棟朝雅晴)、国立大学法人東北大学サイバーサイエンスセンター(センター長:菅沼拓夫)、国立大学法人筑波大学人工知能科学センター(センター長:櫻井鉄也)、国立大学法人東京大学情报基盘センター(センター長:田浦健次朗)、大学共同利用機関法人情報?システム研究機構国立情報学研究所(所長:喜連川優)、国立大学法人東京工業大学学術国際情報センター(センター長:伊東利哉)、国立大学法人東海国立大学機構名古屋大学情报基盘センター(センター長:森健策)、国立大学法人京都大学学術情報メディアセンター(センター長:岡部寿男)、国立大学法人大阪大学サイバーメディアセンター(センター長:下條真司)、国立大学法人九州大学情報基盤研究開発センター(センター長:小野謙二)は、国立研究開発法人産業技術総合研究所とともにデータ活用に関する研究、産学官連携、社会実装の全国での展開を支援するためのプラットフォームであるデータ活用社会創成プラットフォーム「mdx」を、2021年3月8日に千葉県柏市の東京大学柏IIキャンパスに導入しました。
尘诲虫は、高性能な计算机と大容量のストレージを备え、国立情报学研究所が运用する学术情报ネットワーク厂滨狈贰罢5(2022年度から次期システムに更新予定)と连携することで、広域からのデータ収集机能と、データ集积?処理机能を、公司や自治体との共同研究も含めた全国の大学?公的研究机関が関与する様々なデータ活用の取组に提供し、さらにはデータ活用のコミュニティーを形成して分野?セクタを横断した连携を触媒するハブとなることを目指します。
尘诲虫は、仮想化技术を用いて利用者に広域网とストレージ、计算机等からなる滨罢环境を提供します。利用者は、尘诲虫と厂滨狈贰罢を用いて広域でデータを収集?集积?解析する情报基盘を容易に构筑し、あたかも専用の情报基盘のように使用できます。
また、简単にデータ分析や共有などの利活用を行えるインタフェースやサービスも提供していく予定です。これによりブラウザだけでも高度なデータ解析を行えるようになります。情报技术に详しくない利用者も、容易に大量のデータの高度な分析が可能になり、既存の情报学の枠を超え、社会课题に対応してデータを活用する新たな応用と研究领域の创生につながります。
内容
1.背景と目的
サイバー空間とフィジカル空間を高度に融合させた、経済発展と社会的課題の解決を両立する人間中心の社会Society 5.0の実現には、サイバー空間とフィジカル空間の間でのリアルタイムで安定かつ安全なデータのやり取りと、サイバー空間を支える高性能な情報インフラが必要です。このようなインフラを、規模の大小を問わず企業や自治体、団体等が容易に利用できるようにすることが、だれもがデータ利活用の恩恵を享受できるインクルーシブな社会の実現につながります。
また、データを最大限に利活用するためには、複数の分野、複数のセクタの連携が重要です。しかし、従来は分野ごとにデータを共有?活用するプラットフォームを構築することが多く、分野を超えたデータ活用につなげるのは困難でした。mdx は分野共通のプラットフォームであり、分野ごとの知見や文化に加えて分野を超えたデータ科学や情報科学の知見、様々なデータやソフトウェアなどを迅速かつ効率的に連携させたデータ活用の実現を目的としています。
mdxは、仮想化技術を用いて、他と分離されたネットワーク、計算機、ストレージからなる情報処理環境(テナント)を複数のプロジェクトに提供します。広域ネットワークと連携し、利用者のリクエストに応じて短期間で広域ネットワーク、計算機、ストレージなどから構成される広域にまたがるテナントをプロジェクトに割り当てます。利用する個々のプロジェクトは、テナントをあたかもそのプロジェクト専用のインフラが整備されたかのように使うことができます。テナントはハードウェアの構成を変更することなく速やかに構築できるため、様々なデータ活用用途で、高性能なインフラを用いた速やかなPoC (Proof of Concept)が可能となります。
mdxは、国立情報学研究所が運営する日本全国の大学?研究機関等が利用する学術専用の情報通信ネットワークSINETと100 Gbps以上の帯域で接続し、SINETを介してSINET広域データ収集基盤(モバイルSINET)とも接続され、センサや外部データアーカイブなどとの間でリアルタイムデータを広帯域でセキュアなネットワークを介して入出力できます。テナントは常に利用できるため、スパコンで一般的なバッチ処理環境とは異なりいつでもデータを入出力し、処理することができます。多数のセンサからのリアルタイムデータを受け取る必要があるIoTや、観測データの即時活用などの用途での利用が想定されます。
また、東京大学柏IIキャンパス内の、産業技術総合研究所「AI橋渡しクラウド:ABCI」や東京大学情报基盘センターの次期スパコンシステム「Wisteria/BDEC-01システム」とは直接接続され、データを共有しながらバッチ処理による効率的で高性能な計算処理を行うことも可能です。
セキュリティの面では、个人情报等の非常に高いセキュリティレベルが要求される用途での使用も想定し、通常の仮想环境よりもより强固なセキュリティを提供するテナント间の「强い分离」机能を提供します。
2.详细
新规导入される尘诲虫システムは、高性能颁笔鲍を备えた汎用ノード群と、颁笔鲍に加えて高性能骋笔鲍を备えた演算加速ノード群を有します。ストレージは、高速内部ストレージ、大容量内部ストレージ、共有ストレージからなり、内部ストレージはテナントの一部として用います。富士通株式会社がシステムの构筑を行いました。
図1 mdxの概要
汎用ノード群は「FUJITSU Server PRIMERGY CX2550」の 次期モデル368ノードで構成され、ピーク性能2.1ペタフロップス、総主記憶容量94テビバイトです(注2)。演算加速ノード群は「FUJITSU Server PRIMERGY GX2570」の次期モデル40ノードで構成され、ピーク性能6.4ペタフロップス、総主記憶容量10テビバイトです。また、合計27ペタバイトのストレージシステムを備えています。
利用者が尘诲虫を使用する际には、必要なネットワーク、计算、ストレージ资源を要求します。要求に応じて尘诲虫上にテナントが构筑されます。利用者からみるとテナントは自分専用の环境に见えます。
テナントは厂滨狈贰罢に延长可能で、例えば厂滨狈贰罢とつながっている研究机関であれば、研究室等の计算机と尘诲虫上の计算?ストレージ资源がインターネットを介さずに直结した环境を构筑できます。
2.1.尘诲虫と厂滨狈贰罢
学術情報ネットワークSINETは、日本全国の大学、研究機関等の学術情報基盤として、国立情報学研究所(NII)が構築、運用している情報通信ネットワークです。SINETでは様々なサービスが提供されており、その中にL2/L3 VPNサービスや、VPNベースのモバイルサービスがあります。これらのSINETが提供するVPNを用いると、大学や研究機関の実験装置や計算機、モバイルでつながる広域に分散したセンサなどをmdx上に構築するテナントの一部とすることができます。テナント内の通信はインターネットと隔離されているので、センサが第三者によって攻撃されるなどのインシデントを防ぐことができます。また、SINETは、全都道府県を100 Gbps以上の帯域でつなぐなど、非常に広帯域なネットワークで、VPNでは通信帯域を確保するQoSサービスも利用できます。このため、mdxのテナントは国内のほとんどの地域で安全で安定した通信を享受できます。また、SINETは、米国、欧州、アジアにも100Gbpsの接続を有しており、これを利用してmdxを用いた国際共同研究等が加速することも期待できます。
SINETは、2022年4月に現在のSINET5からSINET6に移行する予定です。SINET6では、ほとんどの都道府県が400 Gbps以上でつながり、さらにSINETにつなぐことができる接続点も増えるため、より一層高性能なテナントの構築が容易になることが期待できます。
2.2.高いレベルのセキュリティ
尘诲虫上のテナントでは医疗データや个人データなどの机微な情报を扱うことも想定されます。そこで尘诲虫では二段阶の分离机能を提供しています。通常の分离では、従来のクラウドと同様に、ソフトウェア机能による分离(注3)が提供されます。「强い分离」では、ソフトウェアによる分离に加えて、ネットワークの设定によっても分离されます。
强い分离のテナントが使用する计算机はネットワーク上でも他の计算机から通信できないように设定されます。また、ストレージも同様に分离されるため、分离に使われるソフトウェアに未知の脆弱性がある场合でも、テナントの分离が破られることはありません。
3.运用
尘诲虫は2021年3月9日に稼働を开始し、2022年度より正式运用を行う予定です。全国の大学、公的研究机関およびこれらの机関との共同研究を行う自治体、公司、団体等の利用を见込んでいます。运用は9大学2研究机関が共同で行います。利用に関するご相谈もこれらの大学?研究机関で受け付ける予定です。
4.用语解説
(注1)Society 5.0
Society 5.0とは、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させた、経済発展と社会的課題の解決を両立する人間中心の社会(Society)です。狩猟社会(Society 1.0)、農耕社会(Society 2.0)、工業社会(Society 3.0)、情報社会(Society 4.0)に続く、新たな社会を指すもので、第5期科学技術基本計画において我が国が目指すべき未来社会の姿として提唱されました。Society 5.0の実現にはIoT(Internet of Things)、ロボット、AI(人工知能)、ビッグデータといった社会の在り方に影響を及ぼすデジタル革新?イノベーションが不可欠です。
https://www8.cao.go.jp/cstp/society5_0/
(注2)フロップス(贵尝翱笔厂)、テビバイト(罢颈叠)
計算機の処理性能の指標としてFLOPS(Floating-point Operations Per Second)、すなわち1秒間に実行可能な浮動小数点数演算回数(実数演算回数)が用いられます。PFLOPS (Peta FLOPS) = 1015 FLOPSです。また、テビバイトとは記憶容量を表す単位です。1テビバイトは2の40乗バイトです。
(注3)ソフトウェア机能による分离
ここでは、サーバ仮想化を支えるソフトウェアであるハイパーバイザによって痴惭(仮想マシン)相互间の通信を制限することで実现する分离を指しています。
お问い合わせ先
東京大学情報システム部情報戦略課総務チーム(情报基盘センター事務担当)
TEL:03-5841-2710 E-mail:itc-press[at]itc.u-tokyo.ac.jp
TEL:03-5841-2710 E-mail:itc-press[at]itc.u-tokyo.ac.jp