SREって?運用の高信頼性を実現するんです ~IW2017 注目セッション紹介(5)~
event_team Internet Week JPNICのイベントInternet Weekの事前登録のお申し込みはお済みでしょうか?学割 (9割引!!)共に、20日(月)の17時まで延長されています。
さて、私、法林浩之(日本UNIXユーザ会)が紹介する今回のセッションは、2017年11月30日(木)に行われる「高信頼性運用を実現するSREという新潮流」です。今回は、直接企画したプログラム委員ではなく、プログラム委員会副委員長の松本智さんに、このセッションの見どころを語ってもらうことにしました!
法林: 今年に入って、SRE (Site Reliability Engineering)という言葉をチラホラ聞くようにはなったのですが……、SREって、具体的にどんなものなのでしょうか?
松本: SREは、「運用と開発はどのようにあるべきか」という議論のもとに生まれた、新たなサービス運用組織のあり方です。今年にGoogleが提唱しました。
従来、さまざまなWebサービスの開発と運用は、異なるチームによって行われてきました。しかしSREでは、そうした垣根をなくし、開発者が運用に対しても責任を持つという点がポイントになります。
法林: 開発(Development)と運用(Operations)との連携という話になると、「DevOps(デブオプス)」を思い浮かべるのですが、それとは何か違うのでしょうか?
松本: DevOpsと大きく異なる点は、DevOpsが「Dev」と「Ops」チームのチーム間協力や文化の話にフォーカスを当てていたのに対し、SREは、Opsの中の職種、役割や文化の話にフォーカスを当てている点でしょうか。強調したい点としては、SREをちゃんとやっていくことで、インターネットサービスを提供している企業にとっては、会社の成長や継続を支える体制を持つことができる、ということですね。
法林: なるほど。具体的にはどういう風にその体制を作っていく感じなんでしょう?
松本: Webサイトの信頼性は、Webサービス系企業にとって重要かつ欠かせないユーザーとの接点です。開発者は、このWebサービスの可用性と信頼性を高めていくことを前提としたシステムの設計、運用の自動化、ポリシーの決定を、具体的なアクションとしてやっていきます。
また運用チームは、サイトの信頼性向上のためのさまざまな取り組みを通じて、収益やブランド価値の向上につなげます。そのためにOps内のメンバーが、Software EngineeringとSystem EngineeringをしていくのがSREの一つの特徴です。そういう体制を構築してエンジニアリングし続けた結果、サイト表示が早かったり、システムが安定してキャパシティコントロールができたりして、ひいては安定した運用体制が確立していきます。こうした事業の成功を支える要素を満たしていくことで、結果、事業が成功する確率が上がっていくというのが一連の流れとなります。
すなわちSREは、サービス運用チームの中で起こり得るさまざまな課題を解決していく取り組みそのものであるとも言えるかもしれません。特定のテクノロジーではなく、いろいろな手法などをどのように扱うかといった、いわば運用指標ですね。
特に重要な点としては、安定稼働という守りの概念と、ビジネスの成功に貢献するという攻めの概念が共存する点です。このような考え方を取り入れることは、昨今の運用チームにも求められつつあります。
法林: 特に「運用チームの進化」が求められており、それを実現するために今回のセッションをプログラム委員会で企画したという感じなんでしょうか?
松本: そうですね。当然、「あなたの会社のインフラ運用チームでは、エンジニアとしてさまざまな課題を解決していく力を養っていますか?」という問いが前提としてあります。クラウドの利用が当たり前になった現在、エンジニアには最新の設計で作られたITインフラを運用し課題解決していく技術力が必要になってきていますので。
そのような技術力を身につけていくには、いろいろなものから学び取っていくことが必要ですので、今回Googleが始めたSREについて学び、その良い点を実践していくことで、チームの変化・技術的成長に繋がっていくんではないか、とプログラム委員会でも話があったところです。
法林: ということで、SREで具体的にどう変わったか、という事例がこのセッションで披露されるんですね?
松本: はい。ミクシィさんやハートビーツさんにそういった話をしてもらいます。SREはまだまだ提唱されたばかりで普及しているとは言い難いのが現状です。日本においてもSREを実践している組織はまだ少ないでしょう。ですから本セッションでの見どころは、すでにSREを実践している組織の現場の声・事例を直接題材として取り扱うところです。実際の運用の現場の姿を皆様にできるだけわかりやすくお伝えできるよう、企画した人は頑張ってってプログラムを作っていました!
少しずつでも自社でSREを実践していくと、ITインフラを運用するチームの役割や活動内容がより価値あるものに変わっていきます。役割が変わることで、今までより経験の幅・経験の量・経験の質を向上させることができ、エンジニアとして課題を解決していく力を養っていくことができます。
このセッションをキッカケに、多くの組織のインフラ運用チームの変革に寄与できればと思ってます!
S15 高信頼性運用を実現するSREという新潮流
日時 | 2017年11月30日(木) 16:15 ~ 18:45 | ||||||||||||
場所 | 3F Room0 | ||||||||||||
参加料金 | 事前 5,500円、当日 8,000円 | ||||||||||||
URL | https://www.nic.ad.jp/iw2017/program/s15/ | ||||||||||||
概要 | ITインフラの運用は、どんどん進化していっています。 DevOpsのように運用と開発がどのようにあるべきか議論がなされる一方で、Googleは一つの答えとしてSRE (Site Reliability Engineering)を提唱しました。現在SREを採用する会社が世界中で増えています。
このセッションでは、SREとは何か、何故SREが重要視されているのか、等をお伝えいたします。特に、SREで大切な活動であるソフトウェアエンジニアリングやシステムエンジニアリング、トイルの概念やトイルを減らす方法などを具体的に説明していきます。また、インフラ保守運用を代行するMSP事業者であるハートビーツの運用グループにおけるSRE的な活動を具体的に紹介し、聴講者が実際の業務の中でSREを実施していく際の大切なポイントを共有します。 |
||||||||||||
内容 |
|
||||||||||||
対象者 |
|