超いまさら投稿だが、1/25にSRE Nextに参加してきたのでメモ。
sre-next.dev
- 15:00~ [B4] 冗長性と生産性を高めるハイブリッドクラウド環境の実現
- 15:30~ [B5] New RelicのSREに学ぶSREのためのNew Relic活用法
- 16:00~[C6] Designing fault-tolerant microservices with SRE and circuit breaker centric architecture
- 17:00~[B7] SRE Practices in Mercari Microservices
- 17:55~[A8] Webサービスを1日10回デプロイするための取り組み
そもそもSREに対してあんまりFamiliarではなかった状態で参加したが、どういうことをするのか、とか、何故SREが必要なのか、といったところについて少し理解ができるようになった。
インフラだけの話じゃなく、開発の生産性をどう高めるかというところに踏み込んでいるのが、俺としては今までの俺のインフラというイメージと違っている部分だと感じた。
また、自分の部署ではコンテナ、オーケストレーション自体があまり広まりきっていないしどうやって監視するのかよくわからんという世界観なのに対して、ここで登壇している企業では試行錯誤しながら生産性と信頼性の両立を目指していることに衝撃を受けた。
今までの俺の世界観だとコンテナ入れることについてインフラ的に性能が~~という話しかできなかったけど、SREの文脈で考えていくことで信頼性をある程度以上に保ちながら生産性を上げて、ユーザに対して最大の価値を与えるというより高尚な世界に突入できるような気がした。
15:00~ [B4] 冗長性と生産性を高めるハイブリッドクラウド環境の実現
- GCP
- micro service化
- オンプレもCloudもKubernetesを利用
- 次年度はAnthos導入予定
15:30~ [B5] New RelicのSREに学ぶSREのためのNew Relic活用法
- MMF(最小市場価値)
- Game Day
- 最低四半期に一度、あるいは新しいメンバのオンボーディング
- 敵性Game Day
- 目的を明確に
- 攻撃側と対応側にチームを分ける
- 攻撃側
- 攻撃手順
- 影響範囲を想定
- 対応策を想定
- 対応側
- 攻撃側
16:00~[C6] Designing fault-tolerant microservices with SRE and circuit breaker centric architecture
- Takayuki Watanabe
- Cookpadの海外チーム
- gaps
- action
- 【重要】新しいサービスを実験的に導入する場合、SLOを事前にコンセンサスを取り、SLOを下回った場合切り離す
17:00~[B7] SRE Practices in Mercari Microservices
- Microserviceはアーキテクチャだけなじゃく組織を作ることも重要
- SREが運用するわけじゃなく、Serviceチームが運用できるようにツールとかを提供する
- サービスに特化したReliabilityの改善はSRE
- productivity(生産性)とreliability(信頼性)がSLA
- commonな部分はPlatform
- サービスに特化したReliabilityの改善はSRE
- googleのSRE work bookのテンプレートをパクってSLI/SLO doc作っている
- 定期的に定義をレビューし改善していくことが重要
- 更新の仕方はgoogle SRE work book
- SLI/SLO for Spinnaker
- Pipelineの実行時間
- アラート
- RequestRate, Error, Duration(RED)でアラート
- Utilization, Saturation, Error(USE)で調査(ブレンダンクレッグが提唱)
- アラートに1対1でplaybookを用意しておいて、Actionableにしている
- Reactive Tasks
- Toil
- Developer Support
- Bug fix
- Security fix
- MicroserviceのReliabilityのための取り組み
- Microservices Design Doc (template)
- Summary
- Backgound
- Goals
- Non-goals
- System Design
- Interfaces
- Traffic migration
- expected clients / dependencies
- SLI/SLO
- databases
- security considerations
- Production Readiness Check
- Maintainability
- Obserability
- Reliability
- Security
- Accessibility
- Data Storage
- Microservices Design Doc (template)
17:55~[A8] Webサービスを1日10回デプロイするための取り組み
- 1日に10回デプロイしたい
- デプロイの要素