SRE NEXT 2025にスポンサー&登壇&参加しました!

こんにちは、カバー株式会社CTO室インフラチームです!

カバー株式会社は、2025年7月11日から12日に開催された技術カンファレンス「SRE NEXT 2025」にPARTYスポンサーとして協賛させていただきました。

SREとは、信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 
https://sre-next.dev/2025

本記事では、LT登壇したIから登壇レポート、現地参加したメンバーから参加レポートをご紹介いたします。

登壇レポート by I

こんあずき〜⚒️ カバー株式会社 CTO室のIです。
これまで弊社は技術ブログを中心に情報発信を行ってきましたが、全社的な技術的取り組みの認知拡大を目指し、今年度から登壇を始めています。
この度SRE NEXT 2025にてLT登壇の機会をいただき、大変光栄に思います。

スライド全体はこちら

今回のLTでは、弊社のメタバースプラットフォーム「ホロアース」におけるSREの取り組みを紹介しました。
約半年間をかけクライアント・サーバー監視基盤の統一からユーザージャーニーの可視化までを進めました。しかしSLI/SLOの適切な定義と運用のためには、根本的なプラットフォームの改善による可観測性の向上が不可欠であるとの結論に至りました。
今後はホロアースのプラットフォームの核であるKubernetes運用の改善を通じ、ゴールデンパスの構築とリソース集約を進め、プラットフォームチームによる統制がより効く基盤の構築を目指します。

ありがたいことに、LT後や懇親会では多くの方々と交流させていただきました。特にSREイネーブリングの実践について議論する中で、プラットフォームを運用するには、チーム間のギャップを埋めるために暗黙知を形式知へ変える必要性を強く感じました。
伴走から自律へ: 形式知へと導くSREイネーブリングによる プロダクトチームの信頼性オーナーシップ向上」というセッションで紹介されていたSECIモデルは、このギャップを埋め、イネーブリングを進める上で非常に効果的な手法だと感じています。私自身の暗黙知をチームの暗黙知へと変換する「共同化」のプロセスは、プラットフォームを利用してもらう観点からもプロダクトチーム側の心理的ハードルを下げる上で効果的だと考えています。この気づきを受け、早速ペア作業やスキルトランスファーの時間を設けプロダクトチームとのコミュニケーションを増やす取り組みを始めています。

Kubernetes運用については、オートスケールの最適化とリソース管理の最適化の2つの軸で整備を進めており、特に以下の2つのセッションが参考になりました。
・「アクセスピークを制するオートスケール再設計: 障害を乗り越えKEDAで実現したリソース管理の最適化
オートスケールの観点ではHPAではなくKEDAを利用した事例は参考になりました。HPAでは評価間隔の関係でスパイクアクセスに対しての耐性を持たせるのが難しいため、カスタムメトリクスかつイベント駆動でスケールできるような仕組みは弊社でも検討の余地があると考えています。
・「「Chatwork」のEKS環境を支えるhelmfileを使用したマニフェスト管理術
リソースの管理の観点ではhelmfileを使用した動的なマニフェスト生成が参考になりました。ArgoCDを利用してマニフェスト生成を行う仕組みは今後プラットフォームを構築する上で是非ともほしいと思う機能でした。

感想

SREとして改めて対話の重要性に気づく良い機会となりました。ソフト面と技術面の両方からプロダクトへの価値提供を継続できるよう今後も取り組みを進めていきたいと思いました。

参加レポート by S

こんやっぴー👾 カバー株式会社 CTO室のSです。
SRE NEXT 2025で印象に残ったセッションをご紹介します。

ロールが細分化された組織でSREは何をするか?

https://speakerdeck.com/player/81592ef49d224abd81cafb81100c57d1

こちらのセッションではNew Relicを用いたObservabilityの向上や、Devinを用いたパフォーマンスチューニングの様子が語られていました。

個人的に興味深かったのは後半のDevinをもちいたパフォーマンスチューニングです。New Relicのデータからレスポンスタイムが遅いリクエストのトレースIDをもとに、改善案を作成しています。その改善案をDevinに流してPull Requestをつくるところまでが実装されています。

スポンサーブースでも詳細に伺いましたが、将来的には実際のコードと紐づけて改善の精度を高めたいとのことでした。パフォーマンスチューニングをAIを用いて効率化したいと考えていた自分にとって、示唆に富んだセッションでした。弊社で使用しているDatadogでも同様の構成がとれるか検討してみたいと思います。

SREのためのeBPF活用ステップアップガイド

https://speakerdeck.com/player/bd8dc5e76caa46f2afabc7cedee6ab88

eBPFを用いた可視化の活用事例を紹介するセッションでした。

ebpf_exporterは自身で定義したメトリクスをeBPFを用いて取得および可視化ができるので、Kubernetesにおけるユースケースにおいて、Pixieと比較してカスタマイズ性の高い選択肢と理解しました。活用できれば更にObservabilityを向上させることができそうです。

また、上記のセッションの内容と組み合わせて、例えばNew Relicに統合されたPixieを用いてKubernetesのメトリクスを収集し、そのデータをDevinに流せば更に高度な提案が期待できるのではと夢が広がりました。

参加レポート by K

Ahoy🏴‍☠️ カバー株式会社 CTO室のKです。
SRE NEXT 2025を拝聴し、印象的だったセッションでの学びをご紹介します。

複雑なシステムにおけるUser Journey SLOの導入

https://speakerdeck.com/player/97cd14ef91ec4fc193a4e2bbb86212f0

マイクロサービスにおける従来のSLO課題を、顧客の行動に基づいた「User Journey SLO」で解決した事例が紹介されました。これは、個々のサービスの稼働率ではなく、ユーザー体験を軸に信頼性を測るアプローチです。

特に、プロキシでAPIに疑似障害を注入し、実際のユーザー操作が失敗するかで判定する「クリティカルAPI」の特定手法が印象的でした。APIごとに障害発生時の影響範囲が明確になっているため、対応優先度の意思決定にかかる時間が短縮されます。

ユーザー視点での信頼性設計を心がけ、上記のような障害注入テストの導入を検討したいです。メルカリの事例では最終的にE2Eテストで自動化されていますが、その前段階における手動でクリティカルAPIを探すアプローチは、自分のチームでも今から始めることができそうだと感じました。

対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~

https://speakerdeck.com/player/fa82db8686c84a49b88da1e5955ff943

LLM API と WebSocketの安定運用、音声対話システムの SLI/SLO 運用についてのセッションでした。

特にLLMの不確実性への具体的なアプローチが印象的でした。ハルシネーションに対しては、1つのタスクを複数のコンポーネントに分割することで、バリデーションやエラーを検出しているそうです。LLM APIが不安定という課題に対しては、複数のLLM APIを用いたfallbackが実装されていました。
また、必ずしも最高性能のモデルが最適解とは限らず、コストや速度、安定性を考慮し、ユースケースに合ったモデルを選択することが、結果的にサービスの信頼性向上に繋がるとのことです。

LLMの確率的な性質上、ハルシネーションの発生は避けられません。そのため、LLMからの出力を常に監視し、意図しない挙動を早期に検知する仕組みは、信頼性の高いサービスを提供する上で不可欠だと再認識しました。

さらに、セッションでは直接触れられていませんでしたが、ハルシネーションの監視に加えて、プロンプトインジェクションのような悪意ある入力への対策も同様に重要だと考えます。このセッションで紹介されたE2Eテストや監視の仕組みは、こうしたセキュリティリスクの検知にも応用できる可能性があると感じました。

参加レポート by T

ドレミファソラシド〜!🎹✨ カバー株式会社 CTO室のTです。
SRE NEXT 2025 の2日間とも現地参加したので、その感想を書かせていただきます。

印象に残ったセッション

一番印象に残ったセッションを紹介させていただきます。

〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏

https://speakerdeck.com/player/96db9ec5444d47c98db2241d517f673e

このセッションでは、「家族アルバム みてね」をローンチしてからグローバルに展開していくまでにぶつかった課題や、その課題に対する取り組みを、SRE視点で紹介されています。

ローンチ当初はAWSの東京リージョンのみで運用されていましたが、海外ユーザーの増加に伴い、画像・動画のアップロード・ダウンロードやAPI全体の速度低下が課題となっていたそうです。現在はマルチリージョン構成により地理的に近い場所でアプリケーションを動かすことでこの問題に対処しているのですが、そこに至るまでに段階的にAWSのマネージドサービスを活用して改善を進めていた点が印象的でした。初期の改善では海外リージョンを用意せずに、クライアントサイドでのキャッシュの活用や、APIの前段にCloudFrontを導入することで海外からのリクエストが東京リージョンで処理されるまでのトラフィックを最適化することで改善を図っていました。

私の現在の業務は、「ホロライブアカウント」というグローバルでの利用を想定した統合ID・認証基盤の開発です。海外ユーザーのユーザー体験を損なう問題が出てきた時は、このセッションで紹介されている取り組みや、段階的に改善していく戦略・考え方など参考になる内容がとても多かったです。

おわりに

カバー株式会社はSRE NEXT 2025のPARTYスポンサーとして協賛させていただきました。

懇親会では、多くの方と交流する貴重な機会をいただき、誠にありがとうございました。 中には、弊社のスポンサーをきっかけに活動を知ってくださった方もいらっしゃり、日頃の取り組みについて深くお話しすることができました。
SRE NEXTのような技術コミュニティから得られる知見は、私達が日々業務を改善していく上で大きな支えとなっております。この場を借りて、改めて感謝申し上げます。
今後より一層コミュニティの発展に貢献していきたいと考えております。