はじめに
メディアドゥにSREチームが発足してまもなく3年を迎えます。 立ち上げから3年を経たSREチームがどのように変わってきたか、そして現在の取り組みとこれから目指すことについてご紹介します!
※発足時の記事については別に記事がありますので、そちらをご覧ください。 techdo.mediado.jp
取り巻く環境の変化
SRE部発足から3年経過して、部を取り巻く環境が下記の通り変化しました。
①AWSアカウントの増加
新規プロダクトの増加に比例してAWSアカウントも増加しており、現在は50を超えるアカウントをSRE部で管理しています。管理するアカウントが増加するほど、コストやセキュリティ、障害などをより効率的に管理していく必要が出てきました。
②GCP/Azure/OCIの利用開始
プロダクトが増えることで利用するパブリッククラウドの種類も増加し、現在はAWS以外にAzureやOCIなど、複数のクラウド環境を利用するようになりました。環境ごとに管理するサービスや方法が変わるため、より広い技術のキャッチアップが必要となります。
③自動化推進チームとの統合
ここが一番の変更点かもしれませんが、社内のBI・RPA業務を担っている別チームがSRE部と統合することになりました。これにより、BIツール向けデータのETL処理や事業部の業務効率化用のRPA構築など、SRE部が担う業務の幅が広がりました。
今やっていること
取り巻く環境の変化に伴い、SRE部としての業務範囲も拡大。 現在は開発チームや事業部と協力して、下記図のような業務を実施しています。
BI
SRE部でいままで蓄積したBI関連のノウハウを他部署に対して共有し、必要に応じて分析に最適なダッシュボードの提案や提供を実施しています。
コスト
システムの品質を維持しつつコストを最適化するための提案や、各プロダクトで利用しているクラウドサービスの費用見積もり結果を提供することで、予算策定に必要な情報の提供も実施しています。
セキュリティ
セキュリティインシデントが発生した場合の対応や、クラウド環境のベストプラクティスに沿った構成であるかを月1回棚卸し、セキュリティ強化の施策を提案しています。
障害管理
24/365で全てのシステムの障害一次受けを担当しています。また、障害管理用のダッシュボードを作成し、各Q毎の障害情報を集計・可視化することで、会社全体の障害発生状況を迅速に把握することに役立てています。
APM
APMのツールとしてNewRelicを新たに導入し、各システム毎のパフォーマンスモニタリングを行える環境を構築しました。
IaC
Terraformを用いて、環境構築やリソース変更作業を担っています。
RPA提供
事業部の業務をRPA製品を利用して自動化することで効率化/工数削減に繋げています。
これからやりたいこと
リソースモニタリング
現在、新しいプロダクトがどんどん増えてきており、それに伴いAWSアカウントも増えてきている状況です。アカウントが増えるとAWSリソースの数も比例して増えていくため、各リソースを適切に管理できるような仕組みづくりをします。
CI/CD環境整備
開発/ステージング/本番環境の環境差異を出さずに開発スピードの向上を目指し、自動デプロイやIaCの管理を簡単にする仕組みを導入します。
自動化置き換え
現在はRPA製品やETL製品を利用しているため、保守費用やライセンス費用が発生している状況です。これをAWSのサービス(Lambda、Glue)に置き換えることでコスト削減します。
パフォーマンスチューニング・SLI/SLO設定
APM導入まで完了したので、今後は適切な品質評価項目の策定を行い、評価するためのメトリクス取得設定やダッシュボード化を実施します。
勉強会、オフラインイベントへの積極的な参加
技術系のオフラインイベントが増えて来たので、イベントに参加し最新情報取り込みや情報発信を積極的に行っていきます。直近ではAWSサミットに全員参加予定です!!
まとめ
現在、SRE部としての取り巻く環境が3年前に比べ大きく変わってきています。それに伴い業務内容のバリエーションも増え、幅広い知識が必要になってきています。そのような状況の中で、以前投稿したコスト管理紹介記事以外にも得た知識や経験をアウトプットしていきたいと思いますので、参考になれば幸いです。
現在SREチームでは一緒に働く仲間を募集しています。 記事を読んでメディアドゥのSREに興味を持っていただけた方は、こちらのエンジニア採用サイトをご覧ください。recruit.mediado.jp
ご応募お待ちしています!