本文へ移動

MLOpsチームのカバーする領域

1. MLOpsの位置づけ

チューリングのMLOpsは、機械学習モデルを「作る」ための補助機能ではなく、完全自動運転を前に進めるための中核的な仕組みです。完全自動運転は、モデル単体の性能だけで成立しません。実世界の走行データを集め、学習し、評価し、車に載せて走らせ、結果を次の学習に戻す。この循環を止めずに回し続けることで、初めて改善が積み上がります。

そのためチューリングでは、MLOpsを「完全自動運転の工場」と捉えています。工場が強くなるほど、実験の回転数が上がり、学習と検証のループが速くなり、改善の総量が増えていきます。

2. MLOpsワークフローの全体像

チューリングのMLOpsは、大きく「Data Store」「Curation」「Data Processing」「Training」「Deployment」「Experiment Management」の連続したワークフローで構成されています。特徴的なのは、ワークフローの右端と左端に車両があり、データ収集と実走検証がサイクルの一部として組み込まれている点です。

まず、データ収集車両から日々データが上がり、データストアに保存されます。その後、すべてのデータを学習に使うのではなく、品質と多様性の観点から学習に有効なデータを選びます。選ばれたデータは、学習に使える形式へ変換され、モデルの学習へ進みます。学習済みモデルは車両へデプロイされ、実走検証の結果が実験管理に統合されます。

この実験管理は、学習ログだけに留まりません。車で走らせた結果まで含めて評価し、うまくいかなかったケースを「次に入れるべきデータ」としてサイクルの前段へ戻します。これが、改善が続く仕組みの中核です。

3. Data StoreとCuration:データを「貯める」から「使える状態にする」へ

自動運転のデータは多くが非構造化で、そのままでは学習に使いづらい性質を持ちます。チューリングでは、車両から上がってくる映像・センサ・車両信号などのデータをデータストアに集約し、まずは欠損や品質問題の検知、取り込みの安定運用を重視しています。

次に重要になるのがCurationです。学習効率を高めるため、品質の低いデータを除外しつつ、分布の偏りを調整します。直進・右左折などの比率を整えたり、道路環境やエリアのカバレッジを意識したりと、「学習に効くデータ」を設計していきます。

この工程を成立させる鍵が、メタデータ(タグ)です。走行場所、時間帯、天候、交差点の有無などを付与し、必要なデータを後から検索・抽出できる状態にします。タグは固定的に付けるものだけでなく、定義を変えながら動的に作る仕組みも併用し、開発フェーズに応じて柔軟にデータを切り出せるようにしています。

4. Data Processing:データセット作成の自動化とスケール

チューリングのMLOpsで特に比重が大きいのが、学習データを作成するData Processingです。自動運転では、動画やセンサログをそのまま学習に入れるのではなく、「シーン」という単位に切り出し、サンプリングし、必要に応じてオートラベリングなどの処理を加えて、学習に適した形式へ変換します。

このプロセスは、手作業で行うと数日かかることがありますが、ツール化とクラウド実行により、数時間で回せる状態へ近づけています。結果として、データセット作成が一部の担当者に依存せず、複数のメンバーが同じスピードで実験を回せるようになります。

一方で、データ規模が増えるほど処理の設計は難しくなります。シーン数やサンプリングレートが上がることでデータ量は桁違いに増え、処理のボトルネック、タイムアウト、コスト増といった課題が顕在化します。そこで、処理方式や実行基盤(ワークフロー、バッチ実行、分散処理)を段階的に見直しながら、堅牢性と費用対効果の両立を継続的に行います。MLOpsは「一度作って終わり」ではなく、スケールに合わせて設計を更新し続ける領域です。

5. Training〜Deployment:机上と実車の差を埋める

モデル学習の成果は、机上評価だけでは確定しません。自動運転のML開発では、推論結果が動画上では良く見えても、実車ではレーン逸脱や不安定な挙動が出ることがあります。チューリングでは、学習したモデルを車両へ載せて検証することを前提にしつつ、その前段で「事前に危険なモデルを弾く」ための評価や可視化の仕組みも整えています。

また、実車にデプロイする際には、モデルの重みだけでなく、前処理・後処理・学習時の設定なども含めて整合を取る必要があります。そのため、バージョン管理とパッケージングを含むデプロイ設計が重要になります。更新頻度が上がるほど、この工程の信頼性が開発速度を左右します。

6. 実験管理とチーム連携:MLOpsを「組織で回す」

MLOpsは、MLOpsチームだけで完結しません。データ収集、車両制御、モデル開発など複数チームが同じサイクルに関わります。特に、問題が起きたときにそれがML、制御、ミドルウェアのどこで発生しているかを切り分けるには、チーム横断の連携が不可欠です。

そのため、実験結果を共有するための共通言語(動画ビューアのURLで同じシーンを即座に見られる、など)や、品質・コスト・処理状況を可視化するダッシュボード、Slack通知など、情報の流れ自体を整えることもMLOpsの範囲に含まれます。

開発が進むほど、回転数が上がるほど、GPUやストレージなどのコストは増えます。だからこそ、コストを見える化し、異常を早期に検知し、必要なときに必要な量だけ使えるようにするガードレール設計も重要になります。技術と運用、そして組織の連携を一体で整えることが、チューリングのMLOpsの特徴です。

Join us :

完全自動運転という難易度の高い課題を、
様々なバックグラウンドを持つメンバーと
取り組みませんか?