ページの本文へ

若手技術者による『生成AI活用議事録ツール』開発記
〜AIが議事録作成の未来を拓く!〜

ネットワーキング事業企画本部 研究開発部 劉 佐飛

キーワード

  • #AI活用
  • #エンジニアリング
  • #ソフトウェア

はじめに:議事録作成の「困った」を解決したい!

こんにちは、ネットワーキング事業部 研究開発部の劉です。
皆さんは日々の業務で「議事録作成」に時間をとられ、「本来集中したい業務に手が回らない…」と感じたことはありませんか?
新入社員として配属された際、先輩方から「会議1時間の内容をまとめるのに1〜2時間もかかる」という実情を聞き、率直に驚きました。しかし、議事録は会社の意思決定や情報共有において、決して欠かせない重要な業務でもあります。
この「議事録作成の課題」をAIの力で解決すべく、私は入社1年目からAI議事録自動作成システム『生成AI活用議事録ツール』の開発に携わってきました。試行錯誤の末、ようやく実用段階にまで辿り着いたこのシステムの全貌を、本記事でご紹介したいと思います。

1 システム『生成AI活用議事録ツール』の概要

『生成AI活用議事録ツール』は、会議の録音音声やテキストファイルをアップロードするだけで、議事録を自動で作成するシステムです。
主な特長は次の通りです。

議事録ツールの特長

2 『生成AI活用議事録ツール』を支える主要技術

本システムの実現には、複数の先進的なAI技術を利用しています。ここでは、『生成AI活用議事録ツール』の中核を成す技術要素について説明します。
2.1 AIモデルの活用による高精度・高品質化
『生成AI活用議事録ツール』は、正確且つ的確に要約された議事録を実現するため、最先端のAIモデルを採用しています。
音声認識率が高い自動音声認識モデルを採用することにより、長時間の会議音声も高速かつ高品質にテキスト化することが可能です。
議事録の品質をさらに向上させるため、文字起こしされたテキストに対し、以下のような整文処理を施しています。
・無意味な発話(「えー」「あー」など)の削除
・口語表現から書き言葉への変換
・事前に設定された辞書に基づく専門用語の変換
これらの処理を経た高品質な文字起こしを基に、ユーザー定義の出力形式に沿って、内容を要約した実用的な議事録を作成します。
上記の一連の高度なテキスト前処理から最終的な議事録作成に至るまで、最先端の大規模言語モデル(LLM)を活用しています。
これにより、会話の流れや文脈を深く理解した、高品質の議事録を実現しています。
2.2 高精度な話者分離技術の実装
会議の議事録において「誰が何を話したか」を明確にすることは、その情報の信頼性と利便性を高めます。
『生成AI活用議事録ツール』では、以下の2段階のアプローチで高精度な話者分離を実現しています。
1. 音声特徴の生成
音声処理ライブラリを用いて、音声データから話者の特徴を生成します。各発言区間の音声信号を分析し、話者固有の特徴ベクトルを作成することで、個々の話者の音声的特性を数値化します。

発言区間音声からの特徴ベクトル生成

2. クラスタリングによる話者分離
生成された特徴ベクトルに対してクラスタリング手法を適用し、類似した特徴を持つ発言を同一話者のものとしてグループ化します。これにより、事前に話者数を指定するだけで、自動的に話者分離が可能になります。

クラスタリングに基づく話者分離方法

『生成AI活用議事録ツール』システムの実運用において、私たちは「会議に参加したメンバーは把握しているものの、発言者が何人だったか正確には特定できない」という現場の課題を認識しました。このため、指定話者数の誤差が識別精度に影響を与える可能性が懸念されました。
しかし、社内会議録音データを用いた検証実験の結果、十分なサンプル数が確保されていれば、実際より多めに話者数を指定した場合でも、同じレベルの識別精度が得られることが判明し、正確な話者数が不明な状況でも実用的に機能することを確認しました。

話者数の識別検証結果

『生成AI活用議事録ツール』のさらなる未来へ:今後の展望

『生成AI活用議事録ツール』は、既に社内の試行において議事録作成時間の約8割削減を実現していますが、私たちはさらなる機能強化をめざしています。
1.1 音声前処理技術の強化
現状では、環境音やノイズ、音量不足、複数人の同時発言といった音声品質の問題が文字起こし精度に影響を与えることがあります。これらの課題に対し、音声認識処理の前段階にノイズ除去ステップの導入を検討し、音声品質向上による安定した文字起こし精度実現をめざします。
1.2 マルチモーダルモデルの導入
現在の『生成AI活用議事録ツール』は「音声認識→テキスト処理→議事録作成」という段階的な手法で議事録を作成していますが、今後はマルチモーダル大規模言語モデルの進化を捉え、会議音声から直接議事録を作成する機能の導入を検討します。
マルチモーダル大規模言語モデルは、音声データそのものを直接読み込んで理解できるため、文字起こしや各処理段階で生じ得る情報損失を抑制し、音声に含まれる非言語情報や発話のニュアンスなどの豊かなコンテキストを保持したまま、より深く会議全体の意図を把握できる点が最大の特長です。
私たちは、その高い理解力と汎用性によって、さらなる高品質で自然な議事録を効率的に作成できるものと大いに期待しています。

まとめ:技術でビジネス課題を解決し、新たな価値を創造する

本稿では、会議議事録の作成負担軽減をめざして開発したAI議事録自動作成システム『生成AI活用議事録ツール』について、その開発背景、主要技術、そして今後の展望を解説しました。
「日々の業務課題を技術で解決する」という強い動機が、本システムの開発を推進する原動力となりました。
『生成AI活用議事録ツール』が、多くの方の業務効率化に貢献し、より創造的な活動への集中を支援できることを願っています。
今後も、現場のニーズに根差した技術開発を継続し、新たな価値創造に挑戦してまいります。

2025年10月
株式会社 日立情報通信エンジニアリング
ネットワーキング事業企画本部 研究開発部 劉 佐飛


※編集・執筆当時の記事のため、現在の情報と異なる場合があります。編集・執筆の時期については、記事末尾をご覧ください。