東京電機大学 システムデザイン工学部 情報システム工学科 マルチメディアコンピューティング研究室は、2018年4月に開設された新しい研究室です。2024年4月現在の所属学生はそれぞれ修士1、2年がシステムデザイン工学研究科 情報システム工学専攻、学部生がシステムデザイン工学部 情報システム工学科の所属となります。

概要

SNS、動画共有サービス、イラスト投稿サービスなどのサービスで扱うマルチメディアコンテンツの生成・解析技術、及び監視カメラやスマートフォンなどのIoTデバイスが生成した映像、音声、テキストなどのマルチメディアデータの収集・蓄積技術、分析・活用技術について研究を行っています。

研究キーワード

  • マルチメディアコンテンツ
  • マルチメディア・データベース
  • コンピュータ・ビジョン
  • 機械学習
  • IoT
  • HCI(ヒューマンコンピュータインタラクション)

運営方針

  1. 学内や国内外の研究者との意見交換や共同研究の立案
    • 学内は学部内だけでなく、同じ千住地区の未来科学部、工学部の関連研究室との意見交換や共同研究の立案を図る。
    • 国内外の学会に積極的に参加し、研究者とのディスカッションなどを通じて自テーマの見直しを常に行い、学外の研究者との意見交換や共同研究の立案を図る。
  2. 学内外の研究費の申請・管理
    • 企業との委託・共同研究の提案、競争的戦略資金への応募検討を行う。
  3. 国内外の学会参加、論文の作成と投稿、専門書の執筆
    • 情報処理学会、画像電子学会など。所属学生への積極的な参加を推奨する。
    • 特に、大学院生は就職活動時に大きな実績となる国際会議への参加や学術論文の投稿を推奨する。
  4. シンポジウムや講演の運営、学外委員会活動
    • 情報処理学会 DICOMO、インタラクション、DCC研究会、CDS研究会、画像電子学会 など。
  5. 学会や学術誌の論文審査
    • 情報処理学会 論文誌、論文誌:デジタルコンテンツ、論文誌:コンシューマデバイス&システムなど。

研究テーマ

修士研究

  • 2020年度
    • pix2pixを用いたデジタルイラスト制作における自動レイヤ分けシステムの研究
  • 2021年度
    • 3Dゲームエンジンを用いた映像監視向け合成全周魚眼画像データセット生成方式の研究
    • 映像監視システムにおける顔画像の3次元再構成方式の研究
    • 人物検出と人物姿勢推定に基づく屋内全周魚眼画像に対する人物間の密接度推定方式の研究
    • 対話システムにおけるキャラクタ性の構築方式の研究
  • 2022年度
    • 観光スポット推薦のための旅行ブロガーの信頼性推定方式の研究
    • StyleGAN2に基づくゲームキャラクタの表情差分付き顔画像自動生成システム
  • 2023年度
    • MISTを用いた監視カメラ映像からの異常行動検出
    • Web会議における顔向き解析に基づく集中度フィードバックシステム

卒業研究

  • 2018年度
    • pix2pixを用いたデジタルイラスト制作におけるレイヤ分け作業の自動化
  • 2019年度
    • Mask-RCNNと動画像解析を用いた監視カメラ映像に対する人物追跡方式
    • 映像解析に基づく映像ストリームからの三次元再構成
    • 顔画像の三次元再構成を目的とした監視カメラ映像のスコアリング方式
    • 深層学習を用いたスマートフォンスクリーンに対するオブジェクト検出方式
    • 放送音声メディア向けテキストメタデータ解析運用ツールの開発
    • 小説制作におけるキャラクタ性を考慮した会話文自動生成
    • HREDを用いたチャットボット実現のための対話モデルの構築
  • 2020年度
    • SSDを用いた光学衛星画像からの車両の自動検出
    • 赤外線センサを使用した人物検出方式
    • 漫画からの人物自動検出と識別
    • pix2pixによる未来の雲画像の生成
    • StyleGAN2を用いたゲーム制作支援のための顔画像生成と編集
    • 動画編集におけるテロップ作成の自動化
    • CRFを用いた作者支援を目的とした固有表現抽出
    • 対話システムにおける係り受けを考慮した感情判定
    • 統計的手法及び機械学習を用いた競馬の順位予想
    • 深層学習を用いた顔領域別画像に対する母音認識
  • 2021年度
    • 深層学習を用いた要約文による画像生成
    • 機械学習によるイラスト画像に対する顔検出及びランドマークの推定
    • GANによる人物画像とキャラクタ画像のスタイル変換
    • NeRFを用いた全方位動画からの道案内動画生成
    • MISTを用いた異常行動の視覚化
    • ディープラーニングによる駐車場の監視システム
    • オクルージョンがある顔画像の三次元再構成
    • 深層学習による音楽からの歌詞の自動抽出
    • nagisaを用いたゲームのマーケティングを目的とするSNS分析
    • ニュースを自動的に詩に変換するシステム
    • 口調変換を用いた親和性と理解性の高い対話システムの構築
    • YOLOv3を用いた自動運転に向けた歩行者の自動検出
  • 2022年度
    • GPT-2を用いた超ショートショートの自動生成
    • YOLOを用いた監視映像による交通状況調査システム
    • 眼底画像からの糖尿病網膜症等の疾病の自動診断
    • テキストマイニングを用いたお菓子のキャッチコピーの自動生成
    • クラック画像の自動生成、及び建造物画像からのクラック検出
    • 自然言語処理によるビジネスメール作成支援システム
    • 階層型エンコーダ・デコーダモデルを用いた小説の生成
    • BERTを用いたSNSにおけるトレンドの感情分析
    • テキストマイニングを用いた小説の感情分析と可視化
    • U-Netを用いたゲームキャラクタのイラストの色差分生成システム
    • タグ抽出機能を用いたText-to-imageの評価と活用法
    • 整形支援のための顔パーツ交換システム
    • ディープラーニングを用いた顔画像からの表情認識システム
  • 2023年度
    • MMPoseを用いた動物の3Dモデルの姿勢推定
    • 2Dアニメーション制作のためのデジタルイラストの髪パーツの自動分割
    • StyleGANと拡散モデルを用いたオリジナルイラストの自動生成
    • 直交化罰則条件付き教師ありNMFを用いたロック音楽に対するギターパート抽出
    • ゲーム音楽生成のための楽曲の雰囲気判別
    • 固有表現抽出を用いたニュース記事の自動要約
    • 顕微鏡画像の解析に基づくホーニングマシンの砥石の粒度・集中度算出
    • Unityを用いたブラストマシンの投射シミュレーション
    • 合成データセットを用いたブラストマシンのワークの姿勢推定

基礎プロジェクト

  • 2018年度
    • COLMAPを用いたSfM(Structure from Motion)環境の構築
    • Visual SLAMによるモバイルカメラのリアルタイム位置姿勢推定方式
    • YOLOv3を用いたリアルタイムオブジェクト検出方式
    • RPA(Robotic Process Automation)ツールを用いたオフィス業務の自動化
    • ラジオ放送におけるスマートスピーカー対応自動チャプター再生機能の基礎検討
    • テキストマイニングによるドライバtweetの感情分析
    • seq2seqモデルによるチャットボットのための会話応答文の生成

主要研究成果

[1]マルチメディアコンテンツの生成・解析技術

■Smart Layer Splitter (pix2pixを用いたデジタルイラスト制作の色塗り工程における自動レイヤ分けシステム)

デジタルイラスト制作の一工程である色塗り工程では、線画を髪や肌などのパーツにレイヤ分けする作業が必要ですが、既存のグラフィックソフトに付属する塗りつぶしツールでは、手作業のため手間がかかってしまうという問題がありました。

このような問題を解決するために、conditional GANの一方式であるpix2pixと後処理を組み合わせることでレイヤ分け作業を自動化する方式について提案しました。提案方式について評価を行った結果、Mean Accuracyで84.8%の精度が得られることを確認しました。以下に、提案方式であるpix2pixを用いた自動レイヤ分け方式の概要について示します。

さらに、提案方式に基づき、自動レイヤ分け作業において誤りが発生した場合でも誤りを手動で修正するUIを持った自動レイヤ分けシステム(Smart Layer Splitter)をWebアプリケーションとして開発し、システムの有効性について評価を行いました。その結果、既存のグラフィックソフトと比較して、作業時間を39.8%短縮できるとともに、操作回数を68.6%削減できることを確認しました。以下に、液晶ペンタブレット上でWebアプリケーションとして動作しているSmart Layer Splitterの外観について示します。

渡邉優, 阿倍博信: Smart Layer Splitter:pix2pixを用いたデジタルイラスト制作の色塗り工程における自動レイヤ分けシステム, 情報処理学会 論文誌 デジタルコンテンツ, Vol.9, No.1, pp.21-33 (2021.2)

■StyleGAN2に基づくゲームキャラクタの表情差分付き顔画像自動生成システム

キャラクタを動かすゲームの開発において、キャラクタ毎に表情や顔向きの異なる表情差分の付いた顔画像素材が大量に必要になります。特にオリジナルの素材を使用したい場合は、デザイナーに依頼するか自分で制作する必要がありますが、コストと時間が問題となっていました。近年、AIでアニメ顔画像を生成するサービスは数多く存在しますが、自動生成された顔画像に対して、表情や顔向きの異なる表情差分付き画像をあわせて生成できるサービスは存在しませんでした。

このような問題に対して、本研究では、ゲーム開発の効率化に向けて、オリジナル素材を用いた顔画像生成とあわせて表情差分画像の生成の自動化を目的とします。

まず、アニメ顔画像生成用学習済みStyleGAN2モデルに対して、二次利用可能なスマートフォンRPGゲームのキャラクタの顔画像2976枚を転移学習し、オリジナルの顔画像を生成可能なモデルを構築しました。以下に、構築したモデルを用いて生成した顔画像の例を示します。評価を行った結果、90%以上の精度でオリジナルの顔画像の自動生成が可能であることを確認しました。

©2014 CloverLab.,Inc.

次に、オリジナル素材を学習したStyleGAN2のモデルを用いて生成した大量の顔画像に対して、自動的にポーズ解析、表情解析を行い、その結果を教師あり学習により、潜在空間におけるポーズ及び表情の潜在方向のモデリング処理を行います。生成した顔画像に対してポーズや表情の変化する潜在方向の適用結果にStyle Mixingを組み合わせることで、表情差分付きの顔画像を自動生成する方式を提案します。評価の結果、50%以上の精度で表情差分付き顔画像の自動生成が可能であることを確認しました。

最後に、今回提案したStyleGAN2を用いてオリジナルゲームキャラクタのポーズ・表情差分付きの顔画像の自動生成が可能なWebシステムを開発しました。以下に開発したWebシステムの画面例(パラメータ修正画面)を示します。

©2014 CloverLab.,Inc.

Hironobu Abe and Qing Chen: An automatic face image generation system with pose and facial expression difference for game characters based on StyleGAN2, 8th IIEEJ International Conference on Image Electronics and Visual Computing (IEVC2024) CTP-02, Tainan, Taiwan (March 2024)

■語尾・認証表現の自動抽出に基づく対話システムのキャラクタ性の構築

対話システム上にキャラクタ性を構築することで、その機械と対話する際の人間らしさや対話の満足感の向上が期待できるが、そのためには応答をすべて手作業で入力する、または、徹底したチューニングを行う必要性があり、手作業が必要になり手間がかかってしまうという問題がありました。

このような問題を解決するために、キャラクタの発言を解析し、その解析結果からキャラクタ性を構築する方式として、重要と思われる語尾・人称の表現を自動抽出する方式について提案し、抽出結果をユーザが修正してキャラクタデータとして使用できるアプリケーションを開発しました。以下に、本研究にて開発したアプリケーションの概要について示します。

さらに、アプリケーションを用いて実際にキャラクタ性を構築し、その結果を対話システムに適用し、ユーザ評価した結果、提案方式の有効性について確認することができました。以下に、構築したキャラクタ性の評価結果について示します。

長島大和, 阿倍博信: 語尾・人称表現の自動抽出に基づく対話システムにおけるキャラクタ性の構築, 第14回データ工学と情報マネジメントに関するフォーラム DEIM2022, E24-2, オンライン開催 (2022.2)

[2]マルチメディアデータの収集・蓄積技術、分析・活用技術

■3Dゲームエンジンを用いた全周魚眼カメラ対応データセット作成と人物間の密接度推定方式

新型コロナウイルスの流行により、感染対策として密閉・密集・密接の回避が求められています。そのため、映像解析技術を用いて人物間の密集および密接を監視するシステムを開発する必要があります。本研究では天井に設置した全周魚眼カメラを活用して人物の密集・密接を検出するシステムを対象として、システムの開発の際に必要となる機械学習用の全周魚眼画像のデータセット作成に着目します。全周魚眼画像のデータセットは一般的に流通しておらず入手が困難なため、今回、3DゲームエンジンであるUnityを用いて人物検出のための全周魚眼画像のデータセットの自動作成に取り組みました。以下に、今回Unityを用いて自動作成した全周魚眼画像のデータセットの例(出力画像とアノテーション画像)を示します。

また、作成したデータセットを用いて、機械学習に基づき全周魚眼画像から人物検出を行い、検出した人物間の距離と顔の向きに基づき密接度をモデル化し、入力された全周魚眼画像から人物検出と姿勢推定を行うことで、人物間の密接度を推定する方式について提案しました。以下に今回提案した人物間の密接度の推定方式の処理フローについて示します。

秋田悠河, 古宮嗣朗, 阿倍博信: 3Dゲームエンジンを用いた全周魚眼カメラにおける人物検出と位置推定用データセットの作成と評価, 情報処理学会 デジタルコンテンツクリエーション研究会 第30回研究会, Vol.2022-DCC-30, No.1, pp.1-7, オンライン開催 (2022.1)

古宮嗣朗, 秋田悠河, 阿倍博信: 人物検出と姿勢推定の組み合わせに基づく屋内全周魚眼画像に対する人物間の密接度推定方式, 情報処理学会 デジタルコンテンツクリエーション研究会 第30回研究会, Vol.2022-DCC-30, No.20, pp.1-5, オンライン開催 (2022.1)

■観光スポット推薦のための旅行ブロガーの信頼性推定

ブログやSNSなどのUGC(User Generated Contents)の一般化に伴い、旅行に関するユーザ発信情報も増えています。特に、これらの情報を活用した推薦システムの研究も盛んに行われています。しかし、UGCはユーザによる個人差も大きいため、信頼性の高いユーザを見つけることが課題になっていました。そこで本研究では、観光スポットの推薦システムの構築を目的として、旅行ブロガーの信頼性推定に必要な複数の指標を定義するとともに、旅行ブログのメタデータや内容の解析結果を用いて、旅行ブロガーの信頼性を推定する方式を提案しました。以下に、提案システムの概要、提案システムで用いた5つの指標について説明します。

提案方式を実際の旅行ブログに適用しユーザ評価を行った結果、提案方式の有効性について確認することができました。

近藤昭宏, 阿倍博信: 観光スポット推薦のための旅行ブロガーの信頼性推定, 第15回データ工学と情報マネジメントに関するフォーラム DEIM2023, 4c-9-2, 長良川国際会議場 (2023.3)

関連学会(国内)

情報処理学会

画像電子学会

映像情報メディア学会

電子情報通信学会

日本データベース学会

関連学会(国際)