VTuberさんの配信内発言をテキスト検索するシステムの試作について

 VTuberさんの配信って長いうえに取り留めのない雑談なので、特定の話題をしゃべった時のアーカイブ発掘はかなり難易度高いんですよね。

しかし、「あ、YouTubeくん自身が自動で字幕生成してくれているんだから、それ検索すりゃいいんじゃん」と気付いたのでジェバンニやりました。そんだけです。

 

 経緯

 

簡単な技術的解説?

 scrapbox.io

昨晩の配信をテスト的にScrapboxにまとめてみたんだけど、はっきり言ってこれは厳しい!

グラブルやりながらの雑談配信だと、気付いたら話題が始まっていたり、話が進んでからしか何の話かわからなかったりと、聴きながら人力でまとめるには相当なコストがかかり、これは続かないという確信が発生。

 

 そんな折、フォロワーのこの発言が流れてきて、気付いたわけですよ。最も出力コストのかかる音声認識部分を、YouTubeくん自身が字幕として自動生成してくれているんだから、それをゴニョゴニョするだけでいい、と。

そんなわけで、

  • リオ様自身の作ったグラブル配信の再生リストからURLリスト抽出
  • 各URLから字幕ファイルを直接叩く
  • XMLなので右から左でデータベースファイルに流し込む
  • 検索

という流れ。構造化されたデータと枯れた技術ばかりなので実装難易度は低。YouTubeの字幕落としてくるあたりが若干特殊だけど、慣れた人なら数時間かと。

 

そんなわけで、いつでも、推しが豚肉の話をどこでしているかが探せるようになりました、と。 

 

実際には、かなり認識がアホな上にグラブルの固有名詞とかでぐちゃぐちゃなのと、長時間配信なせいなのか字幕がそもそも無い配信が全体の1割くらい出てましたが、結構実用的かと。

ただ、字幕ファイルの権利とかどうなっているのかがさっぱりなので、WEBサービスとして公開するにはどうすりゃいいのかな?という問題も。

 

何がいいたいかというと、にじさんじとかホロライブなどの大手の箱、あるいはもっとマスを狙った各YouTuber専用として絞って実装すれば、そこそこアクセス来て小銭稼ぎできそうだな、と。まあ私はやらないけど、やりたい人はどうぞ。

 

あと、獅堂リオ様に限定すれば、発掘したい話題について私のTwitterにリプライもらえれば短時間で提示できると思います。現状の実装としては、今からVPS側にcron仕込むので、毎日巡回→SQLファイル更新→Dropbox経由でWindows側に同期が出来るため、楽に運用できそうですので。

 

参考リンクなども。ただ、まんまこの通りかというとそうでもなかったです。

mitoh.seesaa.net