解決方法の天啓が降りてきてゴリゴリと実装した結果、「通常より塩辛く炒めた豚肉」回がいつなのかを検索できるシステムが完成!
— はげあたま (@hageatama) 2020年7月24日
42分頃から20分ぐらいずっとその話題。
副産物で推しの発言.sqlが爆誕しており、UI整えたらWEBサービス公開できそうな勢い😆 #獅堂リオhttps://t.co/RzdL6Ct7Fe
VTuberさんの配信って長いうえに取り留めのない雑談なので、特定の話題をしゃべった時のアーカイブ発掘はかなり難易度高いんですよね。
しかし、「あ、YouTubeくん自身が自動で字幕生成してくれているんだから、それ検索すりゃいいんじゃん」と気付いたのでジェバンニやりました。そんだけです。
経緯
リオぴが通常より塩辛く炒めた豚肉の話してたのってどこじゃったけ……
— きなこおもち (@omochi88v4) 2020年7月24日
— 獅堂リオ🦁7/28お誕生日㊗ (@ShidoLio) 2020年7月24日
塩振りおじさんのように豚肉に塩を振るリオぴ描けたよ!
— きなこおもち (@omochi88v4) 2020年7月24日
タグはやめておくよ! pic.twitter.com/Hdght2koLN
簡単な技術的解説?
配信を全部観ている勢の義務として、雑談内容のインデックスだけでもまとめておくべきか?
— はげあたま (@hageatama) 2020年7月24日
昨晩の配信をテスト的にScrapboxにまとめてみたんだけど、はっきり言ってこれは厳しい!
グラブルやりながらの雑談配信だと、気付いたら話題が始まっていたり、話が進んでからしか何の話かわからなかったりと、聴きながら人力でまとめるには相当なコストがかかり、これは続かないという確信が発生。
推しの配信を文字起こししてデータベース化する必要があるのでは
— ママ(ɯ̹t͡ɕʲi) (@c18t) 2020年7月24日
そんな折、フォロワーのこの発言が流れてきて、気付いたわけですよ。最も出力コストのかかる音声認識部分を、YouTubeくん自身が字幕として自動生成してくれているんだから、それをゴニョゴニョするだけでいい、と。
そんなわけで、
- リオ様自身の作ったグラブル配信の再生リストからURLリスト抽出
- 各URLから字幕ファイルを直接叩く
- XMLなので右から左でデータベースファイルに流し込む
- 検索
という流れ。構造化されたデータと枯れた技術ばかりなので実装難易度は低。YouTubeの字幕落としてくるあたりが若干特殊だけど、慣れた人なら数時間かと。
他の豚肉発言①https://t.co/1E0Nij4EUZ
— はげあたま (@hageatama) 2020年7月24日
そんなわけで、いつでも、推しが豚肉の話をどこでしているかが探せるようになりました、と。
実際には、かなり認識がアホな上にグラブルの固有名詞とかでぐちゃぐちゃなのと、長時間配信なせいなのか字幕がそもそも無い配信が全体の1割くらい出てましたが、結構実用的かと。
ただ、字幕ファイルの権利とかどうなっているのかがさっぱりなので、WEBサービスとして公開するにはどうすりゃいいのかな?という問題も。
何がいいたいかというと、にじさんじとかホロライブなどの大手の箱、あるいはもっとマスを狙った各YouTuber専用として絞って実装すれば、そこそこアクセス来て小銭稼ぎできそうだな、と。まあ私はやらないけど、やりたい人はどうぞ。
あと、獅堂リオ様に限定すれば、発掘したい話題について私のTwitterにリプライもらえれば短時間で提示できると思います。現状の実装としては、今からVPS側にcron仕込むので、毎日巡回→SQLファイル更新→Dropbox経由でWindows側に同期が出来るため、楽に運用できそうですので。
参考リンクなども。ただ、まんまこの通りかというとそうでもなかったです。