Upload
kosetsu-tsukuda
View
307
Download
2
Embed Size (px)
Citation preview
1
スマホでアクセス
WebDB Forum 2017(2017. 9. 20)
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス産業技術総合研究所 佃洸摂 石田啓介 後藤真孝
歌詞トピック 2
各アーティストには固有の歌詞トピックの傾向が存在
アーティストA
恋愛青春
自然
アーティストB
友情
青春夢
歌詞トピックに基づくアプリケーション例 3
検索
推薦
「恋愛」についてよく歌うアーティストを探したい
アーティストA アーティストC アーティストF
恋愛 恋愛 恋愛
アーティストBが好き
友情
アーティストD アーティストG アーティストH
友情 友情 友情
Lyric Jumper 4
様々な歌詞やアーティストに出会える新しい歌詞探索サービス
歌詞のトピックを可視化 アーティストごとの歌詞の傾向に基づく歌詞探索
歌詞のトピックを決める難しさ 5
膨大な歌詞データにどんなトピックが存在するか
不明
各歌詞がどのトピックに所属するか
不明
「恋愛」と「青春」と・・?
15万歌詞 「自分探し」?「夢と未来」?
YELL / いきものがかり
「“わたしは”今 どこに在るの」と踏みしめた足あとを何度も見つめ返す
枯れ葉を抱き秋めく窓辺にかじかんだ指先で夢を描いた
翼はあるのに飛べずにいるんだひとりになるのが恐くてつらくて…
提案モデル概要 6
歌詞データ(15万曲)
大規模な歌詞データを与えるだけでトピックを自動的に推定確率モデルによる歌詞トピック解析
歌詞 トピック松田聖子/あなたに逢いたくて 4
松田聖子/赤いスイートピー 11
井上陽水/少年時代 16
アーティスト・歌詞・単語という3階層の構造を考慮
歌詞データ全体での単語の出現傾向を利用
傾向の差異が端的に表現されるようトピックを自動決定
「恋愛」 永遠の愛・一途な恋・ラブソング大人の恋愛(女性編)・大人の恋愛(男性編)
Latent Dirichlet Allocation (LDA) 7
LDA:歌詞トピックを扱う際のデファクトスタンダード Sharma+, “Mining sentiments from songs using latent Dirichlet allocation”, IDA’11 Johnson-Roverson+, “Temporal and regional variation in rap lyrics”, NIPSW’13 Sasaki+, “LyricsRader: A lyrics retrieval system based on latent topics of lyrics”, ISMIR’14 Ren+, “What makes a music track popular in online social networks?”, WWW’16
𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑
𝛽𝛽
トピック
楽曲
単語
…夏 海 太
陽
トピック2
楽曲ごとにトピック分布𝜃𝜃を持つ 単語ごとにトピック𝑧𝑧を生成 トピックの単語分布に応じて単語𝑣𝑣を生成
1 2 3 20…
トピック
提案モデル 8
𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑
𝛽𝛽
トピック
楽曲
単語
ポイント1:アーティストごとにトピックの分布を持つ
アーティスト
星野源
提案モデル 9
𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑
𝛽𝛽
トピック
楽曲
単語
アーティスト
星野源
ポイント2:楽曲ごとに1つのトピック𝒛𝒛を持つ歌詞を書き始める前に主題を決めることが一般的 [Baxter, Toivanen+]
トピック3
提案モデル 10
𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑
𝛽𝛽
トピック
楽曲単語
アーティスト
ポイント3:トピックとは無関係な背景語の分布𝝍𝝍を持つ
𝑠𝑠
𝜆𝜆
𝜌𝜌𝜓𝜓𝛾𝛾
…これ事 時
星野源
トピック
背景語
評価実験
Research Question 12
アーティストの歌詞に対する好みを考慮することは歌詞のモデル化を行う際に有用か
LDA 提案モデル
VS
実験設定 13
データセット
評価指標
𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝐷𝐷𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑝𝑝𝑝𝑝𝑝𝑝 −∑𝑎𝑎∈𝐴𝐴∑𝑟𝑟=1
𝑅𝑅𝑎𝑎𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 ∑𝑗𝑗=1𝑉𝑉𝑎𝑎𝑎𝑎𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑝𝑝 𝑣𝑣𝑎𝑎𝑟𝑟𝑗𝑗
∑𝑎𝑎∈𝐴𝐴∑𝑟𝑟=1𝑅𝑅𝑎𝑎𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑉𝑉𝑎𝑎𝑟𝑟𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
歌詞配信業者から提供された歌詞データ 登録歌詞数の上位1,000アーティストの93,716件の歌詞 各歌詞の単語の80%を学習データ・20%をテストデータ
評価 14
トピック数
1100
1200
1300
1400
0 10 20 30 40 50
LDA提案モデル
良
悪Pe
rple
xity
トピック数:2、4、6、8、10、20、30、40、50 トピック数によらず提案モデルがLDAより高精度
Lyric Jumper
2017/2/21公開(https://lyric-jumper.petitlyrics.com) 16
2016/12/31時点で10曲以上の楽曲を持つアーティストが対象 3,722アーティストの147,990件の歌詞を使用
データ
トピック数:20 少なすぎると飽きやすいが多すぎると似たトピックが出現 トピック名を単語分布と代表アーティストから人手で決定
トピック
PC版 スマホ版
トピック別アーティストランキング機能
トピック別アーティストランキング機能 18
トピックとの関連度が高い順にアーティストをランキング
トピック:大人の恋愛(女性編)割合:1位 / 20トピック曲数:58曲
トピックの割合の順位を第1キートピックを持つ曲数を第2キー
としてランキング
トピック:大人の恋愛(女性編)割合:5位 / 20トピック曲数:3曲
アーティスト推薦機能
アーティスト推薦機能 20
1 2 3 20 1 2 3 20… …
トピックの確率分布のJS距離を元に類似度計算
曲数が100曲以上のアーティストから上位8アーティストを推薦 曲数が100曲未満のアーティストから上位2アーティストを推薦 ユーザがメジャー・マイナーなアーティストに触れられる
トピックの傾向が類似したアーティストを推薦
奥田民生 斉藤和義
歌詞の強調表示機能
歌詞の強調表示機能 22
順位 単語 スコア1 君 1002 愛 99
99 真実 2100 祈り 1101 現実 0102 ぬくもり 0
…
トピックとの関連度が高い行ほど強調して表示
… トピック内生起確率の順位に応じて単語をスコア付け 順位が100位より下の単語のスコアは0
「永遠の愛」トピックの単語生起確率の順位
歌詞の強調表示機能 23
トピックとの関連度が高い行ほど強調して表示
この愛を捧げて / THE ALFEE
星に命があるとしたならば君はその生命を守りきれるのか名もなく生まれし消えゆく運命よ愛しき人の命…君は守れるのか…
行ごとに単語スコアの和を求めてMIN-MAX法で正規化
スコアに応じて に変化文字サイズを16pt~36pt文字色を白~トピック色
109
131
36
227
0.36
0.43
0.12
0.74
正規化前 正規化後
楽曲ランキング機能
楽曲ランキング機能 25
トピックとの関連度が高い順に楽曲をランキング
この愛を捧げて / THE ALFEE
星に命があるとしたならば君はその生命を守りきれるのか名もなく生まれし消えゆく運命よ
幾千億の星に誓う永遠の愛を
…
平均値
109
131
36
246
118
単語スコアを元に各行のスコアを計算 各行のスコアの平均値=楽曲とトピックの関連度
フレーズ推薦機能
フレーズ推薦機能 27
様々な楽曲からトピックと関連度の高いフレーズを推薦
トピックとの関連度の高い行から順に最大100フレーズ抽出 多様なフレーズに触れられるようフレーズをランダムに表示
「家入レオ」の「夢と未来」トピックに関する楽曲
僕達の未来
世界が君に夢を見てる
TWO HEARTS
探してた未来
Message
心のまま今は進める
…
ログ分析
ログ分析 29
機能 PC スマホアーティストランキング 2,092 30,295アーティスト推薦 1,706 4,016楽曲ランキング 5,399 14,665フレーズ推薦 4,997 253,430
2017/2/21~3/22の30日間に渡る全ユーザの操作ログ PCユーザ数:1,288 スマホユーザ数:11,065
スマホユーザのフレーズ推薦機能の使用頻度が高くトピックの様々なフレーズの提示がユーザの興味を喚起
両ユーザのアーティスト推薦機能の使用頻度は低くインタフェース面での改善が必要
(回)
まとめ|本研究の貢献・今後の課題 30
2実データを用いて提案モデルを定量的に評価歌詞トピック推定のデファクトスタンダードであるLDAと比較し有用性を示した
1歌詞生成モデルを提案各アーティストがトピック分布を持ち歌詞ごとにひとつのトピックを割り当て
3WebサービスLyric Jumperを公開3,722アーティストの約15万件の歌詞に提案モデルを適用
今後の課題
モデルの言語非依存性を活かし洋楽板Lyric Jumperを公開 音響特徴量やタグと組み合わせたより柔軟なシステム提案