Regonn&Curry.fm

173 日本語RoBERTa とか 俳句AI とか

Posted: May 16, 2022

お題

日本語RoBERTa largeが公開

俳句AI作成中

ころんびあさんのツイートを見て、確かにと思い俳句のAIに取り組んでる。

  • 口語と文語の扱い
    • BERT系だと、単語毎のトークンを作る必要がでてくるが、俳句は文語で表記されている場合が多く、Wikipediaの表現だけだと心細い
  • 17音
    • 音の数でしっかりと止めることができるのか
  • HuggingFace
  • 比較的文語が多い
  • 音の問題
    • とりあえず、17音の俳句のみで学習させてみる

"[MASK]や蛙飛びこむ水の音”

  • 学習前
    • 'sequence': '蛙や蛙飛びこむ水の音'
    • 'sequence': '蛇や蛙飛びこむ水の音'
    • 'sequence': 'はや蛙飛びこむ水の音'
  • 学習後
    • 'sequence': '江戸川や蛙飛びこむ水の音'
    • 'sequence': '苗代(なわしろ)や蛙飛びこむ水の音’
    • 'sequence': '蓮池や蛙飛びこむ水の音’

今度は自分の作った句で試す(以前ポッドキャストで詠んだもの)

"チチチチと秒針進み[MASK]” (オリジナルは花筏)

  • 'sequence': 'チチチチと秒針進み十二月’
  • 'sequence': 'チチチチと秒針進み日向ぼこ’
  • 'sequence': 'チチチチと秒針進み猫柳’

“もしもしと貝に耳あて[MASK]の海” (オリジナルは春)

  • 'sequence': 'もしもしと貝に耳あて春の海’
  • 'sequence': 'もしもしと貝に耳あて秋の海’
  • 'sequence': 'もしもしと貝に耳あて冬の海’
  • 'sequence': 'もしもしと貝に耳あて夏の海’

読んだ本: 人生はゲームなのだろうか?

https://www.chikumashobo.co.jp/product/9784480684202/

今週の分析コンペ

input_text = "number of reviews, " + str(examples["number_of_reviews"]) + sep_token +\
"minimum nights, " + str(examples["minimum_nights"]) + sep_token +\
  examples["room_type"] + sep_token + examples["neighbourhood"] + sep_token + examples["name"]

雑談・来週話したいこと

Kaggle講座やります

KaggleでTitanicの次に何をすれば良いか