173 日本語RoBERTa とか 俳句AI とか
お題
日本語RoBERTa largeが公開
日本語RoBERTa largeを公開しました。BERT系日本語モデルの中ではおそらく最強と思います。(Juman++で分かち書きして入力する必要がありますが。)https://t.co/iZuCzTuSqc
— Daisuke Kawahara (@daisukekawahar1) May 11, 2022
俳句AI作成中
聴いてて面白そうだなぁと思っていました!
— ころんびあ (@colum2131) May 9, 2022
特にBERTで学習させるなら,俳句とかだと気に入らない部分を[MASK]しちゃって字数を守った他のいいトークンを見つける手がかりにもなりそうで,BERTで俳句を学習させる価値が何だかありそうに思えてきちゃいました笑
ころんびあさんのツイートを見て、確かにと思い俳句のAIに取り組んでる。
- 口語と文語の扱い
- BERT系だと、単語毎のトークンを作る必要がでてくるが、俳句は文語で表記されている場合が多く、Wikipediaの表現だけだと心細い
- 17音
- 音の数でしっかりと止めることができるのか
- HuggingFace
- https://huggingface.co/KoichiYasuoka/roberta-large-japanese-aozora
- wikipediaでなく青空文庫で学んだモデルを採用
- https://huggingface.co/KoichiYasuoka/roberta-large-japanese-aozora
- 比較的文語が多い
- 音の問題
- とりあえず、17音の俳句のみで学習させてみる
"[MASK]や蛙飛びこむ水の音”
- 学習前
- 'sequence': '蛙や蛙飛びこむ水の音'
- 'sequence': '蛇や蛙飛びこむ水の音'
- 'sequence': 'はや蛙飛びこむ水の音'
- 学習後
- 'sequence': '江戸川や蛙飛びこむ水の音'
- 'sequence': '苗代(なわしろ)や蛙飛びこむ水の音’
- 'sequence': '蓮池や蛙飛びこむ水の音’
今度は自分の作った句で試す(以前ポッドキャストで詠んだもの)
"チチチチと秒針進み[MASK]” (オリジナルは花筏)
- 'sequence': 'チチチチと秒針進み十二月’
- 'sequence': 'チチチチと秒針進み日向ぼこ’
- 'sequence': 'チチチチと秒針進み猫柳’
“もしもしと貝に耳あて[MASK]の海” (オリジナルは春)
- 'sequence': 'もしもしと貝に耳あて春の海’
- 'sequence': 'もしもしと貝に耳あて秋の海’
- 'sequence': 'もしもしと貝に耳あて冬の海’
- 'sequence': 'もしもしと貝に耳あて夏の海’
読んだ本: 人生はゲームなのだろうか?
https://www.chikumashobo.co.jp/product/9784480684202/
考えるにあたっては、ゲームとは何かを定めるため必須なものを考える。
— カレーちゃん🍮 (@currypurin) May 16, 2022
で「プレイヤーが目指すべき終わりが定められていて」、かつ、「プレイヤーにできること・できないことが定められている人間の活動である」という一旦の結論に達する。
で、もう少し考えるとこれだけでは少し足りないことがわかる
今週の分析コンペ
https://t.co/JAJtkYg9Xf
— カレーちゃん🍮 (@currypurin) May 11, 2022
Kaggle新コンペ、Kaggle Notebookのコードとコメントの関係の予測
・Kaggle Notebookのセルの順番予測
・8/11まで
・コードコンペ
・その後、新しく作成されたNotebookで評価され、11 /10確定
ユニークなコンペで難しそう
- 民泊サービスの宿泊料金予測終了
- 1位solution
- https://comp.probspace.com/competitions/bnb_price/discussions/ktr-Post81ef512263d91f310b73
- 自然言語のモデルを使って、アンサンブルに寄与させているのは珍しい
- 1位solution
input_text = "number of reviews, " + str(examples["number_of_reviews"]) + sep_token +\
"minimum nights, " + str(examples["minimum_nights"]) + sep_token +\
examples["room_type"] + sep_token + examples["neighbourhood"] + sep_token + examples["name"]
雑談・来週話したいこと
Kaggle講座やります
NBMEがまだ確定しないので、KaggleGrandMaster(となる予定)が語るになった。6/10までには確定しているでしょうきっと。
— カレーちゃん🍮 (@currypurin) May 16, 2022
今回はコンペの体験談を多めに話すはず。
Kaggle Grand Masterカレーちゃんが語る Kaggle応用編 https://t.co/T7B2KI5vlk
KaggleでTitanicの次に何をすれば良いか
質問者としては、神notebook相当をスクラッチから書き上げて、独創的なソリューションにてコンペ上位争いをする方法を聞きたいのだろうが、そんなことは不可能だから、さっさと公開notebookのアンサンブルでもsubmitして(それでも初心者には難しいはず)、コンペに参加しろと伝えたい。
— Miyatti (@y4tk38) May 14, 2022
Kaggleできるマンの会社の先輩が言うには、入口はタイタニックじゃなくて#10 atmacupがいいらしい。やってみようかしら
— Baplisca (@sooooouls) May 12, 2022
(Kaggle強くなるために必要なの気合いだと思う)
— charm (@charmq00) May 14, 2022