Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2024/04/17]推薦・機械学習勉強会 #243

Open
Hayashi-Yudai opened this issue Apr 16, 2024 · 3 comments
Open

[2024/04/17]推薦・機械学習勉強会 #243

Hayashi-Yudai opened this issue Apr 16, 2024 · 3 comments

Comments

@Hayashi-Yudai
Copy link
Collaborator

Hayashi-Yudai commented Apr 16, 2024

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう!

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3角川/nogawanogawa林/python_walker まで DM を送るか、Wantedly Visit の募集(https://www.wantedly.com/projects/391912) よりご連絡ください!

What

Wantedly では隔週水曜日に

  • 推薦の評価指標について議論したい
  • 〇〇っていうライブラリ / フレームワークを導入してみたい
  • 他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
  • もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。
この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう!
会の間に話した内容もここにメモしましょう!

prev: #241

@chimuichimu
Copy link
Collaborator

chimuichimu commented Apr 17, 2024

LLMを活用した大規模商品カテゴリ分類への取り組み

概要

LLMとkNNによる2ステージ構成の予測アルゴリズムで、30億を超える商品のカテゴリ分類を実現したメルカリの事例

背景

  • メルカリは2024年に商品カテゴリをリニューアル。階層構造が変わり、カテゴリ数が大幅に増えた
  • 新しいカテゴリで商品を分類したいが、過去データもなく膨大なカテゴリ数のため、教師あり学習やルールベースでの構築が困難
  • -> LLMを活用できないか?

解決策

  • LLMとkNNによる2ステージ構成の予測
  • 1st: LLMによる一部商品のカテゴリ予測
    • 過去の出品商品の数百万点をサンプリング
    • ChatGPT 3.5 turboに正解カテゴリを予測させる
  • 2nd: kNNによるカテゴリ予測
    • 1stで作ったデータセットからkNNモデルを作成
    • 入力
      • 商品の商品名、商品説明文などを連結した文字列のembedding
    • 出力
      • 商品カテゴリ
  • なぜ LLM だけでやらないのか?
    • コストと処理時間が問題になるから(コスト -> 約100万ドル、処理時間 -> 1.9年という見積りだったらしい)

個人的に良いと思った点

  • 様々な工夫でやりたいことを低コストで実現している
  • Voyager による高速なベクトル検索
  • cuDF / Numba による処理の高速化

@Hayashi-Yudai
Copy link
Collaborator Author

Hayashi-Yudai commented Apr 17, 2024

インターンシップで挑戦した広告効果の推定方法の開発と実践

CyberAgentのインターン生による、施策効果の推定方法に関する記事。

  • 解決したかった課題
    • セグメントを切って施策効果の分析をするときに、分析対象ユーザー数のばらつきによって推定精度にむらができる
    • 分析対象の集合の大きさを同程度にするためにセグメントの大きさを調整すると細かい部分に対する分析が難しくなる
  • 解決手法
    • Binの大きさを可変にする
    • 局所回帰モデルを解析モデルに組み込む

@nogawanogawa
Copy link
Contributor

nogawanogawa commented Apr 17, 2024

AI導入による口コミ投稿画像のカテゴライズ業務の一部自動化について

  • CLIPを使って画像のカテゴリ付を一部自動化
  • 33%ほどは手動でやっているとはいえ、2/3が自動で振り分けられるのであれば結構な工数削減になりそう

OpenAI、日本語に最適化したGPT-4モデルをリリースへ。日本法人の設立も

日本語に最適化したGPT-4、早く出ないかなあ(切実)

https://forest.watch.impress.co.jp/docs/news/1584435.html
一部の人は使えるらしい、羨ましい…

Google Cloud Next ‘24 における発表

なるほど、たくさんある…

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants