Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2024/08/14] Machine Learning 輪講 #260

Open
chimuichimu opened this issue Aug 12, 2024 · 2 comments
Open

[2024/08/14] Machine Learning 輪講 #260

chimuichimu opened this issue Aug 12, 2024 · 2 comments

Comments

@chimuichimu
Copy link
Collaborator

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #258

What

話したいことがある人はここにコメントしましょう!
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

@chimuichimu
Copy link
Collaborator Author

MIRROR: A Multi-View Reciprocal Recommender System for Online Recruitment

オンライン求人サービスにおいて、ユーザーのクエリや異なる役割の振る舞いから嗜好を捉える相互推薦モデルを提案する論文

Journal / Conference

SIGIR 2024

Background

サービスの提供側と受け手側の双方の嗜好を考慮する「相互推薦システム」が、オンライン求人サービスのようなプラットフォームで重要視されてきている

Motivation

過去の相互推薦システムの研究で対処できていない課題

  • 露出バイアスへの対処
    • 相互推薦が必要になるプラットフォームでは、ユーザーが目的を達成したら離脱する傾向があるため、 通常の推薦システムよりも露出バイアスによる悪影響が大きい
  • 異なる役割の振る舞いからユーザーの嗜好を捉える
    • 求人サービスプラットフォームでは、ユーザーは仕事を探したり、仕事に応募したり、オファーを受け取ったり、と様々な役割で嗜好を表現する

これらの課題に対処できる相互推薦のフレームワークを作りたい

Method

image

提案手法のユニークな要素

  • ユーザーが過去に行ったクエリの活用
    • クエリをユーザーの明示的な嗜好データとして扱うことで exposure bias に対処しているらしい
  • ユーザーの異なる役割(search, active, passive)での行動から嗜好を抽出
  • クエリを予測するタスクから計算されるロスを学習時に使う
    • 異なるタイプのデータを "bridge the semantic gap" するためらしい(よく分かってない)

Evaluation

  • Boss Zhipin という中国のオンライン求人サービスの実データを利用して、オフライン、オンラインで評価
  • ベースライン:一般的な推薦モデル(GRU4Rec など)と online recruitetment の先行研究の提案手法

Result

  • 全データセットでベースラインを上回る結果
  • A/Bテストでも KPI の改善が見られた
  • ablation study でユーザーの各 view を取り込んでモデリングすることや、マルチタスクな学習プロセスの有効性を確認

@nogawanogawa
Copy link
Contributor

nogawanogawa commented Aug 14, 2024

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

論文URL

https://arxiv.org/abs/2408.01262

著者

Kunlun Zhu, Yifan Luo, Dingling Xu, Ruobing Wang, Shi Yu, Shuo Wang, Yukun Yan, Zhenghao Liu, Xu Han, Zhiyuan Liu, Maosong Sun

会議

?

背景

RAGのよくあるベンチマークは一般的なドメインにおける質問への回答によって正確性を測定している。
ただし、特に金融・医療・法律などのドメインではこのやり方では評価しきれないことが多い。

異なるドメインのベンチマークを構築することが簡単な方法ではあるものの、データの気密性などの問題もあり品質かつ多様なデータセットを構築することは一般に困難になっている。

目的

  • ドメイン個別に対応できるベンチマークフレームワークを作る

アプローチ

  • RAGEval
    • ドメインにおけるシナリオ固有のRAG評価ケースを自動的に生成するように設計された汎用フレームワーク
image
  1. ドキュメントセットの中から少数の文書をサンプリングして、テキスト構造化のスキーマを推定する(フィールド間の対応関係とかが異なってたりする)
  2. 複数のスキーマを統合してconfigを作成する
  3. configに基づいて文書内容に基づいて情報抽出
  4. 抽出した情報に則って文書を再構成
  5. 問題、参照、回答の作成
    • キーポイントを抽出し、重要な問題になるようにする

memo

nogawanogawa/paper_memo#118

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants