Skip to content

Latest commit

 

History

History
57 lines (48 loc) · 4.25 KB

README_ja.md

File metadata and controls

57 lines (48 loc) · 4.25 KB

メールにおけるタイポスクワッティングドメイン一覧

はじめに

私たちは、メールにおけるドメインのタイプミスを収集することで、 人が誤って送信しやすいタイポスクワッティングドメインを生成するモデルを提案した。 モデルの構築にあたって、実際のドメインからメールアドレスデータセットを作成し、 300人の実験参加者にそれぞれ40個のメールアドレスを入力してもらう実験を行い、 メールにおけるドメインのタイプミスを収集した。 このリポジトリは、メールにおけるドメインのタイプミスを公開するものである。

研究対象のドメイン

我々の研究で収集するタイプミスしたドメイン(タイポドメイン)は、以下の条件を満たすものとする。

  • RFC5321およびRFC5322に準拠したドメイン
  • ICANNが認可したトップレベルドメイン(TLD)を使用しているドメイン
  • 正しいドメインとダメラウ・レーベンシュタイン距離が1〜5のドメイン

以下の表は、タイポドメインの例である。

正しいドメイン タイポドメイン 説明
example.com exampl.com 削除
example.com eaxmple.com 転置
example.com example.co TLDの変更
example.com example.co.jp ダメラウ・レーベンシュタイン距離が3
example.co.jp exampleco.jp (.)の削除

以下の表は、本研究において収集しないタイポドメインの例である。

正しいドメイン 収集しないタイポドメイン 説明
example.com example..com RFCに準拠していない
example.com example.coom TLDがICANNに認可されていない
example.com exampletyposquatting.com ダメラウ・レーベンシュタイン距離が6以上

データセット

我々は以下のデータセットを提供する。

  • typosquatting_domains_one.csv: 収集したタイポドメイン(正しいドメインとダメラウ・レーベンシュタイン距離が1)
  • typosquatting_domains_two_or_more.csv: 収集したタイポドメイン(ダメラウ・レーベンシュタイン距離が2以上5以下)
  • domains.csv: 実験で使用したドメイン
  • local_parts.csv: 実験で使用したローカルパート
  • correct_email-addresses.csv: 実験で使用したメールアドレス
    • domains.csvのドメインとlocal_parts.csvのローカルパートをランダムに組み合わせて生成

引用

我々が提供するデータセットを使用する際には、我々の論文を引用してください。

英語(または日本語以外の言語)で書かれた論文では、引用は次のようになります:

Soma Sugahara, Rannosuke Hoshina, Tetsutaro Uehara: "Proposal of a Typosquatting Domain Generation Model based on the analysis of Typographical Error Tendencies", IPSJ SIG Technical Reports, Vol. 2025-IOT-68, No.59, p. 1-8, 2025

日本語で書かれた論文の場合、引用は次のようになります:

菅原颯真, 星名藍乃介, 上原哲太郎: "タイプミス傾向の分析に基づくタイポスクワッティングドメイン生成モデルの提案", 研究報告インターネットと運用技術(IOT), Vol. 2025-IOT-68, No.59, p. 1-8, 2025

連絡先

上原 哲太郎(立命館大学 情報理工学部)