私たちは、メールにおけるドメインのタイプミスを収集することで、 人が誤って送信しやすいタイポスクワッティングドメインを生成するモデルを提案した。 モデルの構築にあたって、実際のドメインからメールアドレスデータセットを作成し、 300人の実験参加者にそれぞれ40個のメールアドレスを入力してもらう実験を行い、 メールにおけるドメインのタイプミスを収集した。 このリポジトリは、メールにおけるドメインのタイプミスを公開するものである。
我々の研究で収集するタイプミスしたドメイン(タイポドメイン)は、以下の条件を満たすものとする。
- RFC5321およびRFC5322に準拠したドメイン
- ICANNが認可したトップレベルドメイン(TLD)を使用しているドメイン
- 正しいドメインとダメラウ・レーベンシュタイン距離が1〜5のドメイン
以下の表は、タイポドメインの例である。
正しいドメイン | タイポドメイン | 説明 |
---|---|---|
example.com | exampl.com | 削除 |
example.com | eaxmple.com | 転置 |
example.com | example.co | TLDの変更 |
example.com | example.co.jp | ダメラウ・レーベンシュタイン距離が3 |
example.co.jp | exampleco.jp | (.)の削除 |
以下の表は、本研究において収集しないタイポドメインの例である。
正しいドメイン | 収集しないタイポドメイン | 説明 |
---|---|---|
example.com | example..com | RFCに準拠していない |
example.com | example.coom | TLDがICANNに認可されていない |
example.com | exampletyposquatting.com | ダメラウ・レーベンシュタイン距離が6以上 |
我々は以下のデータセットを提供する。
typosquatting_domains_one.csv
: 収集したタイポドメイン(正しいドメインとダメラウ・レーベンシュタイン距離が1)typosquatting_domains_two_or_more.csv
: 収集したタイポドメイン(ダメラウ・レーベンシュタイン距離が2以上5以下)domains.csv
: 実験で使用したドメイン- TOPIX銘柄企業のドメインのうち、MXレコードが存在するドメイン
local_parts.csv
: 実験で使用したローカルパート- 日本人の姓、名を使って厚生労働省の人口動態調査に基づいて生成
- 「姓」は名字由来netから上位5000位までの姓を使用
- 「名」は明治安田生命の名前ランキングにおいて、1958年から2024年まででランキング圏内の名を使用
- 姓と名の組み合わせはIntersteller社の調査結果に基づいて生成
correct_email-addresses.csv
: 実験で使用したメールアドレスdomains.csv
のドメインとlocal_parts.csv
のローカルパートをランダムに組み合わせて生成
我々が提供するデータセットを使用する際には、我々の論文を引用してください。
英語(または日本語以外の言語)で書かれた論文では、引用は次のようになります:
Soma Sugahara, Rannosuke Hoshina, Tetsutaro Uehara: "Proposal of a Typosquatting Domain Generation Model based on the analysis of Typographical Error Tendencies", IPSJ SIG Technical Reports, Vol. 2025-IOT-68, No.59, p. 1-8, 2025
日本語で書かれた論文の場合、引用は次のようになります:
菅原颯真, 星名藍乃介, 上原哲太郎: "タイプミス傾向の分析に基づくタイポスクワッティングドメイン生成モデルの提案", 研究報告インターネットと運用技術(IOT), Vol. 2025-IOT-68, No.59, p. 1-8, 2025
上原 哲太郎(立命館大学 情報理工学部)