名寄せ(同一人物判定)の最小ルール:「同じ顧客なのにデータが分裂している」問題の正体
顧客データの名寄せ(同一人物判定)は、完璧を目指すと底なし沼にハマります。 最小限のルールで事故を防ぐには、判定の優先順位を決めることが重要です。メールアドレスの完全一致で人物を確定し、ドメインは企業推定の補助に留め、電話番号は正規化した上で候補として活用します。最も大切なのは「迷ったら統合しない」という鉄則。誤統合は重複より遥かにダメージが大きく、一度混ざった履歴の分離はほぼ不可能だからです。
顧客データを扱っていると、ほぼ確実にぶつかる壁があります。「この人、前にも登録されてない?」という問題です。
営業担当が変わったタイミングで新規登録されていたり、展示会とWebフォームで別々に入ってきたり。気づけば同一人物のデータが2つ、3つと増えていく。これが名寄せ、つまり同一人物判定の課題です。
厄介なのは、この問題を完璧に解決しようとすると底なし沼にハマることです。部署異動でメールアドレスが変わる、フリーメールを使っている、代表電話しか分からない、携帯番号を変えた――例外を挙げればキリがありません。
だからこそ、最初にやるべきは「完璧な名寄せ」ではなく「最小限のルールで事故を防ぐこと」です。この記事では、現場で最もよく使われるメールアドレス、ドメイン、電話番号の3つに絞って、迷わず運用できる名寄せの基準を整理します。
名寄せが壊れると現場で何が起きるか
名寄せの問題を「データが汚い」という抽象的な話で片付けてしまう人は多いのですが、実際には日々の業務に直接響いてきます。
たとえば、同じ顧客に対して別の担当者がそれぞれ連絡を入れてしまうケース。お客様からすれば「この会社、社内で情報共有できてないのか」という印象になります。一度でもこれが起きると、信頼回復には相当な時間がかかります。
追客の履歴が分散するのも深刻です。Aさんが話した内容をBさんが把握していない。前回どこまで話が進んでいたか誰も分からない。結果として、お客様に同じ説明を何度もさせてしまったり、的外れな提案をしてしまったりします。
営業会議で数字が合わないという事態も起きます。案件が複数のレコードに分かれていると、金額やステータスの集計がずれます。「この案件、本当は受注してるのに未対応になってる」といった混乱が生まれ、正確な売上予測ができなくなります。
メール配信でも問題は顕著です。同一人物に重複してメールが届けば、当然クレームにつながります。配信停止依頼が来ても、別レコードが残っていれば再び届いてしまう。これはもはや運用事故です。
つまり名寄せとは、データ整備という技術的な話ではなく、信用事故を防ぐためのリスク管理なのです。
なぜ「最小ルール」から始めるべきなのか
名寄せの設計で陥りがちな罠があります。それは「精度を上げよう」とするあまり、ルールを複雑にしすぎることです。
条件分岐が増えれば増えるほど、現場の判断はブレます。「このケースはどっちだっけ?」と迷う場面が出てきて、入力者ごとに対応が変わり、結局データは崩壊します。名寄せで大事なのは、精度よりも運用の一貫性です。
最小ルールを設計するときは、3つの基準で考えます。まず、機械的に決まること。人の判断が入る余地をできるだけ減らします。次に、例外が少ないこと。どんなルールにも例外はありますが、例外だらけのルールは機能しません。最後に、将来の拡張に耐えること。最初からすべてを網羅しようとせず、あとから強化できる設計にしておきます。
完璧な同一人物判定は、AIや外部データベースを活用して後からやればいい話です。まずは「重複を増やさない」「統合ミスを起こさない」という最低ラインを守ることが優先です。
名寄せ最小ルールの全体像
結論から言えば、最小ルールは判定の優先順位を決めるだけで8割は解決します。
判定の優先順位
第一優先はメールアドレスの完全一致です。これが一致していれば、同一人物として確定して問題ありません。
第二優先は電話番号の完全一致です。ただし、後述する正規化を行った上での比較が前提になります。電話番号が一致していれば原則として同一人物ですが、代表電話などの例外があるため、メールほどの確度はありません。
第三優先はドメインの一致です。ただし、これは同一人物ではなく「同一企業の可能性がある」という判定にとどめます。ドメインだけで人物を統合してはいけません。
それ以外の情報、たとえば氏名の類似などは、統合の根拠としては使いません。候補として提示するだけにとどめ、最終判断は人が行います。
ここで最も重要なのは、ドメイン一致で人物統合をしないというルールです。同じ会社のドメインを持っていても、別人であることの方が圧倒的に多いからです。この一線を守るだけで、誤統合の事故は大幅に減らせます。
ルール1:メールアドレスは「人物ID」として扱う
完全一致だけで判定する
メールアドレスは、3つの要素の中で最も信頼性の高い識別子です。基本方針はシンプルで、メールアドレスが完全に一致していれば同一人物、一致していなければ別人として扱います。
「苗字も同じだし、会社も同じだから、きっと同一人物だろう」という推測は危険です。確かに同一人物かもしれませんが、同姓の別人かもしれませんし、部署異動でアドレスが変わった可能性もあります。メールが違うなら、一旦は別人として登録し、あとから確認が取れた時点で統合する。この順番を守ることが、事故を防ぐ最短ルートです。
メールアドレス運用の落とし穴と対処法
メールアドレスにも注意すべきパターンがあります。
まずフリーメールについて。GmailやYahoo!メールなどのフリーメールは、人物の識別には使えますが、企業の判定には使えません。ドメインが gmail.com だからといって、Googleの社員というわけではないのは明らかです。人物判定は引き続きメール完全一致で問題ありませんが、企業判定の材料からは外す必要があります。
次に共有アドレスの問題。info@やsales@、support@といったアドレスは、人物ではなく窓口を表しています。これを特定の担当者に紐づけてしまうと、担当者が変わった瞬間に過去の履歴がおかしなことになります。共有アドレスは「会社の窓口」として別のレコードにしておくのが安全です。
エイリアスやドット、プラスタグの扱いも悩ましいところです。たとえば taro+expo@example.com と taro@example.com は、Gmailの仕様では同一アカウントに届きます。しかし、すべてのメールサービスが同じ仕様とは限りません。最小ルールとしては、文字列として完全一致したものだけを同一と判定します。「プラスタグは同一扱い」といった細かいルールは、運用が安定してから追加すればよいでしょう。
ルール2:ドメインは「企業ID」の補助に使う
ドメイン一致は「同じ会社かもしれない」の意味しかない
ドメインが同じだからといって、同じ人物とは限りません。むしろ、大抵は違う人です。
taro@company.co.jp と hanako@company.co.jp は明らかに同じ会社のメールアドレスですが、太郎さんと花子さんという別々の人物です。当たり前のことですが、名寄せのルールを作るときには、この当たり前を明文化しておくことが大切です。
ドメインを使ってやっていいこと
最小ルールにおいて、ドメイン情報を安全に活用できる場面は限られています。
一つは、会社レコードの候補を出すことです。新規で顧客を登録するとき、同じドメインの既存顧客がいれば「この会社ではないですか?」と候補を表示する。これは便利ですし、安全です。
もう一つは、所属企業の自動入力です。メールアドレスを入力したら、ドメインから会社名を推定して候補として表示する。入力の手間が省けますし、表記ゆれの防止にもなります。
大事なのは、人物の統合には使わないということです。ドメインが同じというだけで二つのレコードを一つにまとめてしまうと、別人の情報が混ざり合って取り返しのつかないことになります。
グループ企業や子会社のドメイン問題
実際の運用では、同一企業でもドメインが複数存在するケースがあります。ホールディングス本体と事業会社でドメインが違う、サービスブランドごとに別ドメインを使っている、といった具合です。
最小ルールでは、こうしたケースを無理に吸収しようとしません。holding.co.jp と subsidiary.co.jp を同一企業として扱いたければ、あとから「このドメインは同一企業として扱う」という対応表を作って拡張すればよいのです。最初から完璧を目指すと、ルールが複雑になりすぎて運用が破綻します。
ルール3:電話番号は「強いが危険」な識別子
正規化なしでは比較できない
電話番号は強力な識別子になり得ますが、そのままでは比較に使えません。入力のゆれが激しすぎるからです。
03-1234-5678と0312345678は同じ番号ですが、文字列としては一致しません。全角で入力されていることもあれば、国番号の+81が付いていることもあります。
最小ルールとしては、比較の前に必ず正規化を行います。具体的には、数字以外の文字をすべて削除して数字だけの文字列にすること。そして、先頭の+81は0に置き換えること。日本国内の運用が中心であれば、この2つだけで十分です。この正規化を行うだけで、電話番号の一致判定の精度は格段に上がります。
電話番号一致で人物確定にしない方がいい場面
電話番号には「共有」という厄介な性質があります。
会社の代表電話は複数の社員で共有しています。部署の固定電話も同様です。稀なケースですが、家族で携帯を共有していることもあります。コールセンターの番号が登録されているケースもあるでしょう。
そのため、電話番号一致をどこまで信頼するかは慎重に決める必要があります。携帯電話番号であれば同一人物の可能性はかなり高いと言えます。一方、明らかに固定電話や代表電話のパターン(03や06で始まる番号など)であれば、人物ではなく会社側の情報として扱う方が安全です。
最初から固定か携帯かを厳密に判定する必要はありません。ただ、BtoBの問い合わせフォームなど代表電話が入力されやすい経路では、電話番号一致で人物統合すると事故を起こしやすいという認識だけは持っておくとよいでしょう。
判断に迷ったときの鉄則:統合しない
名寄せにおいて最もダメージが大きいのは、重複ではなく誤統合です。
重複は後から気づいて直せます。二つのレコードを一つにまとめればよいだけです。しかし誤統合は、別人の履歴が混ざり合ってしまうため、どの情報がどちらの人物のものだったか分からなくなります。一度混ざった履歴を分離するのは、現実的にはほぼ不可能です。
だからこそ、判断に迷ったときの運用ルールは明確にしておくべきです。迷ったら統合しない。これを徹底するだけで、データの崩壊リスクは大幅に下がります。
統合しないからといって、その情報を捨てるわけではありません。「統合候補」として記録しておき、人が確認できるようにしておけばよいのです。確認が取れた時点で統合を実行する。あるいは、一定の条件を満たした場合のみ自動統合を許可する。この「疑わしきは統合せず」の方針が、名寄せを安定して運用するための要です。
スプレッドシートで最小ルールを運用する方法
必要な列の設計
専用ツールを導入しなくても、スプレッドシートで最小限の名寄せ運用は可能です。
持っておくべき列は、顧客ID(一度採番したら変更しない)、氏名、メールアドレス(主)、メールアドレス(副、任意)、電話番号(正規化後)、会社名、会社ドメイン、統合先ID、統合メモです。
統合先IDは、そのレコードが別のレコードに統合された場合に、統合先の顧客IDを入れる列です。統合メモには、なぜ統合したのか、あるいは統合候補だが保留にしている理由などを記録します。この2列があるだけで、統合の履歴と判断根拠が追えるようになります。
運用を回すためのコツ
スプレッドシート運用で陥りがちなのは、新規登録時に「この人、既存データと一致してるかな」と厳密に判定しようとして、登録作業が止まってしまうパターンです。
現場を回すためには、登録と判定を分けて考えることが大切です。新規登録はとにかく入力してしまう。その上で、定期的に重複チェックを行い、候補を洗い出す。統合の確定は、チェック後にまとめて行う。この流れにすれば、登録作業のスピードを落とさずに名寄せの精度も維持できます。
まとめ:名寄せは優先順位を決めれば回る
名寄せに必要なのは、高度なアルゴリズムでも完璧なマスタデータでもありません。現場が迷わないルールです。
人物の確定にはメールアドレスの完全一致を使う。ドメインは企業の推定までにとどめ、人物統合の根拠にはしない。電話番号は正規化した上で候補として活用するが、誤統合のリスクを忘れない。そして、判断に迷ったら統合しない。
この最小ルールを守るだけでも、重複レコードの増殖はかなり抑えられますし、誤統合による事故も防げます。
名寄せの精度をさらに高めたい場合は、会社マスタの整備が次のステップになります。法人名の表記ゆれ、支店や部署の扱い、親会社・子会社の関係といった情報をセットで設計すると、名寄せの安定性は一段上のレベルに達します。ただ、それはあくまで次のステップ。まずは最小ルールで土台を固めることから始めてみてください。