HOWTO·読了 5分

LLMで顧客名寄せ精度を引き上げる方法|4層カスケード処理

日本語の表記ゆれに対応できない従来の名寄せを、LLMを含む4層カスケード処理で改善する方法を解説します。完全一致・正規化・ルールベース・LLM判定の段階的設計と、80%精度スタートから運用補正する実践的アプローチを紹介します。

#名寄せ#LLM#データ統合#顧客データ#表記ゆれ#CRM

この記事でわかること

  1. 従来手法の限界: 完全一致のみでは日本語の表記ゆれに対応できず、M&A後の統合CRMで重複レコードが20〜40%発生する構造的な問題
  2. 4層カスケード処理の設計思想: 完全一致→正規化一致→ルールベース類似→LLM判定と、コストの安い層から始めて段階的に精度を引き上げる設計原則
  3. 80%精度スタートの実践: 初期精度80%で実運用を始め、月次の人手サンプリングと改善サイクルで継続的に精度を高める現実的なアプローチ

基本情報

項目内容
対象大企業グループのデータ統合担当者・営業企画部長・情報システム部門責任者
難易度中級
関連クラスターC5:データ統合・顧客理解
読了目安8分

LLM 名寄せ 4層カスケード処理 全体像LLM 名寄せ 4層カスケード処理 全体像


なぜ従来の名寄せは精度が出ないのか

グループ横断のクロスセルを推進する前提として、複数のCRMに分散した顧客データを「同一顧客か否か」で突き合わせる名寄せ作業があります。しかし、多くの現場では完全一致による名寄せを採用しており、これが精度の低さの根本原因になっています。

完全一致では「株式会社A」と「(株)A」が別顧客になる

完全一致とは、文字列が1文字も違わず一致した場合のみ同一と判定する方法です。日本企業名には「株式会社」「(株)」「㈱」の3通りの表記が混在するため、同一の企業が複数の顧客として登録されてしまいます。さらに「三菱電機株式会社」と「Mitsubishi Electric」、あるいは「エーザイ」と「Eisai」といった英語表記の揺れも、完全一致では対応できません。

顧客名寄せとは|大企業グループでの実装手順と精度設計で解説しているとおり、名寄せの対象となる企業名の表記パターンは日本語だけでも数十通りに及びます。完全一致による精度は20〜40%程度にとどまるのが実態です。

M&A後の統合CRMで重複レコードが20〜40%発生する現実

M&A後の統合CRMでは、2社以上のデータベースをマージする作業が発生します。各社が独自のルールでデータを入力してきたため、表記揺れや重複が大量に混入します。データ統合ソリューションを手がけるTamrの調査によると、M&A後の統合CRMにおけるユニーク顧客数と実際の報告数の乖離は20〜40%に達するとされています。

CRMデータの品質問題は広く認識されています。Validity(2025年)の調査によれば、CRMデータの正確性・完全性が50%未満と回答した組織は76%にのぼります。また、一般的なCRMの重複レコード率はLandbaseの試算で5〜20%とされており、大企業グループではこれが複数拠点・複数システムにわたって積み重なります。

CRMの統合課題についてはCRM統合とは|M&A後の統合設計と3つの失敗パターンも合わせてご参照ください。

名寄せ 従来手法 4層処理 精度比較名寄せ 従来手法 4層処理 精度比較

B2B連絡先データは年間22.5%が劣化し、蓄積データが腐る

名寄せを一度行えば完了というわけではありません。Cognismの調査によると、B2B連絡先データは年間22.5〜30%のペースで劣化します。担当者の異動・退職・組織再編により、今日の正確なデータも半年後には古くなっています。名寄せは継続的な運用として設計することが不可欠です。


4層カスケード処理の設計思想

4層カスケード処理とは、コストの安い判定方法から順に試みて、解決できなかったケースのみを次の層に送る設計です。処理コストの大きいLLMを最後に置くことで、全体のコストを抑えつつ精度を最大化できます。

あるグループ企業の経営幹部は、LLMを名寄せに活用することについて「日本語の表記ゆれに対応できる点が有望」と評価しています。4層設計の核心は、このLLMの強みを活かしながら、LLMに投げるケース数を最小限に抑えることにあります。

第1層「完全一致」— ゼロコストで確実な一致を取る

第1層は文字列の完全一致です。処理コストは最小で、確実に同一と判定できるケースをここで刈り取ります。データクレンジング(明らかな入力ミスの修正)を事前に行っておくと、ヒット率が高まります。クリーンなデータを前提とした場合のヒット率は20〜40%程度です。

第2層「正規化一致」— 括弧・スペース・株式会社表記を除去して再照合

第2層は正規化後の完全一致です。「株式会社」「(株)」「㈱」を空文字に変換し、全角スペースを半角スペースに統一するなどの正規化ルールを適用してから再照合します。この処理で累計ヒット率は50〜60%程度まで向上します。

正規化ルールは企業名の特性に応じて拡張できます。「有限会社」「合同会社」「LLC」「Co.,Ltd.」など、頻出する法人格表記を対照表にまとめておくと効果的です。

第3層「ルールベース類似」— 読み仮名・略称・英語表記ルールで判定

第3層はルールベースの類似度判定です。編集距離(Levenshtein距離:文字列の編集コストを数値化した類似度指標)やJaro-Winkler距離といったアルゴリズムを用いて類似スコアを算出し、閾値を超えたペアを同一と判定します。カタカナ→ひらがな正規化や、英語略称対照表(例:「三菱」と「Mitsubishi」の対応表)も有効です。第3層まで通すと、累計ヒット率は70〜75%程度に達します。

第4層「LLM判定」— ルールで拾いきれない曖昧ケースを文脈理解で解決

第4層はLLMによる判定です。第1〜3層で未解決のペアをLLMに渡し、「同一企業か・別企業か・不明」の3値判定を行います。LLMは「三菱電機株式会社」と「Mitsubishi Electric Corporation」のような文脈的な類似性を捉えられるため、ルールベースでは対応できなかったケースを解消できます。

第4層後でも「不明」と判定されたケースは人手確認キューへ送ります。LLMが万能ではないことを前提にした設計が重要です。第4層まで通すことで全体精度は80〜85%まで向上します。

名寄せ 4層処理フロー図 完全一致から LLM判定名寄せ 4層処理フロー図 完全一致から LLM判定


各層の実装ポイントと運用上の注意

第1〜2層は事前のデータクレンジングが精度を決める

第1〜2層の精度は入力データの品質に直結します。明らかな誤入力(全角数字と半角数字の混在、不要なスペース、異体字)を事前に修正しておくことで、第1〜2層のヒット率が大きく変わります。顧客マスタの整備で躓く3つの瞬間|データ品質80%から始める方法で解説しているように、データクレンジングはマスタ整備の前工程として必ず行う必要があります。

第3層のルール設計は日本企業名の特殊パターンを押さえる

日本企業名には特有のパターンがあります。省略形(「三菱UFJ」と「三菱UFJ銀行」)、グループ内子会社名(「〇〇フィナンシャルグループ」と子会社の「〇〇銀行」)、旧社名と新社名の混在などが代表例です。これらのパターンを対照表として整備し、第3層のルールに組み込むと効果的です。

第4層のLLMプロンプト設計で誤検知を減らす方法

第4層のLLMには、判定根拠を出力するよう指示することを推奨します。「同一企業・別企業・不明」の3値に加えて、判定理由を1文で出力させると、誤検知の分析が容易になります。また、プロンプトには「個人名情報は含まれておらず、企業名と業種情報のみ」であることを明示することで、不要なデータ処理を避けられます。

法務の観点から名寄せ対象を企業名と役職レベルに限定することで、個人情報保護法のリスクを下げつつ設計を簡素化できるという指摘があります。この設計方針はLLMへのデータ提供においても有効で、LLMへのデータ渡しは当該名寄せ作業への委託利用に限定し、AIモデルの追加学習には使用しない設計にすることが重要です。


80%精度スタートから運用補正する設計

なぜ100%精度を最初から目指すと失敗するのか

「完璧なデータが揃うまで名寄せを始めない」という判断は、プロジェクトを止める最大の原因の一つです。100%の精度を目指すと、ルール設計・検証・修正のサイクルに半年以上かかることがあります。一方、データの年間劣化率が22.5〜30%に達することを踏まえると、完璧なデータを追い求めている間にも既存データが腐っていく状況が起きます。

グループ横断の名寄せ支援を行うSINAJIでは、初期精度80%でプロジェクトを開始し、月次の人手サンプリングによるフィードバックループで精度を継続改善する設計を標準としています。完璧を目指して始められないよりも、動いている状態から磨き続ける方が現実的なアプローチです。

人手確認サンプリングとフィードバックループの作り方

精度改善サイクルの核心は、月次でのランダムサンプリングと誤検知分析です。名寄せ結果から月次100〜200件をランダム抽出し、人手で正誤を確認します。誤検知のパターン(「別企業を同一と誤判定したケース」と「同一企業を別企業と判定したケース」)を分けて記録し、パターンごとにルールまたはLLMプロンプトを更新します。

名寄せ 精度改善 フィードバックループ名寄せ 精度改善 フィードバックループ

精度測定KPIの設計——月次レビューで改善を継続する方法

名寄せ精度をKPIとして定義する際は、正解率(precision:同一判定したペアのうち実際に同一である割合)と再現率(recall:実際に同一であるペアのうち正しく同一と判定できた割合)を別々に計測することを推奨します。グループ横断のクロスセル推進においては、誤検知(別企業を同一と判定する誤り)が提案ミスにつながるため、正解率を優先指標とするのが一般的です。

月次KPIダッシュボードには「名寄せ精度(正解率)」「未解決件数(人手確認キューの積み残し)」「データ更新カバレッジ(四半期以内に更新されたレコードの割合)」の3指標を組み込むことが推奨されます。


グループ横断への展開——複数社データを一度に突き合わせる設計

2社突合から始め、段階的に子会社を追加するフェーズ設計

12社のグループデータを一度に突き合わせようとすると、ルール設計の複雑度が急激に高まります。まず2〜3社のデータで4層設計を検証し、精度が安定してから残りの子会社を段階的に追加することを推奨します。各フェーズで発見したルールの穴を修正してから次のフェーズに進むことで、後工程での手戻りを最小化できます。

McKinseyの調査(2020年)によると、意思決定者と強い関係を持っていたアカウントでは、合併後1年以内に80%のクロスセル率を達成した事例があります。この成果は、名寄せによって顧客関係の全体像を正確に把握できていたことが前提にあります。

事業会社間のアクセス権限ゾーニングと名寄せの関係

グループ横断の名寄せでは、どの子会社がどのデータにアクセスできるかの権限設計が重要です。名寄せ後の統合マスタへのアクセスを「グループ全体で共有する情報」と「各社が保持する固有情報」に分けて設計することで、法的・ガバナンス上のリスクを制御できます。

非接触型設計(個人情報を各社で保持し、集計レベルで連携)

SINAJIでは、各事業会社のデータを直接共有するのではなく、企業名・役職レベルの情報のみを扱う非接触型設計を採用しています。これにより個人情報保護法上のリスクを構造的に下げながら、グループ横断の名寄せを実現しています。この設計の詳細については個人情報を共有せずにクロスセル推進する設計で解説しています。


よくある質問(FAQ)

Q1. LLMを名寄せに使うと精度はどのくらいになりますか?

4層カスケード処理の最終層にLLMを置くことで、全体の名寄せ精度を80〜85%程度まで引き上げることができます。完全一致のみでは20〜40%程度にとどまる精度が、正規化・ルールベース・LLM判定を組み合わせることで大幅に向上します。ただし精度は入力データの品質や対象企業名の複雑さによっても変わるため、まず80%を目標にスタートし、月次の運用補正で継続改善することが現実的なアプローチです。

Q2. 4層すべてを実装しないと意味がありませんか?

すべての層を一度に実装する必要はありません。まず第1〜2層(完全一致と正規化一致)から始め、ヒットしなかったケースをLLMで補完するという2層構成でも実用的な精度は出ます。第3層(ルールベース類似)は日本企業名の特殊パターンをカバーするため、対象データの特性に応じて段階的に追加することを推奨します。段階的な実装はLLMの処理コストを下げる効果もあります。

Q3. 個人情報保護法のもとでLLMに顧客データを渡しても問題ありませんか?

名寄せ対象を企業名・役職レベルの情報に限定し、個人名を含まない設計にすることで、個人情報保護法上のリスクを構造的に下げることができます。LLMへのデータ渡しは委託範囲内での処理に限定し、AIモデルの追加学習には使用しない旨を契約・利用規約で明確にすることが重要です。詳細は個人情報を共有せずにクロスセル推進する設計をご参照ください。

Q4. 名寄せの精度が80%だと、クロスセルの意思決定には使えませんか?

80%の精度でも、グループ横断の顧客構造を把握し、クロスセル候補を抽出する経営判断の素材としては十分な水準です。完璧なデータが揃うまで待つよりも、80%の精度で全体像を把握し、Core顧客(上位10〜20社)に人手で確認を行う設計の方が、プロジェクトを前進させる上で有効です。

Q5. 名寄せとデータクレンジングはどう違いますか?

名寄せは「複数のデータソースに存在する同一の企業・顧客レコードを突き合わせて同一性を判定する」作業を指します。一方、データクレンジングは「個々のレコードの誤字・欠損・フォーマット不整合を修正する」作業です。名寄せを行う前にデータクレンジングを済ませておくことで、第1〜2層のヒット率が大幅に向上します。順序としてはクレンジング→名寄せ→ホワイトスペース分析の流れが標準的です。

Q6. 第4層のLLM判定にかかるコストの目安を教えてください。

第1〜3層で処理できなかったケースのみを第4層に渡す設計にすることで、LLMに投げるペア数を全体の10〜25%程度に抑えられます。月次バッチ処理(リアルタイムではない)でLLM判定を行うことでコストをコントロールすることが一般的な実装パターンです。具体的なコスト試算は、対象レコード数と第1〜3層のヒット率を確認した上で算出することを推奨します。

Q7. 名寄せが完了したら次に何をすべきですか?

名寄せ後のステップは、グループ横断の顧客構造マップの作成とホワイトスペース分析とはです。名寄せによって同一顧客が整理されたデータをもとに、どの顧客がどの子会社のサービスをまだ使っていないかを可視化します。顧客名寄せとは|大企業グループでの実装手順と精度設計も合わせてご参照ください。

Q8. グループ12社のデータを一度に突き合わせることは現実的ですか?

一度に全社を突き合わせるのではなく、まず2〜3社のデータから始め、ルールと精度を検証してから残りの子会社を追加するフェーズ設計を推奨します。社数が増えるほど名寄せの複雑性は高まるため、段階的な拡張が現実的です。また、事業会社間のアクセス権限ゾーニング設計を先に決めておくことで、名寄せ後のデータ共有範囲を適切に制御できます。

Q9. 名寄せの精度測定はどのように行えばよいですか?

月次で名寄せ結果からランダムサンプル(100〜200件程度)を抽出し、人手で正誤を確認することが標準的な方法です。正解率(精度)と誤検知率(別企業を同一と誤判定したケース)を別々に計測し、KPIダッシュボードに記録します。誤検知パターンを分析してルールやプロンプトを更新することが、精度改善サイクルの核心です。

Q10. 名寄せのフィードバックループはどのくらいの頻度で回すべきですか?

月次での精度確認とルール更新が標準的な運用サイクルです。新しい子会社のデータを追加した後や、M&A直後など大規模な変更があった場合はその都度、追加の確認を行うことを推奨します。データの年間劣化率が22.5〜30%(Cognism)に達することを踏まえると、四半期ごとに全体的な品質見直しを行うことが現実的な運用設計です。データ品質を80%から始める方法も参考にしてください。


まとめ

主要ポイント

  1. 完全一致には限界がある: 日本語の表記ゆれ・法人格の省略・英語表記の混在に対応するには、4層カスケード処理が必要です
  2. LLMは最終層に置く: コストの安い判定(完全一致→正規化→ルールベース)を先に通し、LLMに渡すケースを全体の10〜25%に絞ることで精度とコストを両立できます
  3. 80%精度で始めて改善を続ける: 完璧なデータを追い求めて着手が遅れるより、80%の精度で実運用を開始し月次サイクルで磨き続ける設計が、グループ横断の名寄せを現実に動かします

次のステップ


関連記事


参考リソース

  • Validity "State of CRM Data Management in 2025"
  • Tamr "Navigating M&A Data Challenges"
  • Landbase "Duplicate Record Rate Statistics 2026"
  • Cognism "Data Decay"
  • McKinsey "Capturing cross-selling synergies in M&A" (2020)

更新日:2026-07-07著者:真鍋 駿