字串相似度

檢視模式:

請在兩個欄位中各輸入一個字串以查看結果。

洞察

試試預設字串配對

速查表(六種演算法)
Levenshtein 距離
3
0 to max(|A|, |B|)Typo detection at the character level
Damerau–Levenshtein 距離
1
0 to max(|A|, |B|)Typo detection including adjacent-character transpositions
Sørensen–Dice 係數
~0.3
0 to 1Fuzzy duplicate detection and near-duplicate identification
Soundex 編碼
S530 / S530
4-character LDDD codeAmerican English surname matching in legacy systems
Metaphone 編碼
0MPSN / TMSN
variable-length letter codeGeneral English phonetic matching — sharper than Soundex
科隆音標(Kölner Phonetik)
657 / 657
variable-length numeric codeGerman name and address matching — handles umlauts and sharp-s

關於字串相似度

字串相似度工具使用六種經典演算法比較兩個字串,並在演算法之間出現分歧時給出提示。可用於拼字錯誤偵測、姓名比對、重複偵測,或任何需要回答「這兩個字串有多接近——按字母、按編輯距離還是按發音?」的場景。

六種演算法

  • Levenshtein 距離——將一個字串變為另一個字串所需的最少單位元編輯次數。
  • Damerau–Levenshtein 距離——Levenshtein 加上相鄰字元調換(特別適合 "teh" 與 "the" 這類調換錯誤)。
  • Sørensen–Dice 係數——字元 bigram 重疊度,範圍 [0, 1](模糊重複偵測的主力演算法)。
  • Soundex——經典美式英語語音編碼(LDDD 格式),被美國人口普查採用。
  • Metaphone——更精確的英語語音編碼,由 Lawrence Philips 於 1990 年設計。
  • 科隆音標——德語語音編碼(Kölner Phonetik),德語姓名比對的標準演算法。

演算法分歧時工具會提示

每個結果行都配有通俗解釋、「最佳用途」提示和詳細描述。洞察面板會展示有趣的分歧情況:「發音相同,拼字不同」(應使用語音演算法)、「字元和 bigram 層面都很接近」(可能是真正的近似重複)、「儘管拼字不同但語音匹配」(應使用語音演算法)、「此輸入的語音編碼可能不具參考價值」(輸入為非拉丁字元時)。

常見用途

  • 偵測使用者輸入中的拼字錯誤。
  • 按姓名比對客戶記錄(特別是使用 Soundex / Metaphone / 科隆音標)。
  • 識別資料庫中的近似重複條目。
  • 為下游任務選擇合適的相似度演算法。
  • 驗證德語 / 英语姓名的不同拼字是否映射到相同的語音編碼。

所有六種演算法都在瀏覽器中運行,任何字串、結果或預設描述都不會離開你的裝置。

留言

請接受「功能性」Cookie 類別以查看和發表留言。