字串相似度 - Decoding Digital Anomalies

字串 A

字串 B

檢視模式:

請在兩個欄位中各輸入一個字串以查看結果。

洞察

試試預設字串配對

速查表（六種演算法）

Levenshtein 距離

→ 3

0 to max(|A|, |B|)Typo detection at the character level

Damerau–Levenshtein 距離

→ 1

0 to max(|A|, |B|)Typo detection including adjacent-character transpositions

Sørensen–Dice 係數

→ ~0.3

0 to 1Fuzzy duplicate detection and near-duplicate identification

Soundex 編碼

→ S530 / S530

4-character LDDD codeAmerican English surname matching in legacy systems

Metaphone 編碼

→ 0MPSN / TMSN

variable-length letter codeGeneral English phonetic matching — sharper than Soundex

科隆音標（Kölner Phonetik）

→ 657 / 657

variable-length numeric codeGerman name and address matching — handles umlauts and sharp-s

關於字串相似度

字串相似度工具使用六種經典演算法比較兩個字串，並在演算法之間出現分歧時給出提示。可用於拼字錯誤偵測、姓名比對、重複偵測，或任何需要回答「這兩個字串有多接近——按字母、按編輯距離還是按發音？」的場景。

六種演算法

Levenshtein 距離——將一個字串變為另一個字串所需的最少單位元編輯次數。
Damerau–Levenshtein 距離——Levenshtein 加上相鄰字元調換（特別適合 "teh" 與 "the" 這類調換錯誤）。
Sørensen–Dice 係數——字元 bigram 重疊度，範圍 [0, 1]（模糊重複偵測的主力演算法）。
Soundex——經典美式英語語音編碼（LDDD 格式），被美國人口普查採用。
Metaphone——更精確的英語語音編碼，由 Lawrence Philips 於 1990 年設計。
科隆音標——德語語音編碼（Kölner Phonetik），德語姓名比對的標準演算法。

演算法分歧時工具會提示

每個結果行都配有通俗解釋、「最佳用途」提示和詳細描述。洞察面板會展示有趣的分歧情況：「發音相同，拼字不同」（應使用語音演算法）、「字元和 bigram 層面都很接近」（可能是真正的近似重複）、「儘管拼字不同但語音匹配」（應使用語音演算法）、「此輸入的語音編碼可能不具參考價值」（輸入為非拉丁字元時）。

常見用途

偵測使用者輸入中的拼字錯誤。
按姓名比對客戶記錄（特別是使用 Soundex / Metaphone / 科隆音標）。
識別資料庫中的近似重複條目。
為下游任務選擇合適的相似度演算法。
驗證德語 / 英语姓名的不同拼字是否映射到相同的語音編碼。

所有六種演算法都在瀏覽器中運行，任何字串、結果或預設描述都不會離開你的裝置。

留言

請接受「功能性」Cookie 類別以查看和發表留言。