Aller au contenu principal
Outil gratuit · Contenu éditorial

Détecteur de contenu dupliqué

Collez 2 URLs : l'outil fetch les deux pages, extrait le texte éditorial, et compare via shingles de 4 mots. Pour vérifier si un contenu a été pompé.

2 URLs à comparer

Similarité
0
Mots URL 1
0
Mots URL 2
0
Shingles URL 1
0
Shingles URL 2

Questions fréquentes

Comment ça marche techniquement ? +

L'outil tokenise le texte des 2 pages (suppression du chrome, lowercase, sans accents), puis génère des shingles (séquences de 4 mots consécutifs). Le score Jaccard est le ratio shingles communs / shingles totaux. Une similarité ≥ 85 % = identique (copy-paste pur). 50-85 % = quasi-duplicate (paragraphes recyclés). 20-50 % = dérivé (paraphrase, sujet partagé). < 20 % = original.

Pourquoi 4-grammes ? +

Le shingle de 4 mots est le standard académique pour la détection de duplicate (papier Broder 1997). Trop court (2-3 mots) et on attrape du bruit (« the », « de la », « est un »). Trop long (8-10 mots) et un paraphrase légère casse tous les shingles. 4-grammes capte les phrases complètes ou quasi-complètes — exactement ce qu'un copy-paste produit.

Et si la page est traduite d'une autre langue ? +

L'outil ne détecte que la duplication mot-à-mot (ou quasi). Une traduction FR→EN ne sera pas flaggée — c'est par design, sinon on tomberait sur les faux positifs sur tout site multilingue. Pour détecter de la traduction-copie, il faut une approche embedding (multi-lingual) qu'on n'a pas en pure JS sans backend.

Mon contenu et celui d'un concu sont à 35 % — c'est grave ? +

Souvent non. Sur un sujet niche, deux articles vont citer les mêmes faits, mentions, sources — 30 % de similarité de shingles est cohérent. Le drapeau rouge est au-dessus de 60 % : ça veut dire que les structures de phrase elles-mêmes sont recyclées, pas juste les faits. Si vous voyez un score > 70 % sur un article que vous savez original, regardez les shingles partagés — souvent un boilerplate (signature, footer, CTA) qui pollue le score.

Du contenu unique mérite un placement unique

Quand on rédige un article original sur le réseau Stringer, on le rédige une seule fois et on le publie en exclu sur un média du réseau. Pas de syndication, pas de duplication.