Protokol o kontrole originality je výstupným dokumentom zo „Systému na odhaľovanie plagiátov pre potreby slovenských akademických a výskumných inštitúcií“ (nazývaný aj ANTIPLAG). Tento protokol je vygenerovaný algoritmom, ktorý slúži na odhaľovanie plagiátorstva.
Samotný protokol neslúži ako potvrdenie, že práca je originál a zároveň ani nedokazuje, že práca je plagiát. Protokol slúži ako pomôcka, ktorá upozorní školiteľa, oponenta a skúšobnú komisiu na mieru zhodných/podobných textových častí s inými bakalárskymi, diplomovými, dizertačnými či rigoróznymi prácami, ktoré sú uložené v CRZP. Dôležité je si uvedomiť, že aj napriek vysokej percentuálnej zhode, môže ísť o text, ktorý je správne citovaný.
Náležitosti, ktoré protokol obsahuje
Každý protokol originality je heslovaný proti manipulácií. Protokol obsahuje záhlavie a pätu.
V záhlaví dokumentu je identifikácia testovanej práce (bakalárskej,diplomovej,dizertačnej,rigoróznej, habilitačnej). Taktiež obsahuje aj údaj o globálnom percente prekryvu textu
V päte dokumentu sa nachádza jedinečný identifikátor protokolu, ktorý obsahuje čiarový kód a text, ale aj histogram početnosti slov a jeho vzťah k referenčným hodnotám korpusu či informácie o extrahovanom tzv. plain texte.
Práve kvalita tohto plain textu je veľmi dôležitá, pretože vzniká extrakciou z pôvodného dokumentu a tvorí základ pre ďalšie spracovanie na účely porovnávania. Celý plain text je možné nájsť aj na konci samotného protokolu.
Grafické zvýraznenie pokrytia textu
Do protokolu o kontrole originality pribudlo aj zobrazovanie percentuálnej zhody pomocou farebných štvorčekov. Intenzita farebnosti zodpovedá zvyšujúcej sa zhode. Veľkosť štvorčeku zodpovedá príslušnosti percenta zhody do nastaveného intervalu.
Početnosť slov – histogram
Histogram zobrazuje relatívnu početnosť slov v konkrétnej práci. Táto relatívna početnosť je nasledovne porovnávaná s priemerom a výsledok je označený jednou z týchto značiek:
- = – početnosť zodpovedá priemeru
- >> – početnosť je výrazne vyššia ako priemer
- << – početnosť je výraznejšie nižšia ako priemer
Veľké množstvo dlhých slov môže indikovať odbornú prácu, prácu v cudzom jazyku, ale i úmyselné poškodenie textu vkladaním tzv. bielych znakov.
Naopak, príliš veľká početnosť krátkych slov indikuje poškodenie diakritiky alebo problémy kódovania.
Porovnávanie dokumentov voči indexu systému ANTIPLAG
V procese porovnávania sú zo všetkých dokumentov vybrané tie, v ktorých sa nachádza nadprahové množstvo podobného textu. Tento údaj zobrazuje tabuľka „Práce s nadprahovou hodnotou podobnosti“, ktorá obsahuje identifikáciu nájdených dokumentov spolu s údajom o percente textového pokrytia. Prvých 5 prác je zobrazených vždy, zatiaľ čo z ostatných sú zobrazované len reprezentatívne vzorky.