Поиск по сайту
Авторизация
Логин:
Пароль:
Забыли свой пароль?

Обнаружение плагиата с использованием последовательной разработки шаблонов

Plagiarism detection using sequential pattern mining

Ali El-Matarawy
Faculty of Computers and Information, Cairo University
Mohammad El-Ramly
Faculty of Computers and Information, Cairo University
Reem Bahgat
Faculty of Computers and Information, Cairo University

Foundation of Computer Science FCS,
New York, USA,
 January 2013


В этом исследовании представлена ​​новая методика обнаружения плагиата с использованием последовательной разработки образцов под названием «EgyCD». В течение последнего десятилетия были предложены многие методы и инструменты для обнаружения клонирования программного обеспечения (например, сервис www.checktext.org), такие как текстовые подходы, лексические подходы, синтаксические подходы, семантические подходы ... и т. д. В этой статье исследование исследует потенциал методов интеллектуального анализа данных при обнаружении плагиата. В частности, исследование предложило метод плагиата, основанный на последовательной разработке шаблонов (SPM), слова / утверждения обрабатываются как последовательность транзакций, обрабатываемых алгоритмом SPM, для поиска частых наборов элементов. Исследование представляет эксперимент, чтобы обнаружить копирование / вставку в текстовом источнике, и это дало хорошие результаты в разумное и приемлемое время.

Ключевые слова: Детектор плагиата, плагиализированные клоны, текстовый подход, лексический подход, синтаксический подход, интеллектуальный анализ данных, свойство Apriori, последовательная разработка шаблонов.

1. ВВЕДЕНИЕ

Когда произведение кого-то еще воспроизводится без подтверждения источника, это называется плагиатом [1]. Вероятно, наиболее частые случаи появляются в учебных заведениях, где студенты копируют материал из книг, журналов, Интернета, их сверстников и т. д., не ссылаясь на ссылки. Хотя иногда это преднамеренно, есть много случаев, когда учащиеся фактически плагиатируют непреднамеренно просто потому, что им неизвестно, как источники должны использоваться в рамках собственной работы. Эта проблема не ограничивается только письменным текстом, но также регулярно находится в программном коде, где куски копируются и повторно используются без ссылки на оригинал автора [2].

Компьютерные технологии распространяются слишком быстро, и, следовательно, каждый может легко видеть, что использование компьютера происходит повсюду, особенно в школах, колледжах и университетах. В настоящее время ожидается, что большинство заданий на работу студентов будут представлены в электронной форме. Хотя он удобен и удобен для студентов и преподавателей, электронная версия предоставляет студенту более легкую возможность плагиата. С передовыми текстовыми процессорами гораздо проще вырезать и вставлять большие объемы текста, чтобы создать единую работу из ряда электронных источников, включая Интернет, электронные журналы, книги, газеты и журналы и т. д. [2].

Помочь облегчить доступ к электронным версиям письменного текста - это Интернет. Интернет растет замечательно и быстро становится общим ресурсом для студентов. Недавнее исследование IBM, Compaq и Alta Vista включало анализ более 600 миллионов уникальных страниц по широкому кругу вопросов. Вероятно, верно, что поиск в Интернете сегодня даже для самых неясных тем почти наверняка вернет некоторый релевантный результат. Интернет предоставляет глобальный ресурс, доступный любому человеку из любой точки мира, что делает отслеживание электронных документов намного сложнее, чем когда-либо прежде, и плагиат намного проще. Однако враг учителя также может быть их другом [2]. Используя интернет-поисковые системы, такие как Google, Alta Vista и Yahoo, учителя могут искать «ненужные» фразы, которые они находят в работе ученика, для выявления потенциальных источников [1].

Как упоминалось в [3], существуют четыре категории плагиата: 

а. Несанкционированная и / или непризнанная совместная работа: Хотя студенты, как ожидается, будут заниматься своими исследованиями и письмами, инструкторы также понимают, что студенты могут обсуждать свои собственные исследовательские проекты с другими учащимися в одном и том же курсе. Инструкторы сильно подозревают совместный плагиат, когда одни и те же или подобные фразы, цитаты, предложения и / или параллельные конструкции появляются в двух или более документах по одной и той же теме. Чтобы защитить себя, вы должны признать - в сноске или концевой сноске - любые важные обсуждения, которые вы имели с другими, а также любые советы, комментарии или предложения, которые вы получили от других, включая вашего инструктора или других инструкторов, если это необходимо.

б. Попытка сдать, как ваша собственная работа, целую работу или любую часть произведения, принадлежащего другому лицу, группе или учреждению: это включает в себя заимствование, покупку, ввод в эксплуатацию, копирование, получение, загрузку, прием, использование и / или кражу документ, который не является вашим собственным. Отправка всей работы, которая не является вашей собственной, также представляет собой исследование или академическое мошенничество.

с. Использование любого количества текста, которое было неправильно перефразировано, представляет собой плагиат. Предлагая ненадлежащую зависимость от одного источника, это включает в себя «плагиат мозаики» или плагиат «вырезать и вставлять».

д. Использование любого количества текста, которое правильно перефразировано, но которое либо не цитируется, либо неправильно цитируется, представляет собой плагиат. Это включает документы, в которых очевидна общая неспособность ссылаться на источники или грубая небрежность в цитировании источников. Более того, приписывание ложных, вводящих в заблуждение или ненадлежащих атрибутов / цитат для правильно перефразируемых текстов по-прежнему представляет собой плагиат.

Остальная часть этого документа организована следующим образом: некоторые связанные работы по обнаружению плагиата в разделе 2. В разделах 3 представлен обзор для интеллектуального анализа данных и его методов, особенно те, которые относятся к обнаружению плагиата. В разделах 4, 5 и 6 исследования вводят новый подход к обнаружению плагиата. Пример изложено в разделе 7. В разделе 8 приводится вывод и дальнейшая работа. Наконец, разделы 9 и 10 являются подтверждениями и ссылками.

2. СВЯЗАННАЯ РАБОТА

Согласно [4], методы предотвращения и обнаружения копий могут быть объединены для уменьшения плагиата. Хотя методы обнаружения копий могут только свести к минимуму его, методы предотвращения могут полностью устранить его и уменьшить. Несмотря на этот факт, профилактические методы требуют участия всего общества, поэтому его решение не пустяки [5]. С другой стороны, методы обнаружения плагиата легче выполнять и решать разные уровни, от простого ручного сравнения до сложных автоматических алгоритмов [6,7]. Представлена ​​краткая дискуссия о методах обнаружения плагиата.

Некоторые методы были разработаны для того, чтобы найти исходные плагиат-пары текста на основе гибких стратегий поиска (способных обнаруживать плагиат-фрагменты, даже если они модифицированы из их источника). Если два (оригинальные и подозрительные) текстовые фрагменты достаточно близки, можно предположить, что они являются потенциальным случаем плагиата, который необходимо исследовать глубже [8]. Простой вариант - провести сравнение текстовых фрагментов на основе n-граммов на уровне слов. В Ferret [9] ссылочные и подозрительные тексты разделяются на триграммы, составляя два набора, которые сравниваются. Для определения возможных случаев плагиата рассматривается количество общих триграмм. Другой вариант - разделить документы на предложения. PPChecker [10] обнаруживает потенциально плагиатные предложения на основе пересечения и дополнения словарного и подозрительного словаря. С учетом дополнения избегает обнаружения случайных общих текстовых подстрок как случаев плагиата.

Наш алгоритм зависит от интеллектуального анализа данных, он основан на Apriori, поэтому он обнаруживает весь плагиат в текстовых файлах источника в разумное и приемлемое время.

3. ОБЩИЙ ОБЗОР ДАННЫХ.

Data mining [11, 12] - это процесс извлечения интересной (нетривиальной, неявной, ранее неизвестной и потенциально полезной) информации или шаблонов из больших информационных репозиториев, таких как реляционная база данных, хранилища данных, репозиторий XML и т. Д. Также интеллектуальный анализ данных известен как один из основных процессов Discovery Discovery в базе данных (KDD).

4. ОБЩЕЕ ОПИСАНИЕ EGYCD.

В соответствии с подходами, основанными на Apriori, наш подход создает более крупные элементы (слова / операторы в этом случае) из объединения меньших, а затем эффективно ищет внутри текстовых файлов, чтобы проверить их присутствие.

Инструмент EgyCD состоит из четырех этапов:

а. Пользователь выбирает исходные файлы, находящиеся в каталоге или в разных каталогах, для применения инструмента.

б. Инструмент преобразует исходные файлы в транзакции наборов элементов.

с. Алгоритм EgyCD применяется для обнаружения частых наборов предметов в текстовых файлах, превышающих заданный порог частоты.

д. Алгоритм вырезает весь плагиат, который полностью отображается в другом плагиате, чтобы избежать дублирования результатов и сообщить только оригинальные плагиаты, не включенные в другие.

...

8. ВЫВОДЫ И БУДУЩАЯ РАБОТА

В исследовании был представлен новый алгоритм обнаружения плагиата, который использует последовательную разработку шаблонов для обнаружения копирования / вставки. EgyCD обнаруживает все копии / вставки в исходных текстовых файлах со 100% точностью и напоминанием, это связано с природой нашего алгоритма на основе Apriori. Точность и высокий отзыв показали, что экспериментальное исследование было превосходным. Была представлена хорошая визуализация и какая-то новая информация, такая как качество клона текста и соотношение файлов клон текста.

Будущая работа будет включать в себя использование многопоточного программирования баз данных и распределенных систем для ускорения работы в компании EgyptCD. Он также будет включать развертывание дальнейших алгоритмов интеллектуального анализа данных и алгоритмов SPM, не основанных на Apriori, для дальнейшего изучения ценности этого семейства алгоритмов обнаружения плагиата EgyptCD.

Использованные источники

[1] D. A. Black, Tracing Web Plagiarism – A guide for teachers, Internal Document, Department of Communication, Seton Hall University, Version 0.3, Fall 1999.

[2] P. Clough ,Plagiarism in natural and programming languages: an overview of current tools and technologies, July 2000, Department of Computer Science, University of Sheffield

[3] L. R. Jones, Academic Integrity & Academic Dishonesty:A Handbook About Cheating & Plagiarism, Revised & Expanded Edition, Florida Institute of Technology, Melbourne, Florida.

[4] Schleimer, S., Wilkerson, D.S., Aiken, A.: Winnowing: local algorithms for document fingerprinting. In: SIGMOD ’03: Proceedings of the 2003 ACM SIGMOD international conference on Management of data. pp. 76–85. ACM, New York, NY, USA (2003).

[5] Approaches for Intrinsic and External Plagiarism Detection Notebook for PAN at CLEF 2011, Gabriel Oberreuter, Gaston L’Huillier, Sebastián A. Ríos, and Juan D. Velásquez, Department of Industrial Engineering, University of Chile.

[6] Potthast, M., Barrón-Cedeño, A., Eiselt, A., Stein, B., Rosso, P.: Overview of the 2nd international competition on plagiarism detection. In: Braschler, M., Harman, D. (eds.) Notebook Papers of CLEF 2010 LABs and Workshops, 22-23 September, Padua, Italy (2010).

[7] Potthast, M., Stein, B., Eiselt, A., Barrón-Cedeño, A., Rosso, P.: Overview of the 1st international competition on plagiarism detection. In: Stein, B., Rosso, P., Stamatatos, E., Koppel, M., Agirre, E. (eds.) SEPLN 2009 Workshop on Uncovering Plagiarism, Authorship, and Social Software Misuse (PAN 09). pp. 1–9. CEUR- WS.org (Sep 2009), ceur-ws.org/Vol-502.

[8] A. B. Cede˜no, P. Rosso ,On Automatic Plagiarism Detection Based on n-Grams Comparison, Natural Language Engineering Lab., Dpto. Sistemas Inform´aticos y Computaci´on, Universidad Polit´ecnica de Valencia, Spain.

[9] Lyon, C., Barrett, R., Malcolm, J.: A Theoretical Basis to the Automated Detection of Copying Between Texts, and its Practical Implementation in the Ferret Plagiarism and Collusion Detector. In: Plagiarism: Prevention, Practice and Policies Conference, Newcastle, UK (2004).

[10] Kang, N., Gelbukh, A.: PPChecker: Plagiarism Pattern Checker in Document Copy Detection. In: Sojka, P., Kopeˇcek, I., Pala, K. (eds.) TSD 2006. LNCS, vol. 4188, pp. 661–667. Springer, Heidelberg (2006).