Аннотация: Обсуждаются понятия, функции и алгоритмы, связанные с численными оценками подобия (или “аналогичности”) текстов натурального языка. В так называемой “теории подобия конечных последовательностей” (ТПКП) подобие двух текстов оценивается посредством длины максимальной общей для этих текстов подпоследовательности суб-текстов (например, слов, предложений, etc.) Если в сравниваемых текстах различные вхождения суб-текстов имеют разную значимость сравнительно с другими вхождениями, при оценке степени подобия учитывается не длина, а суммарный “вес” общей для них подпоследовательности суб-текстов (например, суммарный вес общих вхождений слов).
В данной статье основное внимание уделено мерам оценки структурного сходства текстов. Предполагается, что в тексте-“образце” его суб-тексты сгруппированы в “блоки” (именные группы, предложения, etc.). Принимается следующий принцип “сплоченности”: имена, образующие блок, обычно соседствуют в тексте; и перестановки имен внутри блока разрушают структуру текста в меньшей степени, чем чередование имен, принадлежащих разным блокам.
В статье формулируются понятия, численные меры и алгоритмы, оценивающие степени чередования суб-текстов, принадлежащих разным блокам (меры “сплоченности” блоков). В сочетании с мерами, учитывающими лексическое сходство двух текстов и относительную значимость их сходных суб-текстов, меры сплоченности позволяют адекватно оценивать подобие текстов. Статистические эксперименты показали, что методы ТПКП эффективны в областях автоматической проверки орфографии, идентификации сообщений в телекоммуникационных сетях, компьютерного тестирования знаний. Так, в последней области для компьютера оказывается возможным игнорировать несущественные ошибки в ответах тестируемых, учитывать сокращения и синонимы, разрешить, запретить или ограничить перестановки слов, и т.п.
Ключевые слова: аналогия, подобие текстов, алгоритмы оценки подобия, тестирование знаний
ACM Classification Keywords: I.2.6 Artificial Intelligence – Learning – Analogies; K.3.1 Computers and Education - Computer Uses in Education
Link:
ЧИСЛЕННЫЕ МЕРЫ “СПЛОЧЕННОСТИ” ИМЕННЫХ ГРУПП
Леонид Леоненко
http://foibg.com/ibs_isc/ibs-28/ibs-28-p03.pdf