12. Этапы анализа естественного языка

1.​ Перевод в некоторое внутреннее состояние.

2.​ Текст

3.​ БД

4.​ Морфемно-морфологический анализатор.

В качестве входной информации использует текстовое представление слова. Цель анализа – определить морфологические характеристики слова. Они зависят от выбора естественного языка. Результат анализа – основная словоформа и набор характеристик слова. При этом результаты анализа могут быть неоднозначными. Лемматизация – определение начальной формы. Словарь Зализняка содержит определенные словоформы русского языка, для каждой из которых приписан определённый код. Определены правила, с помощью которых можно построить все формы заданного слова, используя в качестве основы начальную словоформу. При построении каждой словоформы ей в соответствие ставятся морфологические характеристики. Сам словарь нельзя использовать непосредственно при проведении морфологического анализа, так как система правил опирается на основную словоформу, но на основе словаря можно строить и словарь, и алгоритмы, когда по заданной парадигме будут выдаваться характеристики. Даже при наличии словаря, при сведении задачи к поиску слова может оказаться, что имеется несколько вариантов морфологических характеристик (многозначность) + всегда может оказаться, что слова нет в словаре => тупик.

5.​ Синтаксический анализатор

  • Разбор предложения и построение его синтаксической структуры с учетом морфологического анализа.
  • Цель – определение взаимосвязей между отдельными словами и частями предложения
  • Результат – граф отклонений. В вершинах графа – слова в основных словоформах. Дуги помечаются вопросами, заданными от одних слов к другим.

Свойства графа:

  1. Дуги двунаправлены, любое из направлений помечается своим вопросом.
  2. Вопросы соответствуют основной словоформе и не соответствуют той форме слова, которая используется в предложении.
  3. Не учитывается смысловая нагрузка слова, что приводит к различию между одушевленными и неодушевленными предметами.
  4. Если вершины расположить в порядке следования слов в предложении, то дуги не пересекаются.

Другой способ разбора S-маркер (Как с Агатой).

Методы синтаксического анализа бывают двух видов:

  1. Фиксированные (с заранее заданным набором правил)
  2. Самообучающиеся.

6.​ Семантический анализатор – выявление смысла предложения.

  • Проблема кореферентности (несколько обозначений для одного и того же объекта)
  • Формальное представление семантической структуры текста
  • В результате в идеале автоматическое составление словарей, составление рефератов из текста.
Topics:

12. Этапы анализа естественного языка

1.​ Перевод в некоторое внутреннее состояние.

2.​ Текст

3.​ БД

4.​ Морфемно-морфологический анализатор.

В качестве входной информации использует текстовое представление слова. Цель анализа – определить морфологические характеристики слова. Они зависят от выбора естественного языка. Результат анализа – основная словоформа и набор характеристик слова. При этом результаты анализа могут быть неоднозначными. Лемматизация – определение начальной формы. Словарь Зализняка содержит определенные словоформы русского языка, для каждой из которых приписан определённый код. Определены правила, с помощью которых можно построить все формы заданного слова, используя в качестве основы начальную словоформу. При построении каждой словоформы ей в соответствие ставятся морфологические характеристики. Сам словарь нельзя использовать непосредственно при проведении морфологического анализа, так как система правил опирается на основную словоформу, но на основе словаря можно строить и словарь, и алгоритмы, когда по заданной парадигме будут выдаваться характеристики. Даже при наличии словаря, при сведении задачи к поиску слова может оказаться, что имеется несколько вариантов морфологических характеристик (многозначность) + всегда может оказаться, что слова нет в словаре => тупик.

5.​ Синтаксический анализатор

  • Разбор предложения и построение его синтаксической структуры с учетом морфологического анализа.
  • Цель – определение взаимосвязей между отдельными словами и частями предложения
  • Результат – граф отклонений. В вершинах графа – слова в основных словоформах. Дуги помечаются вопросами, заданными от одних слов к другим.

Свойства графа:

  1. Дуги двунаправлены, любое из направлений помечается своим вопросом.
  2. Вопросы соответствуют основной словоформе и не соответствуют той форме слова, которая используется в предложении.
  3. Не учитывается смысловая нагрузка слова, что приводит к различию между одушевленными и неодушевленными предметами.
  4. Если вершины расположить в порядке следования слов в предложении, то дуги не пересекаются.

Другой способ разбора S-маркер (Как с Агатой).

Методы синтаксического анализа бывают двух видов:

  1. Фиксированные (с заранее заданным набором правил)
  2. Самообучающиеся.

6.​ Семантический анализатор – выявление смысла предложения.

  • Проблема кореферентности (несколько обозначений для одного и того же объекта)
  • Формальное представление семантической структуры текста
  • В результате в идеале автоматическое составление словарей, составление рефератов из текста.