HiddenPage Создание Обучающего Текста

Сделаем Обучающий Текст

Обучающий текст - это простой текстовый файл, содержащий текст, 'похожий' на тот, который Вы собираетесь написать. Чем больше текст, - тем лучше. Мы считаем, что оптимальный размер - это около 300КБ.

Вот, например, какие тексты Вы могли бы использовать в качестве обучающих:

Как сделать обучающий текст общего назначения

Вот как я сделал обучающий текст для Английской версии Dasher'a.
  1. Возьмите побольше документов на английском языке. Берите побольше, гораздо больше, чем Вы думаете, что Вам нужно, и тогда Вы сможете создать хорошо сбалансированный набор предложений.
  2. Подготовьте их таким образом, чтобы каждое предложение занимало одну строку.
    Я делал это при помощи программы на perl, которую я сам и написал - processbook.p с примерно вот таким скриптом:
    foreach f ( alice emma )
      processbook.p  /books0/$f > /books/$f
    end
    
  3. Теперь нужно составить список из 2000 наиболее часто встречающихся в языке слов. Идея состоит в том, чтобы собрать эти слова вместе и представить в конечном файле по несколько раз в разном контексте. Мы будем использовать эти слова, чтобы выбрать те предложения из нашего огромного текстового файла, которые включают в себя эти слова.
    Я получил такой список из Интернет и поместил его в файл под названием dict. Я удалил из него всякую несуразицу, чтобы избежать проблем с обработкой в дальнейшем.
  4. Используйте какую-нибудь программу, чтобы выбрать из каждой подготовленной книги предложения, в которых содержатся эти отобранные ранее 2000 слов. Внимательно просмотрите выбранные слова, чтобы упорядочить окончательный файл, чтобы в начале файла находились наиболее часто встречающиеся словосочетания; таким образом можно существенно уменьшить конечный файл, доводя его размер до разумного предела, и просто "выключить" из работы его конечную часть.
    Теперь склейте предложения вместе в параграфы привычного среднего размера так, чтобы текст выглядел как обычный текст.
    Я сделал это, используя linux-утилиту glimpse и мою программу на perl corpus.p
    rm  /data/coll/mackay/books/*~
    glimpseindex -b  -B   -H ~/dasher/  /data/coll/mackay/books/
    corpus.p k=1 f=4 o=corpus4.txt
           
    Вот, как я сделал этот файл (316K), который сейчас используется в Dasher 1.6.8.

Если кто-то сделает хороший файл на своём языке и готов поделиться этим файлом с другими людьми, я могу разместить этот файл здесь на сайте.