мура писал(а):Вот я и хотел сравнить активный словарь разных форумчан, и Ега сказал, что тема его интересует и он напишет программку. Но зажал.
В свете последнего теста - очень даже интересная мысль. Я в программировании не Ега, конечно, но тоже кое-где программировать могу, иногда.
Делается то всё в принципе несложно.. Я скачал свои посты текущего логина - 1952 штук, прогнал через DOM-фильтр для очистки от тэгов, цитат и прочих линков, засунул в морфологический анализатор, который привёл все слова к канонической форме-лемме, и посчитал сумму + уникальные, а также топ-10 используемых. Нормуль, многовато мусора в речи, но запас есть.
I. Мои посты:
Всего слов: 129850
Уникальных слов: 16106
Топ-10 после очистки от предлогов и мусора:
1. ЧТО 1432
2. ЭТО 1235
3. БЫТЬ 949
4. ВЕСЬ 902
5. КАК 820
6. ЕСТЬ 660
7. ЕСЛИ 622
8. Я 587
9. КОТОРЫЙ 533
10. ОНИ 489
II. сравнил себя с переводом Магелланова облака Лема, который прогнал через тот же скрипт:
Всего слов: 223048
Уникальных слов: 14592
Топ-10:
1. Я 5133
2. ЧТО 3057
3. ОН 2744
4. МЫ 2297
5. ЭТО 2189
6. КАК 1862
7. БЫТЬ 1679
8. ВСЕ 1248
9. ЕГО 1199
10. КОТОРЫЙ 1137
ЗЫ: ну и чем я не Лем, за исключением заниженной самооценки

Вот только почищу активную лексику от жаргона и нехорошестей, так сразу издам трехтомник.