Právě dnes probíhá on-line rozhovor s V. K. a odpoví vám na každou otázku. Že
to nezní pravděpodobně? A přeci je to tak, protože V. K. je Virtuální Klaus
– nová aplikace založená na statistickém zpracování přirozeného jazyka. Aplikace jednoduchá a založená na hlavně na hypotéze, že slova řídce se vyskytující jsou slova pro význam textu nejdůležitější. Řídkost výskytu je zde měřena pomocí metriky IDF (viz odkaz níže). Při příliš malé shodě obsahuje V. K. i modul pro vyhýbavé odpovědi.
V. K. demonstruje, jak relativně jednoduchý systém založený
na statistických metodách dokáže při vhodně zadané otázce najít nejrelevantnější
odpověď. Není těžké najít odpovědi, které obsahují podobná slova jako otázka,
úskalí spočívá v seřazení nalezených odpovědí podle relevance. Jako měřítko relevance
je zde použita jednoduchá vážená shoda podle IDF (více viz např.
Zechner (1996)).
Systém dokáže vždy odpovědět celou větou nebo i odstavcem. Pro otázky
bez předem daného tématu (což je tento případ) je velmi těžké detekovat, kdy
je nejlepší nalezená odpověď relevantní a kdy už by bylo lepší zapojit modul pro vyhýbavé odpovědi.
V každém případě výsledná odpověď nalezená na Internetu není nijak modifikována a
systém kvůli jednoduchosti a rychlosti neobsahuje celou řadu možných vylepšení,
jako např. IDF na míru dané oblasti, syntaktický a tvaroslovný rozbor, lepší
detekce aktuálního členění apod.
Jak dnes už ale všichni víme, není umění dávat správné odpovědi, ale
správné otázky. Dnes si to tedy můžeme natrénovat na našem robotku V. K., který dokáže na alespoň 93% otázek odpovědět alespoň tak smysluplně jako
reálný politik, pokud ovšem otázku nepíše troll. Je to tedy výzva pro vás,
čtenáře: kdo dokáže vymyslet takovou otázku, na níž odpověď V. K. bude dávat
smysl?
Ještě důležité upozornění. Tato aplikace v žádném případě nemá simulovat chování osoby prof. ing. Václava Klause, CSc. a nalezené odpovědi mohou být naprosto neaktuální a nemající s otázkou pranic společného.
Diskuze je dnes přímo v článku. Pod článkem je pak pro všechny prostor k metadiskuzi nejen o smysluplnosti IDF a volbě nejlepší otázky.