Umysł jest o warunkowe Wróżby

Original: http://webdocs.cs.ualberta.ca/~sutton/IncIdeas/ConditionalPredictions.html

Rich Sutton

21.03.2000

Uproszczenia i uogólnienia, jedna rzecz wydaje mi się oczywiste o aktywności umysłowej — że celem wiele z nich może być uznane za formułowanie prognoz. Rozumiem przez to dość ogólne pojęcie przewidywań, w tym prognoz warunkowych i przewidywania nagrody. I mam na myśli to w wystarczająco silnym i specyficznym poczuciem aby była ona nie bezsensowne.

Do konkretności, zakładamy, że świat jest decyzja Proces Markowa (MDP), to znaczy, że mamy czas i dyskretnego działania, odczucia jasne i nagrodzić na każdym kroku czasowym. Potem, oczywiście, jednym z ciekawszych przepowiedni zarabiania są te natychmiastowych nagród i przejścia państwowych, jak w “Jeśli jestem w tym stanie i czy to działanie, to co będzie następne państwa i nagroda będzie?”Pojęcie funkcji wartości jest również przewidywanie, jak w “Jeśli jestem w tym stanie, a następnie tę politykę, co będzie moje skumulowane zdyskontowane przyszłe nagroda będzie?” Oczywiście można zrobić wiele prognoz wartości funkcji, po jednym dla każdej z wielu różnych polityk.

Należy pamiętać, że oba rodzaje przewidywań wymienione powyżej są uzależnione nie tylko od stanu, ale o wybór działania. Są hipotetyczne przewidywania. Jednym z nich jest hipotetyczne, ponieważ nie jest zależny od pojedynczego działania, a druga jest hipotetyczne, ponieważ nie jest zależny od całej polityki, cały sposób zachowania się. Action prognozy warunkowe są oczywiście przydatne dla działań rzeczywiście wybierania, jak w wielu metod uczenia zbrojenia, w którym działanie z najwyższą wartość szacunkowa jest preferencyjnie wybranych. Bardziej ogólnie, to jest zdroworozsądkowe, że wiele z naszej wiedzy jest przekonania o tym, co by się stało, gdybyśmy zdecydowali się zachowywać w określony sposób.Wiedza o tym, jak długo to trwa do jazdy do pracy, na przykład, jest wiedza o świecie, w interakcji z hipotetycznym celowego, w jaki sposób możemy zachować.

Teraz za kluczowy krok, który jest po prostu uogólnić powyższe dwa wyraźne rodzaje prognoz warunkowych na pokrycie dużo więcej z tego, co zwykle uważamy za wiedzę. Do tego potrzebny jest nowy pomysł, nowy sposób przewidywania klimatyzacyjnych, które ja nazywam Biurko na wynikach. Tutaj mamy czekać, aż jeden z jakiegoś jasno wyznaczony zestaw wyników nastąpi i zapytać (lub starają się przewidzieć) coś na temat, który z nich jest. Na przykład, możemy spróbować przewidzieć, ile lat będziemy, gdy skończymy studia, lub ile będziemy ważyć na koniec lata, lub, jak długo potrwa do jazdy do pracy, czy to będzie się nauczyłeś przezczas dojdziesz do końca tego artykułu. Co będzie kości pokazują kiedy przestali upadki? Co będzie, gdy cena akcji będzie mi go sprzedać? We wszystkich tych przypadkach przewidywania jest o tym, co będzie, gdy państwo występuje pewne jasno określone zdarzenie. To jest trochę tak, jak w momencie tworzenia zakładów i ustalić pewne jasne warunki w tym czasie zakład będzie nad i będzie jasne, kto wygrał.

Ogólne przewidywania uzależniona jest więc uzależniona od trzech rzeczy: 1) stan, w którym jest wykonane, 2) zasady zachowania się, i 3) wynik, który wyzwala czas, w którym przewiduje się, że nastąpi zdarzenie. Oczywiście polityka musi być przestrzegane od momentu przewidywania jest wykonana dopóki przypadku rezultatu wyzwalanie tylko. Działania podejmowane po spuście są nieistotne. [To pojęcie przewidywań warunkowego uprzednio badane jako modeli czasowo przedłużony działań, znane również jako “Opcje” (Sutton, Precup i Singh, 1999; Precup, praca w przygotowaniu).

Wróćmy teraz do roszczenia, z którym zacząłem, że wiele, jeśli nie większość aktywności umysłowej skupia się na takich warunkowych prognoz, na nauce i ich obliczanie, na planowanie i rozumowanie z nich. Chciałbym iść tak daleko, aby zaproponować, że wiele, jeśli nie większość naszej wiedzy jest reprezentowana w postaci takich prognoz, i że są one tego, co filozofowie nazywają “koncepcje”. Aby prawidłowo twierdzą tych punktów byłoby oczywiście długie zobowiązanie. Na razie niech nam wystarczy pokryć pewne wysokie punkty, począwszy od niektórych oczywistych zalet prognoz warunkowych dla reprezentacji wiedzy.

Najważniejsze z nich to po prostu, że prognozy są uziemione w sensie ma wyraźne, mechanicznie do ustalenia znaczenia.Dokładność wszelkich przewidywań można określić tylko poprzez prowadzenie polityki od jej stanu, aż wynik występuje, a następnie sprawdzenie prognozy w stosunku do wyniku. Nie jest wymagana interwencja interpretowania reprezentacji i ustalenia prawdy lub falsness jakiegokolwiek oświadczenia.Możliwość porównywania prognoz do rzeczywistych wydarzeń również odpowiednim dla Beling dowiedział się automatycznie. Semantyka przewidywania również wyraźnie, jak mają być stosowane w automatycznych sposobami planowania, takie jak powszechnie stosowane w MDP i SMDPs. W rzeczywistości, warunkowe przewidywania jakie omówione są w postaci dokładnie potrzebne do zastosowania w równaniach Bellman w sercu tych metod.

Mniej oczywiste, ale równie ważną zaletą warunkowego na wyniki prognoz jest to, że mogą one zwięźle wyrazić bardzo, że w przeciwnym wypadku byłoby trudne i expensize reprezentować. Zdarza się to bardzo często w potocznej wiedzy; tu podać prosty przykład.Znajomość chcemy reprezentować to, że można przejść do rogu ulicy i autobus przyjdzie zabrać cię do domu w ciągu godziny. Co oznacza to oczywiście, że jeśli teraz jest 12:00, a następnie autobus może przyjść o 12:10 i może przyjść na 12:20, itp, ale to na pewno się o 01:00. Korzystanie z klimatyzacji wynik, pomysł jest łatwy do wyrażenia: my albo zrobić wynik osiągając 01:00 i przewidują, że autobus będzie pochodzić od tego czasu, albo robimy wyniku przybycia autobusu i przewidują, że w tym czasie będzie 01:00 lub wcześniej.

Naturalne, ale naiwny alternatywnym sposobem, aby spróbować do reprezentowania tej wiedzy byłoby jak prawdopodobieństwem autobusu przyjeżdżającego w każdej szczelinie czasowej. Być może to ma jedną szóstą szansę dotarcia w każdym przedziale 10 minut. Takie podejście jest niewystarczające nie tylko dlatego, że zmusza nas do powiedzenia więcej niż możemy wiedzieć, ale dlatego, że nie uchwycić ważny fakt, że autobus w końcu przyjdzie. Formalnie, tutaj problemem jest to, że wydarzenia z autobusu pochodzących w różnych okresach nie są niezależne. Jeśli mogą mieć tylko szansę jedna szósta przyjście dokładnie o 1:00, ale jeśli jest już 12:55 to jest pewne, że w rzeczywistości są o 1:00.Naiwna reprezentacja nie uchwycić to fakt, że jest rzeczywiście absolutnie ważne, aby za pomocą tej wiedzy.Bardziej skomplikowane reprezentacja może uchwycić wszystkie te zależności, ale będzie tylko, że – bardziej skomplikowane.Formularz wynik-warunkowa stanowi fakt, po prostu i stanowi tylko to, co jest potrzebne do rozsądku wiedzy w ten sposób. Oczywiście, inne okoliczności mogą wymagać bardziej szczegółowej wiedzy, i to nie jest wykluczone przez formularz na wynikach warunkowe. Ta postać po prostu pozwala na większą elastyczność, w szczególności umiejętność pominąć te szczegóły, a jednocześnie jest w odpowiedniej formie do planowania i uczenia się.

Comments are closed.