Takviyeli öğrenme yöntemleri, bağımsız etmenli sistemlere ve dinamik ortamlara uygulanabilir olduğundan son zamanlarda oldukça ilgi çekmiştir. Takviyeli öğrenme metotları içerisinde en popüler algoritmalardan biri Q öğrenmedir. Q öğrenme, labirent ve arama problemlerine uygulandığında optimal politikayı belirleme hızı bakımından ilgi çekici bir öğrenme metodu olarak bilinmektedir. Bunun yanı sıra durum uzayının genişlemesi Q öğrenme algoritmasında yavaşlamalara neden olmaktadır. Bu tez çalışmamda bu problemin çözümü için yeni bir yöntem sunulacaktır. Bu yöntemde takviyeli öğrenme ile yapay sinir ağları birlikte kullanılmaktadır. Geliştirilen eylem seçme yöntemi ile etmenin q değerleri yanı sıra yapay sinir ağı çıkışlarından da faydalanması sağlanmaktadır. Böylece etmen hedefine ulaşabileceği konumlara daha hızlı bir şekilde gelebilmektedir. Deneysel sonuçlar durum uzayında gerçekleştirilen uygulamanın geçerliliğini göstermektedir.
The application of reinforcement learning to autonomous agent systems and dynamic states has attracted recent attention. One of the most popular reinforcement techniques is Q learning. It has been proven to produce an optimal policy under maze and searching problems. Increases the dimension of state space bring disadvantages to this algorithm. This theses presents a novel approach to overcome this problem. The approach using together reinforcement learning and artificial neural networks. Q values and artificial neural network outputs are using together with developed action select method. Thus agent can reach the goal state rapidly. Experimental results handled on pursuit domain show the effectiveness and applicability of the proposed approach.