Αυτοεκπαιδευόμενοι υπολογιστές μέσω μάθησης με ενίσχυση

στις

Ένα πολύ ενδιαφέρον πείραμα έγινε σε μεγάλο συνέδριο τεχνητής νοημοσύνης στην Βαρκελώνη τον Δεκέμβριο του 2016. Σε μια σχετικά απλή προσομοίωση με υπολογιστή μια ομάδα αυτόνομων αυτοκινήτων εκτελούν απότομες μανούβρες σε ένα δρόμο τεσσάρων λωρίδων. Τα μισά οχήματα προσπαθούν να κινηθούν με ταχύτητα προς τα δεξιά ενώ τα άλλα μισά κάνουν το ίδιο προς τα αριστερά. Kαι ενώ φαινόταν ότι τελικά τα οχήματα θα μπλεχτούν μεταξύ τους τελικά κατάφεραν να αλλάξουν λωρίδες και θέσεις με απόλυτη ακρίβεια.

reinforcementmobileyescreenshot1reinforcementmobileyescreenshot2

Το εντυπωσιακό σε αυτό το πείραμα είναι ότι δεν υπήρχε πίσω από την κίνηση των οχημάτων το απαραίτητο λογισμικό που ήλεγχε την κίνηση τους. Δεν ήταν προγραμματισμένα για να κινούνται έτσι αλλά και να βρίσκουν τρόπο να μην βγουν εκτός πορείας ή να συγκρουστούν. Το λογισμικό της προσομοίωσης μέσα από την επανάληψη των κινήσεων έμαθε μόνο του να καθοδηγεί με ασφάλεια τα αυτοκίνητα. Μέχρι τώρα αυτή την ικανότητα οι υπολογιστές την είχαν αναπτύξει μόνο για να παίζουν παιχνίδια με τους ανθρώπους. Όπως φαίνεται τώρα αρχίζουν να αναπτύσσουν ικανότητες αυτό-εκπαίδευσης για πιο σύνθετες διεργασίες. Ο τομέας των αυτόνομων οχημάτων είναι σύμφωνα με τους ειδικούς ο πρώτος στον οποίο πρέπει η τεχνητή νοημοσύνη να εισχωρήσει και σιγά σιγά να διεισδύσει και σε άλλους τομείς της καθημερινότητάς μας.

women in computing

Αυτή η προσέγγιση, γνωστή ως μάθηση με ενίσχυση, βρίσκεται σε μεγάλο βαθμό στον AlphaGo, έναν υπολογιστή που ονομάζεται DeepMind και που αναπτύχθηκε από μια θυγατρική της Google, ο οποίος παίζει το απίστευτα περίπλοκο επιτραπέζιο παιχνίδι Go και μπόρεσε να νικήσει έναν από τους καλύτερους παίκτες του ανθρώπου στον κόσμο σε έναν αγώνα υψηλού προφίλ πέρυσι. Τώρα η ενίσχυση της μάθησης μπορεί σύντομα να υπάρξει με μεγαλύτερη νοημοσύνη σε πράγματα μεγαλύτερης δυσκολίας από ό, τι τα παιχνίδια. Εκτός από τη βελτίωση της αυτο-οδήγησης αυτοκινήτων, η τεχνολογία μπορεί να κάνει ένα ρομπότ να πιάσει αντικείμενα που δεν έχει δει ποτέ πριν, και να καταλάβει τη βέλτιστη διαμόρφωση του εξοπλισμού σε ένα κέντρο δεδομένων.

Η ενίσχυση της μάθησης αντιγράφει μια πολύ απλή αρχή από τη φύση. Ο ψυχολόγος Edward Thorndike την έχει τεκμηριώσει περισσότερο από 100 χρόνια πριν. Ο Thorndike τοποθέτησε γάτες μέσα σε κουτιά από τα οποία θα μπορούσαν να ξεφύγουν μόνο με το πάτημα ενός μοχλού. Μετά από ένα σημαντικό χρόνο πειραματισμού και τυχαίας κίνησης τους, τα ζώα κάποτε θα πατήσουν τελικά το μοχλό κατά τύχη. Μετά αφού έμαθαν να συνδέουν αυτή τη συμπεριφορά με το επιθυμητό αποτέλεσμα, αυτές τελικά δραπέτευαν με αυξανόμενη ταχύτητα.

Πηγή

Advertisements