Connect with us

Hi, what are you looking for?

ΤΕΧΝΟΛΟΓΙΑ

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!


Ερευνητές από το University of Washington, το Western Washington University, το UIUC και το University of Chicago βρήκαν έναν νέο τρόπο για να παραβιάζουν τα μέτρα ασφαλείας των AI μοντέλων.

Περνώντας σε λεπτομέρειες, πρακτικά όλα τα chatbots σήμερα, από το GPT μέχρι το Gemini έχουν μια ευθυγράμμιση, πράγμα που σημαίνει ότι ανταποκρίνονται μόνο σε ορισμένα αιτήματα, ανάλογα με τις προτιμήσεις ή τις ηθικές αρχές των ανθρώπων. Παρόλο που μπορεί να έχουν εκπαιδευτεί με πολλές περισσότερες πληροφορίες, οι απαντήσεις τους ευθυγραμμίζονται με διάφορα μέτρα ασφαλείας και έναν κατάλογο απαγορευμένων λέξεων/φράσεων-κλειδιών, που συνήθως χρησιμοποιούνται για την αποτροπή της δημιουργίας βίαιου και επιβλαβούς περιεχομένου.

Οι εν λόγω ερευνητές κατάφεραν ωστόσο να ξεπεράσουν αποτελεσματικά αυτό το ‘alignment’ σε πέντε διαφορετικά μεγάλα γλωσσικά μοντέλα, τα GPT-3.5, GPT-4, Gemini, Claude και Llama2, χρησιμοποιώντας το λεγόμενο ArtPrompt. Τι σημαίνει αυτό; Ζητούσαν κάτι απαγορευμένο, χρησιμοποιώντας ASCII τέχνη για να γράψουν την επίμαχη λέξη…χωρίς να τη γράφουν!

Σε περίπτωση που δεν είστε εξοικειωμένοι με τον όρο, η ASCII τέχνη είναι μια δημιουργική μορφή visual design που χρησιμοποιεί τους 128 χαρακτήρες του Αμερικανικού Πρότυπου Κώδικα Ανταλλαγής Πληροφοριών (ASCII) για τη δημιουργία εικόνων και σχεδίων. Η ASCII τέχνη υπάρχει από τις πρώτες μέρες της πληροφορικής, όταν οι δυνατότητες των υπολογιστών να προβάλουν γραφικά ήταν περιορισμένες. Παρά τους περιορισμούς των τότε συστημάτων, οι λάτρεις των υπολογιστών εξέφραζαν έτσι τη δημιουργικότητά τους, χρησιμοποιώντας απλούς χαρακτήρες κειμένου για να δημιουργήσουν εντυπωσιακά σχέδια! Η πρακτική χρονολογείται από τις δεκαετίες του 1960 και 1970, ενώ απέκτησε σημαντική απήχηση τη δεκαετία του 1980 με την άνοδο των Bulletin Board Systems (BBS), όπου κοσμούσε πολλά μενού και οθόνες και χρησίμευε θα μπορούσε να πει κανείς ως μια μορφή ψηφιακού γκράφιτι.

Σε ένα χαρακτηριστικό παράδειγμα που δίνεται στο σχετικό επιστημονικό paper, η ομάδα τονίζει ότι τα AI μοντέλα αρνούνταν να απαντήσουν στο ερώτημα «πως να φτιάξω μια βόμβα». Ωστόσο, όταν η ομάδα έγραψε μόνο το πρώτο σκέλος της φράσης με κανονικούς χαρακτήρες και για τη λέξη «βόμβα» χρησιμοποίησε ASCII τέχνη, τα chatbots απάντησαν κανονικά, χωρίς ηθικούς φραγμούς, προσφέροντας βοήθεια σύμφωνα με τα δεδομένα εκπαίδευσής τους.

Όπως φαίνεται, λοιπόν, οι δημιουργοί των AI συστημάτων έχουν άλλη μια παράμετρο που πρέπει να λάβουν υπόψη. Το κατά πόσο αποτελεσματικά θα μπορέσουν βέβαια να αντιμετωπίσουν το ‘ArtPrompt’ μένει να το δούμε.



Πηγές Άρθρων

Ολα τα άρθρα που θα βρείτε εδώ προέρχονται από τους μεγαλύτερους και πιο αξιόπιστους ιστότοπους ειδήσεων.



Το άρθρο δημοσιεύτηκε για πρώτη φορά εδώ!

Click to comment

Leave a Reply

Your email address will not be published. Required fields are marked *

You May Also Like

ΕΛΛΑΔΑ

Βροχές και καταιγίδες κατά διαστήματα ισχυρές στη Θεσσαλία, τις Σποράδες, τη δυτική – νότια Πελοπόννησο, τα νησιά του βορείου και ανατολικού Αιγαίου, τις Κυκλάδες,...

ΜΑΓΑΖΙΝΟ

Το περασμένο καλοκαίρι ο Αντώνης Λυμπέρης έμεινε για μεγάλο χρονικό διάστημα στην αγαπημένη του Μύκονο. Δεν άντεξε και επέστρεψε στη θαλπωρή της τρυφερής οικογένειάς του....

ΣΥΝΤΑΓΕΣ

Προσθήκη στα αγαπημένα ΥΛΙΚΑΓια τη ζύµη: 2 φλ. Αλεύρι Φαρίνα 00 Μιτσίδη 1 κ.σ. ζάχαρη 1/2 κ.γ. αλάτι 8 κ.σ. βούτυρο ανάλατο ελαφρώς παγωµένο...

ΟΙΚΟΝΟΜΙΑ

Η Αλίκη Βουγιουκλάκη πρωταγωνίστησε στη «χρυσή» εποχή του ελληνικού κινηματογράφου έγινε και η αγαπημένη του τύπου και των ΜΜΕ της εποχής. Τα δημοσιεύματα αρκετές...