ΤΕΧΝΟΛΟΓΙΑ

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Published

March 4, 2024

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Ερευνητές από το University of Washington, το Western Washington University, το UIUC και το University of Chicago βρήκαν έναν νέο τρόπο για να παραβιάζουν τα μέτρα ασφαλείας των AI μοντέλων.

Περνώντας σε λεπτομέρειες, πρακτικά όλα τα chatbots σήμερα, από το GPT μέχρι το Gemini έχουν μια ευθυγράμμιση, πράγμα που σημαίνει ότι ανταποκρίνονται μόνο σε ορισμένα αιτήματα, ανάλογα με τις προτιμήσεις ή τις ηθικές αρχές των ανθρώπων. Παρόλο που μπορεί να έχουν εκπαιδευτεί με πολλές περισσότερες πληροφορίες, οι απαντήσεις τους ευθυγραμμίζονται με διάφορα μέτρα ασφαλείας και έναν κατάλογο απαγορευμένων λέξεων/φράσεων-κλειδιών, που συνήθως χρησιμοποιούνται για την αποτροπή της δημιουργίας βίαιου και επιβλαβούς περιεχομένου.

Οι εν λόγω ερευνητές κατάφεραν ωστόσο να ξεπεράσουν αποτελεσματικά αυτό το ‘alignment’ σε πέντε διαφορετικά μεγάλα γλωσσικά μοντέλα, τα GPT-3.5, GPT-4, Gemini, Claude και Llama2, χρησιμοποιώντας το λεγόμενο ArtPrompt. Τι σημαίνει αυτό; Ζητούσαν κάτι απαγορευμένο, χρησιμοποιώντας ASCII τέχνη για να γράψουν την επίμαχη λέξη…χωρίς να τη γράφουν!

Σε περίπτωση που δεν είστε εξοικειωμένοι με τον όρο, η ASCII τέχνη είναι μια δημιουργική μορφή visual design που χρησιμοποιεί τους 128 χαρακτήρες του Αμερικανικού Πρότυπου Κώδικα Ανταλλαγής Πληροφοριών (ASCII) για τη δημιουργία εικόνων και σχεδίων. Η ASCII τέχνη υπάρχει από τις πρώτες μέρες της πληροφορικής, όταν οι δυνατότητες των υπολογιστών να προβάλουν γραφικά ήταν περιορισμένες. Παρά τους περιορισμούς των τότε συστημάτων, οι λάτρεις των υπολογιστών εξέφραζαν έτσι τη δημιουργικότητά τους, χρησιμοποιώντας απλούς χαρακτήρες κειμένου για να δημιουργήσουν εντυπωσιακά σχέδια! Η πρακτική χρονολογείται από τις δεκαετίες του 1960 και 1970, ενώ απέκτησε σημαντική απήχηση τη δεκαετία του 1980 με την άνοδο των Bulletin Board Systems (BBS), όπου κοσμούσε πολλά μενού και οθόνες και χρησίμευε θα μπορούσε να πει κανείς ως μια μορφή ψηφιακού γκράφιτι.

Σε ένα χαρακτηριστικό παράδειγμα που δίνεται στο σχετικό επιστημονικό paper, η ομάδα τονίζει ότι τα AI μοντέλα αρνούνταν να απαντήσουν στο ερώτημα «πως να φτιάξω μια βόμβα». Ωστόσο, όταν η ομάδα έγραψε μόνο το πρώτο σκέλος της φράσης με κανονικούς χαρακτήρες και για τη λέξη «βόμβα» χρησιμοποίησε ASCII τέχνη, τα chatbots απάντησαν κανονικά, χωρίς ηθικούς φραγμούς, προσφέροντας βοήθεια σύμφωνα με τα δεδομένα εκπαίδευσής τους.

Όπως φαίνεται, λοιπόν, οι δημιουργοί των AI συστημάτων έχουν άλλη μια παράμετρο που πρέπει να λάβουν υπόψη. Το κατά πόσο αποτελεσματικά θα μπορέσουν βέβαια να αντιμετωπίσουν το ‘ArtPrompt’ μένει να το δούμε.

|￣￣￣￣￣￣|
| This can |
| hack AI |
| now. |
| ＿＿＿＿＿_ |
(__/) ||
(•ㅅ•) ||
/ 　づ

Paper showing that ASCII art can get around AI guardrails. Its the return of 1980s hackers. https://t.co/1KGozsE4eQ pic.twitter.com/zsDNBXqAFr

— Ethan Mollick (@emollick) March 1, 2024

Πηγές Άρθρων

Ολα τα άρθρα που θα βρείτε εδώ προέρχονται από τους μεγαλύτερους και πιο αξιόπιστους ιστότοπους ειδήσεων.

Το άρθρο δημοσιεύτηκε για πρώτη φορά εδώ!

In this article:

Click to comment

ΕΛΛΑΔΑ

Καιρός: Συνεχίζονται οι κατά τόπους καταιγίδες και σήμερα – Ποιες περιοχές χρειάζονται προσοχή

Βροχές και καταιγίδες κατά διαστήματα ισχυρές στη Θεσσαλία, τις Σποράδες, τη δυτική – νότια Πελοπόννησο, τα νησιά του βορείου και ανατολικού Αιγαίου, τις Κυκλάδες,...

Trenty2 days ago

Η ιστορία του εκδότη που άλλαξε το Status του lifestyle

ΜΑΓΑΖΙΝΟ

Η ιστορία του εκδότη που άλλαξε το Status του lifestyle

Το περασμένο καλοκαίρι ο Αντώνης Λυμπέρης έμεινε για μεγάλο χρονικό διάστημα στην αγαπημένη του Μύκονο. Δεν άντεξε και επέστρεψε στη θαλπωρή της τρυφερής οικογένειάς του....

Δημήτρης Παγαδάκης2 days ago

ΣΥΝΤΑΓΕΣ

Pecan pie | Απλές και νόστιμες συνταγές

Προσθήκη στα αγαπημένα ΥΛΙΚΑΓια τη ζύµη: 2 φλ. Αλεύρι Φαρίνα 00 Μιτσίδη 1 κ.σ. ζάχαρη 1/2 κ.γ. αλάτι 8 κ.σ. βούτυρο ανάλατο ελαφρώς παγωµένο...

ΛΟΥΙΖΑ ΖΕΜΠΥΛΑ ΡΑΦΑΗΛ1 day ago

Όταν τα fakenews πέθαναν την Α.Βουγιουκλάκη σε τροχαίο – Πως αντέδρασε η ηθοποιός – Makeleio.gr

ΟΙΚΟΝΟΜΙΑ

Όταν τα fakenews πέθαναν την Α.Βουγιουκλάκη σε τροχαίο – Πως αντέδρασε η ηθοποιός – Makeleio.gr

Η Αλίκη Βουγιουκλάκη πρωταγωνίστησε στη «χρυσή» εποχή του ελληνικού κινηματογράφου έγινε και η αγαπημένη του τύπου και των ΜΜΕ της εποχής. Τα δημοσιεύματα αρκετές...

Mike2 days ago

Trenty

ΤΕΧΝΟΛΟΓΙΑ

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Πηγές Άρθρων