Connect with us

Hi, what are you looking for?

Τεχνολογία

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!

Επιστήμονες βρήκαν νέο τρόπο να κάνουν hack τις AI και είναι βγαλμένος από το 1980!


Ερευνητές από το University of Washington, το Western Washington University, το UIUC και το University of Chicago βρήκαν έναν νέο τρόπο για να παραβιάζουν τα μέτρα ασφαλείας των AI μοντέλων.

Περνώντας σε λεπτομέρειες, πρακτικά όλα τα chatbots σήμερα, από το GPT μέχρι το Gemini έχουν μια ευθυγράμμιση, πράγμα που σημαίνει ότι ανταποκρίνονται μόνο σε ορισμένα αιτήματα, ανάλογα με τις προτιμήσεις ή τις ηθικές αρχές των ανθρώπων. Παρόλο που μπορεί να έχουν εκπαιδευτεί με πολλές περισσότερες πληροφορίες, οι απαντήσεις τους ευθυγραμμίζονται με διάφορα μέτρα ασφαλείας και έναν κατάλογο απαγορευμένων λέξεων/φράσεων-κλειδιών, που συνήθως χρησιμοποιούνται για την αποτροπή της δημιουργίας βίαιου και επιβλαβούς περιεχομένου.

Οι εν λόγω ερευνητές κατάφεραν ωστόσο να ξεπεράσουν αποτελεσματικά αυτό το ‘alignment’ σε πέντε διαφορετικά μεγάλα γλωσσικά μοντέλα, τα GPT-3.5, GPT-4, Gemini, Claude και Llama2, χρησιμοποιώντας το λεγόμενο ArtPrompt. Τι σημαίνει αυτό; Ζητούσαν κάτι απαγορευμένο, χρησιμοποιώντας ASCII τέχνη για να γράψουν την επίμαχη λέξη…χωρίς να τη γράφουν!

Σε περίπτωση που δεν είστε εξοικειωμένοι με τον όρο, η ASCII τέχνη είναι μια δημιουργική μορφή visual design που χρησιμοποιεί τους 128 χαρακτήρες του Αμερικανικού Πρότυπου Κώδικα Ανταλλαγής Πληροφοριών (ASCII) για τη δημιουργία εικόνων και σχεδίων. Η ASCII τέχνη υπάρχει από τις πρώτες μέρες της πληροφορικής, όταν οι δυνατότητες των υπολογιστών να προβάλουν γραφικά ήταν περιορισμένες. Παρά τους περιορισμούς των τότε συστημάτων, οι λάτρεις των υπολογιστών εξέφραζαν έτσι τη δημιουργικότητά τους, χρησιμοποιώντας απλούς χαρακτήρες κειμένου για να δημιουργήσουν εντυπωσιακά σχέδια! Η πρακτική χρονολογείται από τις δεκαετίες του 1960 και 1970, ενώ απέκτησε σημαντική απήχηση τη δεκαετία του 1980 με την άνοδο των Bulletin Board Systems (BBS), όπου κοσμούσε πολλά μενού και οθόνες και χρησίμευε θα μπορούσε να πει κανείς ως μια μορφή ψηφιακού γκράφιτι.

Σε ένα χαρακτηριστικό παράδειγμα που δίνεται στο σχετικό επιστημονικό paper, η ομάδα τονίζει ότι τα AI μοντέλα αρνούνταν να απαντήσουν στο ερώτημα «πως να φτιάξω μια βόμβα». Ωστόσο, όταν η ομάδα έγραψε μόνο το πρώτο σκέλος της φράσης με κανονικούς χαρακτήρες και για τη λέξη «βόμβα» χρησιμοποίησε ASCII τέχνη, τα chatbots απάντησαν κανονικά, χωρίς ηθικούς φραγμούς, προσφέροντας βοήθεια σύμφωνα με τα δεδομένα εκπαίδευσής τους.

Όπως φαίνεται, λοιπόν, οι δημιουργοί των AI συστημάτων έχουν άλλη μια παράμετρο που πρέπει να λάβουν υπόψη. Το κατά πόσο αποτελεσματικά θα μπορέσουν βέβαια να αντιμετωπίσουν το ‘ArtPrompt’ μένει να το δούμε.



Πηγές Άρθρων

Ολα τα άρθρα που θα βρείτε εδώ προέρχονται από τους μεγαλύτερους και πιο αξιόπιστους ιστότοπους ειδήσεων.



Το άρθρο δημοσιεύτηκε για πρώτη φορά εδώ!

Click to comment

Leave a Reply

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

You May Also Like

Μusic

https://www.getgreekmusic.gr – Μπες και μάθε τα πάντα για την ελληνική μουσική. ▷ Που γυρίζεις – Imam Baildi ft.Μαίρη Λίντα … source

Τεχνολογία

Η Ελλάδα σχεδιάζει να ενισχύσει τις ένοπλες δυνάμεις της με την αγορά των σύγχρονων drones Switchblade από τις ΗΠΑ, σύμφωνα με πληροφορίες του πρακτορείου...

Πολιτική

Ο Χάρης Δούκας τόνισε ότι μετά τις εσωκομματικές εκλογές του ΠΑΣΟΚ θα παντρευτεί τη σύντροφό του, Γεωργία Πολυτάνου. Ο δήμαρχος Αθηναίων μιλώντας στο Star,...

Αυτοκίνητο

του Νεκτάριου Διατσίδη   ΔΙΑΦΗΜΙΣΤΙΚΟΣ ΧΩΡΟΣ Ο Alessandro Di Mario με την Aprilia RS 660, είναι ο Πρωταθλητής του Twins Cup MotoAmerica για το...