Connect with us

Hi, what are you looking for?

News

Σχεδόν 12.000 κλειδιά API και κωδικοί πρόσβασης βρέθηκαν σε σύνολο δεδομένων εκπαίδευσης AI

Μια πρόσφατη έρευνα αποκάλυψε ότι σχεδόν 12.000 έγκυρα κλειδιά API και κωδικοί πρόσβασης βρέθηκαν στο σύνολο δεδομένων Common Crawl, ένα ευρέως χρησιμοποιούμενο ανοιχτού κώδικα αρχείο ιστού που αξιοποιείται από πολλά μοντέλα τεχνητής νοημοσύνης (AI). Αυτή η ανησυχητική ανακάλυψη εγείρει σοβαρές ανησυχίες σχετικά με την ασφάλεια των δεδομένων και τις ακούσιες συνέπειες της χρήσης δεδομένων από ανίχνευση ιστού για την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLMs).

Έκταση της διαρροής

Το Common Crawl, ένας μη κερδοσκοπικός οργανισμός, διατηρεί ένα τεράστιο αποθετήριο δεδομένων ιστού, συγκεντρώνοντας πεταμπάιτ πληροφοριών από το 2008. Πολλές εταιρείες AI, όπως οι OpenAI, DeepSeek, Google, Meta, Anthropic και Stability AI, χρησιμοποιούν αυτό το σύνολο δεδομένων για την εκπαίδευση των LLMs τους. Ωστόσο, η Truffle Security, η εταιρεία πίσω από το ανοιχτού κώδικα εργαλείο σάρωσης ευαίσθητων δεδομένων TruffleHog, ανέλυσε πρόσφατα 400 terabytes από το αρχείο του Common Crawl του Δεκεμβρίου 2024 και βρήκε ότι 11.908 κλειδιά και κωδικοί παρέμεναν έγκυρα. Αυτά τα διαπιστευτήρια, που μπορούσαν να πιστοποιηθούν επιτυχώς, δείχνουν ότι ορισμένα AI μοντέλα ενδέχεται να έχουν εκπαιδευτεί ακούσια σε ανασφαλή ή εκτεθειμένα δεδομένα.

Επηρεασμένες υπηρεσίες και κύρια ευρήματα

Μεταξύ των ευαίσθητων πληροφοριών που εντοπίστηκαν περιλαμβάνονται:

  • Κλειδιά root του Amazon Web Services (AWS)
  • Κλειδιά API του MailChimp
  • Κλειδιά API του WalkScore

Το TruffleHog εντόπισε 219 διαφορετικούς τύπους μυστικών στον κατάλογο Common Crawl, με τα κλειδιά API του MailChimp να είναι τα πιο διαδεδομένα.

“Σχεδόν 1.500 μοναδικά κλειδιά API του MailChimp ήταν ενσωματωμένα σε HTML και JavaScript,” δήλωσε η Truffle Security.

Ο κύριος λόγος αυτής της διαρροής είναι η εσφαλμένη πρακτική των προγραμματιστών να ενσωματώνουν διαπιστευτήρια απευθείας σε HTML και JavaScript, αντί να χρησιμοποιούν ασφαλείς μεταβλητές περιβάλλοντος στον διακομιστή. Αυτή η αμέλεια μπορεί να οδηγήσει σε σοβαρές εκμεταλλεύσεις, όπως εκστρατείες phishing, πλαστοπροσωπία επωνυμιών και εξαγωγή δεδομένων.

Επαναχρησιμοποιημένα και Διαδεδομένα Μυστικά

Ένα από τα πιο ανησυχητικά στοιχεία της μελέτης ήταν ο υψηλός ρυθμός επαναχρησιμοποίησης διαπιστευτηρίων. Η Truffle Security σημείωσε ότι το 63% των ανακαλυφθέντων μυστικών εμφανίστηκε σε πολλαπλές σελίδες, ενώ ένα κλειδί API του WalkScore εμφανίστηκε 57.029 φορές σε 1.871 υποτομείς.

Επιπλέον, οι ερευνητές βρήκαν μία ιστοσελίδα που εξέθετε 17 μοναδικά ενεργά webhooks του Slack, τα οποία θα έπρεπε να παραμένουν εμπιστευτικά για να αποτρέπεται η μη εξουσιοδοτημένη δημοσίευση μηνυμάτων σε κανάλια του Slack.

Επιπτώσεις στην Εκπαίδευση των AI

Παρόλο που τα AI μοντέλα δεν επεξεργάζονται απευθείας ακατέργαστα δεδομένα και περνούν από στάδια προ-επεξεργασίας για την απομάκρυνση περιττού περιεχομένου, η εξάλειψη ευαίσθητων δεδομένων σε μεγάλη κλίμακα παραμένει πρόκληση. Παρά τις προσπάθειες αυτές, δεν υπάρχει απόλυτη εγγύηση ότι προσωπικά αναγνωρίσιμες πληροφορίες (PII), οικονομικά δεδομένα ή εμπιστευτικά στοιχεία αφαιρούνται πλήρως πριν την εκπαίδευση του μοντέλου. Αυτό το ζήτημα υπογραμμίζει πώς οι ανασφαλείς πρακτικές κωδικοποίησης μπορούν να επηρεάσουν ακούσια τη συμπεριφορά των LLMs και να εκθέσουν ευαίσθητες πληροφορίες χρηστών.

Μέτρα αντιμετώπισης και βέλτιστες πρακτικές

Μετά τα ευρήματά τους, η Truffle Security ενημέρωσε άμεσα τους επηρεαζόμενους παρόχους και συνεργάστηκε μαζί τους για να ανακαλέσουν τα εκτεθειμένα κλειδιά. Η εταιρεία βοήθησε επιτυχώς οργανισμούς να περιστρέψουν ή να ανακαλέσουν χιλιάδες διαπιστευτήρια.

Για προγραμματιστές και οργανισμούς, αυτή η ανακάλυψη υπογραμμίζει τη σημασία της υιοθέτησης ασφαλών πρακτικών κωδικοποίησης:

  1. Αποφύγετε την ενσωμάτωση μυστικών στον κώδικα – Χρησιμοποιήστε μεταβλητές περιβάλλοντος ή εργαλεία διαχείρισης μυστικών.
  2. Ελέγχετε τακτικά τον κώδικα – Χρησιμοποιήστε αυτοματοποιημένα εργαλεία σάρωσης, όπως το TruffleHog.
  3. Παρακολουθήστε τη χρήση των κλειδιών API – Υιοθετήστε πολιτικές περιοδικής ανανέωσης κλειδιών.
  4. Περιορίστε την πρόσβαση – Εφαρμόστε έλεγχο πρόσβασης βάσει ρόλων (RBAC) και περιορίστε τα δικαιώματα API.

Συμπέρασμα

Αυτή η αποκάλυψη αποτελεί μια σοβαρή προειδοποίηση σχετικά με τους κινδύνους ασφαλείας που συνδέονται με τη μαζική συλλογή δεδομένων ιστού. Καθώς η τεχνητή νοημοσύνη συνεχίζει να εξελίσσεται, είναι κρίσιμο να διασφαλιστεί η αυστηρή επεξεργασία και διαχείριση των δεδομένων ώστε να προστατεύονται οι ευαίσθητες πληροφορίες. Οι οργανισμοί πρέπει να λάβουν προληπτικά μέτρα για τη διασφάλιση των κλειδιών API και των διαπιστευτηρίων τους, ώστε να αποφευχθούν μελλοντικές ευπάθειες στα σύνολα δεδομένων εκπαίδευσης AI.

Πηγή: TheHackerNews, BleepingComputer, TruffleSecurityResearch

Δείτε επίσης

Crypto

Τι είναι το blockchain; Το blockchain είναι ένα σύστημα καταγραφής πληροφορίας, το οποίο εγγυάται ασφάλεια, διαφάνεια και αποκέντρωση (decentralization). Επιτρέπει τη δημόσια καταγραφή δεδομένων,...

Resources

Ο διπλός έλεγχος ταυτότητας παρέχει ένα επιπλέον επίπεδο ασφαλείας, πέραν του παραδοσιακού τρόπου σύνδεσης με όνομα χρήστη και κωδικό πρόσβασης. Κατά τη διαδικασία επαλήθευσης,...

Crypto

Εισαγωγή Η διαδικασία δημιουργίας κρυπτονομισμάτων και προσθήκης νέων συναλλαγών στο blockchain, πρέπει να γίνεται με τρόπο που εξασφαλίζει ασφάλεια, διαφάνεια και αποκέντρωση. Αυτό επιτυγχάνεται μέσω...

Crypto

Εισαγωγή Με την τεχνολογία του blockchain και τα κρυπτονομίσματα να μπαίνουν όλο και περισσότερο στην καθημερινότητά μας, ακούμε όλο και πιο συχνά την έννοια...