mastodontech.de ist einer von vielen unabhängigen Mastodon-Servern, mit dem du dich im Fediverse beteiligen kannst.
Offen für alle (über 16) und bereitgestellt von Markus'Blog

Serverstatistik:

1,4 Tsd.
aktive Profile

#robotstxt

7 Beiträge6 Beteiligte1 Beitrag heute
Inautilo<p><a href="https://mastodon.social/tags/Development" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Development</span></a> <a href="https://mastodon.social/tags/Guides" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Guides</span></a><br>Who owns your content in the AI age? · When AI bots take your content without consent <a href="https://ilo.im/165tej" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">ilo.im/165tej</span><span class="invisible"></span></a></p><p>_____<br><a href="https://mastodon.social/tags/AI" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>AI</span></a> <a href="https://mastodon.social/tags/Crawlers" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Crawlers</span></a> <a href="https://mastodon.social/tags/Consent" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Consent</span></a> <a href="https://mastodon.social/tags/Content" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Content</span></a> <a href="https://mastodon.social/tags/GitHub" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>GitHub</span></a> <a href="https://mastodon.social/tags/AccessLogs" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>AccessLogs</span></a> <a href="https://mastodon.social/tags/RobotsTxt" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>RobotsTxt</span></a> <a href="https://mastodon.social/tags/Design" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Design</span></a> <a href="https://mastodon.social/tags/WebDesign" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>WebDesign</span></a> <a href="https://mastodon.social/tags/WebDev" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>WebDev</span></a></p>
Agnieszka Serafinowicz<p><strong>Perplexity AI przyłapane na&nbsp;gorącym uczynku. Firma miała potajemnie omijać blokady stron</strong></p><p>Firma Cloudflare, gigant w&nbsp;dziedzinie bezpieczeństwa i&nbsp;infrastruktury internetowej, opublikowała raport oskarżający popularną wyszukiwarkę AI, Perplexity, o&nbsp;stosowanie nieetycznych praktyk.<br></p><p>Według dochodzenia, Perplexity miało używać potajemnych, niezadeklarowanych crawlerów do&nbsp;pobierania treści ze&nbsp;stron internetowych, które wyraźnie zablokowały dostęp dla botów tej&nbsp;firmy.</p><p>Dochodzenie Cloudflare zostało wszczęte po&nbsp;skargach od&nbsp;klientów, którzy&nbsp;zauważyli, że&nbsp;Perplexity wciąż indeksuje ich witryny, mimo zastosowania blokad.&nbsp; Jak się okazało, mechanizm działania był prosty, ale&nbsp;skuteczny. Gdy&nbsp;standardowy bot Perplexity (PerplexityBot) napotykał blokadę, firma miała przełączać się na&nbsp;„tryb stealth”. Używała wtedy crawlerów z&nbsp;generycznym identyfikatorem przeglądarki (np.&nbsp;Chrome), które dodatkowo działały z&nbsp;puli niezgłoszonych adresów IP i&nbsp;różnych sieci, aby ukryć swoją prawdziwą tożsamość. Co&nbsp;najważniejsze, te&nbsp;potajemne boty w&nbsp;ogóle nie&nbsp;próbowały odczytać pliku&nbsp;robots.txt – pliku, w&nbsp;którym&nbsp;właściciele stron określają zasady dla botów.</p><p>Skala problemu była ogromna. Cloudflare zaobserwowało takie zachowanie na&nbsp;dziesiątkach tysięcy domen, a&nbsp;liczba zapytań od&nbsp;ukrytych botów Perplexity sięgała milionów dziennie. To&nbsp;praktyka stojąca w&nbsp;sprzeczności z&nbsp;działaniami innych firm, jak OpenAI, które jasno deklarują swoje boty i&nbsp;respektują dyrektywy zawarte w&nbsp;plikach&nbsp;robots.txt skonfigurowanych przez&nbsp;właścicieli stron.</p><p>W&nbsp;odpowiedzi na&nbsp;te&nbsp;odkrycia, Cloudflare podjęło zdecydowane kroki. Po&nbsp;pierwsze, firma usunęła Perplexity ze&nbsp;swojej listy „zweryfikowanych botów”, co&nbsp;utrudni jego interakcje ze&nbsp;stronami chronionymi przez&nbsp;Cloudflare.&nbsp; Po&nbsp;drugie, wprowadzono nowe, heurystyczne zabezpieczenia do&nbsp;swoich reguł. Zamiast blokować konkretne, znane boty, system będzie teraz automatycznie wykrywał i&nbsp;blokował podejrzane&nbsp;zachowania, takie jak próba ukrycia tożsamości przez&nbsp;crawlera. Ochrona ta&nbsp;jest dostępna dla wszystkich klientów Cloudflare. Co&nbsp;ważne, z&nbsp;wdrożonej ochrony przez&nbsp;Cloudflare mogą skorzystać nie&nbsp;tylko&nbsp;podmioty odpłatnie korzystające z&nbsp;usług sieciowego giganta, ale&nbsp;także użytkownicy planów darmowych.</p><blockquote><p><a href="https://imagazine.pl/2025/07/22/koniec-z-przegladaniem-czas-na-dzialanie-perplexity-rzuca-wyzwanie-google-z-przegladarka-ai-comet/" rel="nofollow noopener" target="_blank">Koniec z&nbsp;przeglądaniem, czas na&nbsp;działanie. Perplexity rzuca wyzwanie Google z&nbsp;przeglądarką AI Comet</a></p></blockquote><p></p><p><a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/ai-si/" target="_blank">#AI</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/cloudflare/" target="_blank">#Cloudflare</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/cyberbezpieczenstwo/" target="_blank">#cyberbezpieczeństwo</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/news/" target="_blank">#news</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/perplexity-ai/" target="_blank">#PerplexityAI</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/prywatnosc/" target="_blank">#prywatność</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/robots-txt/" target="_blank">#robotsTxt</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/scrapowanie-danych/" target="_blank">#scrapowanieDanych</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/sztuczna-inteligencja/" target="_blank">#sztucznaInteligencja</a> <a rel="nofollow noopener" class="hashtag u-tag u-category" href="https://imagazine.pl/tag/web-crawler/" target="_blank">#webCrawler</a></p>
Kevin Karhan :verified:<p><span class="h-card" translate="no"><a href="https://daedal.io/@thomzane" class="u-url mention" rel="nofollow noopener" target="_blank">@<span>thomzane</span></a></span> the problem with <a href="https://robotstxt.org" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">robotstxt.org</span><span class="invisible"></span></a> / <a href="https://infosec.space/tags/robotstxt" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>robotstxt</span></a> is that <a href="https://social.tchncs.de/@cgudrian/114980303354716730" rel="nofollow noopener" target="_blank">it's a mere <em>ask</em></a> and not something enforced.</p><ul><li>And with <em>"enforced"</em> I mean <code>.htaccess</code> or even better <a href="https://infosec.space/tags/iptables" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>iptables</span></a> at the hoster's site.</li></ul><p>Personally I tend to go <em>full "asshole mode"</em> on <a href="https://infosec.space/tags/hostile" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>hostile</span></a> actors like <a href="https://infosec.space/tags/NSAbook" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>NSAbook</span></a>!</p>
Kevin Karhan :verified:<p><span class="h-card" translate="no"><a href="https://ohai.social/@lina" class="u-url mention" rel="nofollow noopener" target="_blank">@<span>lina</span></a></span> np. </p><p>I think it's important to highlight such projects like <a href="https://cuiiliste.de" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">cuiiliste.de</span><span class="invisible"></span></a> and actually point people at it in the hopes that <span class="h-card" translate="no"><a href="https://mastodon.social/@ooni" class="u-url mention" rel="nofollow noopener" target="_blank">@<span>ooni</span></a></span> and <span class="h-card" translate="no"><a href="https://mastodon.social/@citizenlab" class="u-url mention" rel="nofollow noopener" target="_blank">@<span>citizenlab</span></a></span> add it to their <a href="https://github.com/citizenlab/test-lists/" rel="nofollow noopener" target="_blank">test lists...</a></p><ul><li>Personally I did add it to my <a href="https://github.com/greyhat-academy/lists.d/blob/cacf5b9fbd80affd34d760c50b0b7333def000bf/blocklists.list.tsv#L28" rel="nofollow noopener" target="_blank">blocklist lists</a> not as an endorsement [far from it!] but as a point of reference for <a href="https://infosec.space/tags/CUII" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>CUII</span></a>... </li></ul><p>Maybe someday I (or someone else) can get around and make a <a href="https://infosec.space/tags/VirusTotal" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>VirusTotal</span></a> - style <a href="https://infosec.space/tags/URL" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>URL</span></a> / <a href="https://infosec.space/tags/Domain" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Domain</span></a> checker that provides more than a mere <em>"is clean"</em> / <em>"is sus"</em> / <em>"is dangerous"</em> assessment but a more nuanced answers like:</p><ul><li><em>"This domain is blocked by CUII for alleged copyright infringement"</em> </li></ul><p>or</p><ul><li><em>"This domain belongs to <a href="https://infosec.space/tags/NSAbook" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>NSAbook</span></a>"</em> </li></ul><p>and allow for granular, informed decisions (i.e. allow accessing it as a client, but blocking the entire <a href="https://infosec.space/tags/ASN" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ASN</span></a> from accessing one's Servers and thus block non-consensual <a href="https://infosec.space/tags/Scrapers" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Scrapers</span></a> that violate <a href="https://infosec.space/tags/RobotsTXT" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>RobotsTXT</span></a>.) </p><ul><li>I'm just shit at programming anything with a <a href="https://infosec.space/tags/GUI" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>GUI</span></a> but hey, I'm just a <a href="https://infosec.space/tags/Sysadmin" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Sysadmin</span></a> not a <a href="https://infosec.space/tags/Frontend" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>Frontend</span></a> person...</li></ul>

Cloudflare says Perplexity evaded website blocks with stealth crawlers, sparking debate over AI data ethics ⚠️
Perplexity denies the claims, calling the analysis flawed and insisting user-driven access only 🤖

Users split: some defend AI access, others back stricter protections for site owners 🔐

@itsfoss

news.itsfoss.com/perplexity-ig

It's FOSS News · Is Perplexity a Shameless AI Company That Won't Take No for an Answer?Perplexity keeps crawling websites, even when it's told no, says Cloudflare.

Semrush ist eines der bekanntesten SEO-Analyse-Tools auf dem Markt. Es durchsucht Websites regelmäßig mit seinem Bot (SemrushBot), um Daten wie Keywords, Backlinks, Rankings und vieles mehr von deiner Website zu erfassen und zu analysieren. Hier sind 5 effektive, schnell umzusetzende Methoden, wie du Semrush von deiner Website aussperren kannst. 👇

teufelswerk.net/semrushbot-blo

Crawler, Scraper, Bots und KI von der Website aussperren
teufelswerk | IT-Sicherheit & Cybersecurity · SemrushBot blockieren – So schützt du jede Website, egal ob WordPress, Joomla, Typo3 oder HTMLSemrush ist eines der bekanntesten SEO-Analyse-Tools auf dem Markt. Wir zeigen dir, wie du den SemrushBot blockieren kannst.
#SEO#semrush#botblocker
Antwortete Christian Mayer

@TheFox21

Ich habe nicht alle Suchmaschinen gesperrt, nicht die Unterseiten.

Und ich rede hier nur von den gesperrten Suchmaschinen und deren #LLM die hier machen was sie wollen ohne das Urheberrecht zu beachten.

Und da diese gesperrten sich an nchts halten, #robotsTXT bekommen diese zusätzlichen Müll der elektronisch erzeugt wurde.

Und auch dieser ist bei den gesperrten zu finden.

Keine Ahnung wie Du darauf kommst das die meinen Inhalt trotzdem nicht verarbeitet haben.

@FabianLaasch

Antwortete Christian Mayer

@TheFox21

Sorry, aber Du verdrehst hier was.

Wie kommst Du darauf das ich mich nur auf die #robotsTxt verlasse?
Und ja, ich habe nicht alle gesperrt.

Und ich schrieb schon das es ein Urheberrecht gibt was ignoriert wird.

Das regelt wenn Daten öffentlich zugänglich gemacht wurden.

Und ich hab schon geschrieben das meine Daten verwendet wurden, siehe Bild

@FabianLaasch

Antwortete maexchen1

@maexchen1 @FabianLaasch Die Frage kann ich dir ncht beantworten, weil ich nicht bei OpenAI arbeite. Und ich vermute du auch nicht. Oder doch?

Du verlässt dich dabei komplett auf die #RobotsTxt Datei. Das ist extrem naiv. Sich nur auf die robots.txt zu verlassen bei Inhalten, die du nicht veröffentlichen willst, ist dumm. Die robots.txt zu berücksichtigen ist zu 100% freiwillig von den Suchmaschinen. Das ist kein Internetgesetzt, oder so.