Spidering және Web Crawlers анықтамасы

Өрмекшілер мен веб-трюлерлер: веб-сайт деректерін қорғау үшін білуіңіз қажет нәрселер

Өрмекшілер - деректерді іздейтін веб арқылы «тексеріп шығатын» бағдарламалар (немесе автоматтандырылған сценарийлер). Ұрықтар веб-сайттың URL-мекенжайлары арқылы жүреді және электрондық пошта мекенжайлары сияқты веб-беттерден деректерді тартады. Өрмекшілер веб-сайттарда іздеу жүйелерін іздеу үшін пайдаланылады.

«Веб-шолғыштар» деп аталатын Өрмекшілер Вебті іздейді және олардың барлығы ниеттеріне жарамды емес.

Ақпаратты жинау үшін спамерлердің өрмекші веб-сайттары

Google, Yahoo!

және басқа іздеу жүйелері веб-сайттарды тексеруге қызығушылық білдірмейді - сондықтан да алаяқтар мен спаммерлер.

Өрмекшілер және басқа автоматтандырылған құралдар веб-сайттарда электрондық пошта мекенжайларын (интернетте бұл тәжірибе жиі «егін жинау» деп аталады) табу үшін спаммерлермен пайдаланылады және оларды спам тізімін жасау үшін пайдаланыңыз.

Ұрықтар да іздеу жүйесі арқылы сіздің веб-сайтыңыз туралы қосымша ақпарат алу үшін пайдаланылады, бірақ тексерілмеген, сайтты тексеріп шығу туралы нұсқауларсыз (немесе «рұқсаттар») негізгі ақпараттық қауіпсіздік қаупін көрсете алады. Өрмекшілер келесі сілтемелер арқылы жүреді және дерекқорларға, бағдарлама файлдарына және қол жетімділікті қалауыңыз мүмкін басқа ақпаратқа сілтеме табуда өте жақсы.

Webmasters журналдарға қарауға мүмкіндік алады көру үшін қандай пауки және басқа да роботтарды өз сайттарында. Бұл ақпарат веб-мастерлерге өздерінің индекстеуін кімге және қаншалықты жиі білетініне көмектеседі.

Бұл ақпарат пайдалы, себебі ол веб-шеберлерге олардың SEO-ны реттеп, болашақ торабын тексеріп шығуына тыйым салу үшін робот.txt файлдарын жаңартуға мүмкіндік береді.

Сіздің веб-сайтыңызды қалаусыз роботтарды тексерушілерден қорғау туралы кеңестер

Қажетсіз тексерушілерді веб-сайтыңыздан аулақ ұстаудың қарапайым жолы бар. Торапты тексеріп шыққан зиянды өрмекшілерге алаңдамасаңыз да (электрондық поштаның абайсыздығын көптеген тексерушілерден қорғауға болмайды), сізде әлі де маңызды нұсқаулар бар іздеу жүйелерін қамтамасыз ету қажет.

Барлық веб-сайттарда robots.txt файлы деп аталатын түбірлік каталогта орналасқан файл болуы керек. Бұл файл сіз веб-шолғыштарды индекстік беттерге (мысалы, белгілі бір беттің мета деректерінде индексацияланбаған жағдайда) іздеу механизмі болса, индекстелген беттерге қарайтын нұсқау беруге мүмкіндік береді.

Қажетті ізденушілерді шолуға болатын жерді қалай айтуға болатын сияқты, сіз сондай-ақ, қайда баруға болмайтынын және тіпті бүкіл веб-сайтыңыздан арнайы тексерушілерді бұғаттай алмайтыныңызды айтыңыз.

Роботтар.txt файлын біріктіретін жақсы іздестіру жүйелері үшін үлкен мәнге ие болатынын және сіздің веб-сайтыңыздың жұмысын жақсартудың басты элементі болуы мүмкін екенін есте ұстағаныңыз маңызды, бірақ кейбір роботтар тексерушілері нұсқауларыңызды елемейді. Осы себепті барлық бағдарламалық жасақтаманы, плагиндерді және бағдарламаларды үнемі жаңартып отыру маңызды.

Қатысты мақалалар және ақпарат

Ақпаратты жинаудың басымдыққа ие болуына байланысты, зиянды (спам) мақсаттарға қолданылатындықтан, заңнама 2003 жылы белгілі бір тәжірибені заңсыз деп тану үшін қабылданды. Осы тұтынушыларды қорғау туралы заңдар 2003 жылғы CAN-SPAM Актісіне сәйкес келеді.

Егер сіздің бизнесіңіз бұқаралық ақпарат таратуды немесе ақпаратты жинаумен айналысса, CAN-SPAM Актісінде оқуға уақыт бөліңіз.

Спамға қарсы заңдар туралы және спаммерлермен қалай күресу туралы және сіз бизнес иесі ретінде не істей алмайтыны туралы қосымша ақпаратты келесі мақалаларды оқып білуге ​​болады: