Jak korzystać z narzędzia do gromadzenia danych, aby wyodrębnić dane ze stron internetowych

Jeśli kopiujesz i wklejasz rzeczy ze stron internetowych i ręcznie umieszczasz je w arkuszach kalkulacyjnych, albo nie wiesz, co to jest skrobanie danych (lub skrobanie stron internetowych), albo wiesz, co to jest, ale tak naprawdę nie podoba ci się pomysł naucz się kodować, aby zaoszczędzić kilka godzin klikania.

Tak czy inaczej, istnieje wiele narzędzi do usuwania danych bez kodu, które mogą ci pomóc, a rozszerzenie Chrome Data Miner jest jedną z bardziej intuicyjnych opcji. Jeśli masz szczęście, zadanie, które próbujesz wykonać, będzie już zawarte w książce z przepisami tego narzędzia, a nawet nie będziesz musiał przechodzić przez czynności wskazywania i klikania związane z budowaniem własnego.

Jak działa Data Miner?

Data Miner pomaga wyciągać dane ze stron internetowych i do ładnie sformatowanych plików Excel / CSV, przeglądając tekst załadowanych stron. Oznacza to, że musisz przynajmniej na tyle dobrze posługiwać się HTML, aby rozpoznać kilka wzorców, ale nic zbyt obszernego. Zaawansowane umiejętności HTML i / lub JavaScript z pewnością pomogą w niektórych zadaniach, ale nie są potrzebne w większości rzeczy. Powinieneś także mieć co najmniej podstawowe umiejętności obsługi arkuszy kalkulacyjnych, aby mieć pewność, że Twoje wyniki są czyste i uporządkowane.

1. Skonfiguruj Data Minera

Rozszerzenie Data Miner

Korzystając z Chrome lub innej przeglądarki Chromium, zainstaluj rozszerzenie. Ikona kilof rozszerzenia pojawi się na pasku narzędzi, a kliknięcie spowoduje przejście do strony, na której możesz założyć konto. Darmowa wersja daje 500 zgarnięć miesięcznie, co prawdopodobnie wystarczy, chyba że robisz to codziennie.

2. Załaduj dane

Obciążenie Data Minera

Najpierw przejdź do strony, z której chcesz wyodrębnić dane. Jeśli masz wiele stron danych lub niektóre z nich są ukryte za przyciskami, nie ma sprawy – istnieją sposoby, aby sobie z tym poradzić. Na razie potrzebujesz reprezentatywnej próbki, aby program wiedział, czego szukać.

3. Sprawdź przepis

Przepisy Data Miner

Następnie otwórz Data Minera i sprawdź zakładkę „Publiczne” dla istniejących przepisów. Jeśli korzystasz z popularnej witryny, ktoś inny mógł już utworzyć proces pozyskiwania poszukiwanych danych, co zaoszczędziłoby sporo czasu. Strony takie jak Google, Amazon, i Twitter, na przykład, masz wiele przepisów, które pomogą Ci natychmiast pobrać linki, ceny, tekst i inne dane. Możesz przetestować przepisy, klikając przycisk „Uruchom”, aby wyświetlić podgląd arkusza kalkulacyjnego generowanego przez Data Miner. Możesz również dostosować istniejące przepisy do własnych potrzeb, naciskając przycisk „Edytuj”.

4. Rodzaj strony

Typ strony Data Minera

Okej, więc żadne gotowe przepisy nie działały dla ciebie. W porządku, możesz zrobić swój własny. Wystarczy kliknąć przycisk „Nowy przepis”, aby rozpocząć.

Twój pierwszy wybór to „Strona listy” lub „Strona szczegółów”.

Wybierz „Lista stron”, jeśli próbujesz uzyskać wiele wierszy danych z jednej strony. Na przykład możesz pobrać link i tytuł strony każdego wyniku wyszukiwania lub uzyskać datę i treść postów w kanale. Jest to prawdopodobnie najpopularniejszy typ, którego użyjemy tutaj jako wersji demonstracyjnej. (Kroki strony szczegółowej są zasadniczo takie same.)

Wybierz „Strona szczegółowa”, jeśli masz wiele różnych informacji na temat jednej rzeczy na jednej stronie strona produktu, na przykład, gdzie musisz pobrać jego cenę, opis, link i ocenę i umieścić wszystko w jednym rzędzie.

Krok 5: Zrób rzędy

Wybierz wiersz Data Miner 4

Naciśnij przycisk „Znajdź” i poruszaj myszką, aż żółte pole wyboru obejmie wszystkie dane potrzebne do pojedynczego wpisu w ostatecznym arkuszu kalkulacyjnym. Na przykład, jeśli pobierasz wyniki wyszukiwania, musisz wyróżnić wystarczająco duży obszar, aby uwzględnić tytuł, adres URL i opis, z których każdy możesz umieścić w osobnych kolumnach w następnym kroku. Aby dokonać wyboru, naciśnij klawisz Shift. Nie martw się, jeśli przypadkowo klikniesz; Data Miner zapisuje wszystkie postępy w przepisach, nawet jeśli opuścisz stronę.

Następnie zaznacz co najmniej jedno pole w sekcji „Klasy elementu” lub „Typ elementu HTML”. Idealnie zobaczysz replikę wyboru obejmującą każdy element na stronie, który należy do tej samej kategorii, co wybrany.

Wybierz wiersz Data Miner 5

Jeśli stwierdzisz, że selektor nie obejmuje wszystkiego, czego potrzebujesz, spróbuj wybrać tylko jeden z elementów i nacisnąć „Wybierz rodzica”. To powiększy pole i prawdopodobnie przechwyci wszystko, czego potrzebujesz. Jeśli nie, być może trzeba trochę zagłębić się w HTML i zidentyfikować klasy i typy potrzebnych elementów. W razie wątpliwości naciśnij „Wybierz element nadrzędny”, aż pole będzie tak duże, jak to tylko możliwe, bez obejmowania więcej niż jednej pozycji listy, ponieważ zapewni to większą elastyczność podczas wybierania kolumn.

Data Miner udostępnia opcję „Wyświetl element HTML” u dołu, a także pozwala pisać niestandardowe selektory. Jeśli chcesz powiedzieć, chwyć wszystkie linki na stronie z klasą „produkt”, po prostu wpisz a. Produkt. Tutaj przydaje się podstawowa znajomość HTML / CSS.

Wybierz wiersz Data Miner 6„szerokość =„ 600 ”wysokość =„ 315

Gdy wrócisz do menu głównego wiersza, zobaczysz „Liczbę wierszy” z liczbą wpisów, które Twój przepis utworzy w arkuszu kalkulacyjnym. Jeśli to nie wszystko łapie, musisz dokładnie sprawdzić wybór wiersza.

6. Podziel dane na kolumny

Data Miner Col Wybierz 1

Po wybraniu wszystkich danych dla wierszy nadszedł czas, aby wszystko wyglądało ładnie, dzieląc je na różne kategorie kolumn. Każdy dokonany tutaj wybór powinien stanowić podsekcję pola wybranego dla wierszy.

Data Miner Col Wybierz 2

Aby utworzyć kolumnę, po prostu wpisz jej nazwę i użyj przycisku Znajdź, aby wybrać to, co chcesz wyodrębnić, tak samo jak w przypadku wierszy. Najpowszechniejszymi danymi będą prawdopodobnie tekst, adres URL lub adres URL obrazu. Uzyskiwanie adresów URL przez najechanie kursorem na linki tekstowe może być nieco trudne; być może będziesz musiał nacisnąć „wybierz rodzica”, aż dojdziesz do poziomu, na którym znajduje się typ elementu , który jest znacznikiem HTML linków.

Data Miner Col Wybierz 1

Aby upewnić się, że masz odpowiedni rodzaj danych w kolumnie, po prostu naciśnij ikonę oka po prawej stronie nazwy każdej kolumny, obok liczby wskazującej liczbę wybranych kolumn. Spowoduje to wyświetlenie podglądu każdego wpisu wiersza dla tej kolumny. Jeśli coś jest nie tak, wróć i popraw tagi i typy, które wybrałeś, aby zidentyfikować wiersze. Nie bój się otworzyć przeglądarki HTML i sprawdzić wzorce powiązane z danymi, które próbujesz pobrać.

7. Poinformuj Data Minera, jak przejść do następnej strony

Data Miner Nav 1

Jeśli masz wiele stron danych do wyodrębnienia, prawdopodobnie nie chcesz przeglądać każdej z nich i ciągle powtarzać przepis. Aby obejść ten problem, po prostu powiedz Data Miner, gdzie znaleźć przycisk nawigacyjny, który należy kliknąć, aby przejść do następnej strony. Uważaj, aby nie powiedzieć, aby klikał coś takiego jak „Strona 2, ”Jak wtedy to będzie po prostu przejść do strony 2. Ponownie upewnij się, że wybierasz i użyj przycisku Testuj nawigację, aby upewnić się, że działa.

Data Miner Nav 2

8. Powiedz Data Miner, gdzie kliknąć lub przewiń, aby załadować dane

Element Działania Minera danych Kliknij

Niektóre strony nie ładują danych, dopóki czegoś nie klikniesz lub nie przewiniesz w dół. Na szczęście Data Miner może robić te rzeczy! Użyj narzędzia „Znajdź” u góry (do tej pory powinno być całkiem niezłe), aby wybrać element, którym chcesz manipulować, a następnie umieść selektor w odpowiednim polu i przetestuj go, aby upewnić się, że działa.

Ustalenie, który selektor aktywuje element lub nieskończony pasek przewijania, może być trudne, ale podstawowa znajomość HTML oraz niektóre próby i błędy doprowadzą cię tutaj dość daleko. Większość rzeczy, którymi musisz tu manipulować, są oparte na JavaScript, ale Data Miner musi tylko znać selektor CSS powiązany z akcją, aby go aktywować, więc w większości przypadków nie musisz się bawić w żaden kod.

Kolejny krok pozwala również dodać niestandardowe JS, aby zrobić prawie wszystko, co chcesz, ale jest to dość zaawansowane i wykracza poza to, czego potrzebujemy do podstawowego skrobania.

9. Zapisz i uruchom przepis

Data Miner Save

Gratulacje! Czas sprawdzić, czy wszystko się połączyło. Uruchom przepis na stronie, na której jesteś, i sprawdź podgląd, aby sprawdzić, czy wiersze i kolumny robią to, co powinny. Jeśli nie, możesz wrócić i edytować przepis.

Uruchomienie Data Minera 1

Jeśli wszystko zachowuje się tak, jak powinno, możesz użyć przycisku „Następna strona”, aby poinformować skrobak, ile stron powinien się zaindeksować i jak szybko powinien / / (Zbyt szybkie przejście może spowodować, że system oznaczy cię jako bota).

Podział stron na Miner danych

Po uzyskaniu wszystkich potrzebnych danych możesz wybrać format pliku, którego chcesz użyć do pobrania.

Data Miner Excel Csv

Mam problem; Czy istnieje prostszy sposób?

Jeśli program Data Miner nie działa dla Ciebie, dostępnych jest wiele innych narzędzi do skrobania danych: ParseHub, Scraper, Octoparse, Import.io, VisualScraper itp. Niektóre z nich mogą mieć bardziej intuicyjne interfejsy i większą automatyzację, ale nadal musisz dowiedzieć się co najmniej o HTML i organizacji Internetu. Tym, co sprawia, że ​​Data Miner jest szczególnie miły dla początkujących, jest biblioteka przepisów crowdsourcowanych, która może potencjalnie pomóc w uniknięciu nawet najmniejszych problemów z kodem. To, w połączeniu z dość obszernym bezpłatnym miesięcznym pakietem zgarniaczy, czyni go bardzo przyzwoitym narzędziem dla większości potrzeb.

Czy ten artykuł jest przydatny?