• EN
    RU

harvestor/init

init(in_file, proxy_file="", proceed_js=true); - инициализировать сборщик url
Функция на вход принимает параметры:

  • in_file – путь к файлу с url, содержимое которых надо собрать
  • proxy_file – путь к файлу с прокси что используются при сборе
  • proceed_js – обрабатывать ли JS при сборе

    После отработки функция возвращает результат своей работы в робот :
  • true – успешно инициализировали
  • false – инициализировать не удалось




  • Пример использования init (Python):

    # Additional paths
    import sys
    sys.path.insert(0, '../../../Templates PY/')
     
    xhe_host = "127.0.0.1:7022"
    from xweb_human_emulator import *
     
    # начало
    echo("<hr><font color=blue>ftp.xxxxxxxxx</font><hr>")
     
    # 1 
    echo("1. Сфорируем файл с урлами : ");
    path = "test/in_file.urls";
    echo(file_os.delete("test/in_file.urls")," ");
    echo(textfile.add_string_to_file("test/in_file.urls","ya.ru\n")," ");
    echo(textfile.add_string_to_file("test/in_file.urls","google.com\n")," ");
    echo(textfile.add_string_to_file("test/in_file.urls","yandex.ru\n")," ");
    echo(textfile.add_string_to_file("test/in_file.urls","vk.com\n")," ");
    echo(textfile.add_string_to_file("test/in_file.urls","ttttttt\n")," ");
     
    # 2
    echo("\n2. Инициализируем сборщик файлом с урлами: ");
    echo(harvestor.init("test/in_file.urls")," ");
     
    # 3
    echo("\n3. Запуститм сбор и дождемся окончания : ");
    echo(harvestor.start(false),"<br>");
    while not harvestor.is_finished():
      echo("."+str(harvestor.get_completed_count())+".");  
      sleep(1);
     
    # 4
    echo("\n4. Выведем длину полученных урлов в файле : ");
    count = textfile.get_lines_count(path);
    for i in range(0, count):
      echo(len(harvestor.get_html(i))," ")
     
    # 5
    echo("\n5. Инициализируем сборщик файлом с урлами: ");
    echo(harvestor.init("test/in_file.urls","test/proxies.txt",false)," ");
     
    # 6
    echo("\n6. Запуститм сбор и дождемся окончания : ");
    echo(harvestor.start(false),"<br>");
    while not harvestor.is_finished():
      echo("."+str(harvestor.get_completed_count())+".");  
      sleep(1);
     
    # 7
    echo("\n7. Выведем длину полученных урлов в файле : ");
    count = textfile.get_lines_count(path);
    for i in range(0, count):
      echo(len(harvestor.get_html(i))," ")
     
    # конец
    echo("<hr><br>")
     
    # Quit
    app.quit()