• EN
    RU

tesseractOCR/get_segmented_regions

get_segmented_regions(path, language="rus+eng", pageLevel=3); - распознать текст на картинке и получить регионы текста
Функция на вход принимает параметры:

  • path – путь к картинке
  • language – язык текста или языки, перечисленные через "+"
  • pageLevel – уровень текстовых блоков (0 - блоки, 1 - параграфы, 2 - строки, 3 - слова, 4 - символы)

    После отработки функция возвращает результат своей работы в робот :
  • регионы – регионы текста на картинке




  • Пример использования get_segmented_regions (PHP):

    <?php $xhe_host = "127.0.0.1:7010";
     
    // подключим объект для управления эмулятором, если еще не подключен
    if (!isset($path))
      $path="../../../Templates/init.php";
    require($path);
     
    // начало
    echo "<hr><font color=blue>image->".basename (__FILE__)."</font><hr>";
     
    // 1
    echo "\n\n1. Получим регионы блоков : <br><br>";
    echo print_r($tesseractOCR->get_segmented_regions("test\\capcha_100_3.png","rus+eng",0));
     
    // 2
    echo "\n\n2. Получим регионы параграфов : <br><br>";
    echo print_r($tesseractOCR->get_segmented_regions("test\\capcha_100_3.png","rus+eng",1));
     
    // 3
    echo "\n\n3. Получим регионы строк : <br><br>";
    echo print_r($tesseractOCR->get_segmented_regions("test\\capcha_100_3.png","rus+eng",2));
     
    // 4
    echo "\n\n4. Получим регионы слов : <br><br>";
    echo print_r($tesseractOCR->get_segmented_regions("test\\capcha_100_3.png","rus+eng",3));
     
    // 5
    echo "\n\n5. Получим регионы символов : <br><br>";
    echo print_r($tesseractOCR->get_segmented_regions("test\\capcha_100_3.png","rus+eng",4));
     
    // конец
    echo "<hr><br>";
     
    // Quit
    $app->quit();
    ?>

    Пример использования get_segmented_regions (C#):

    #region using
     
    using System;
    using System.Diagnostics;
    using System.Collections.Generic;
    using System.Linq;
    using System.IO;
    using System.Text;
    using System.Threading;
     
    using XHE;
    using XHE.XHE_DOM;
    using XHE.XHE_System;
    using XHE.XHE_Window;
    using XHE.XHE_Web;
     
    #endregion
     
     class Program:XHEScript
     {
    	  static void Main(string[] args)
    	  {
    			// init XHE
    			server="127.0.0.1:7024";
    			InitXHE();
     
    			// начало
    			echo("<hr><font color=blue>browser.clear_cookies</font><hr>");
     
    			// 1
    			echo("\n\n1. Получим регионы блоков : <br><br>");
    			echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",0).ToString());
     
    			// 2
    			echo("\n\n2. Получим регионы параграфов : <br><br>");
    			echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",1).ToString());
     
    			// 3
    			echo("\n\n3. Получим регионы строк : <br><br>");
    			echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",2).ToString());
     
    			// 4
    			echo("\n\n4. Получим регионы слов : <br><br>");
    			echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",3).ToString());
     
    			// 5
    			echo("\n\n5. Получим регионы символов : <br><br>");
    			echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",4).ToString());
     
    			// конец
    			echo("<hr><br>");
     
    			app.quit();            
    	  }
    }

    Пример использования get_segmented_regions (Python):

    # Additional paths
    import sys
    sys.path.insert(0, '../../../Templates PY/')
     
    xhe_host = "127.0.0.1:7024"
    from xweb_human_emulator import *
     
    # начало
    echo("<hr><font color=blue>tesseractOCR.xxxxxxxxx</font><hr>")
     
    # 1
    echo("\n\n1. Получим регионы блоков : <br><br>");
    echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",0));
     
    # 2
    echo("\n\n2. Получим регионы параграфов : <br><br>");
    echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",1));
     
    # 3
    echo("\n\n3. Получим регионы строк : <br><br>");
    echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",2));
     
    # 4
    echo("\n\n4. Получим регионы слов : <br><br>");
    echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",3));
     
    # 5
    echo("\n\n5. Получим регионы символов : <br><br>");
    echo(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",4));
     
    # конец
    echo("<hr><br>")
     
    # Quit
    app.quit()

    Пример использования get_segmented_regions (JS):

    xhe_host="127.0.0.1:7024";
    echo=require("../../../Templates JS/init.js");
     
    // 1
    echo("\n\n1. Получим регионы блоков : <br><br>");
    console.log(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",0));
     
    // 2
    echo("\n\n2. Получим регионы параграфов : <br><br>");
    console.log(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",1));
     
    // 3
    echo("\n\n3. Получим регионы строк : <br><br>");
    console.log(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",2));
     
    // 4
    echo("\n\n4. Получим регионы слов : <br><br>");
    console.log(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",3));
     
    // 5
    echo("\n\n5. Получим регионы символов : <br><br>");
    console.log(tesseractOCR.get_segmented_regions("test\\capcha_100_3.png","rus+eng",4));
     
     
    // конец
    echo("<hr><br>");
     
    // Quit
    app.quit();