hadoop - スパーク送信 pyspark スクリプトをスローする糸の最大再帰深度を超えました

okwaves2024-01-25 7

Spark サブミットヤーンクラスターモードで org.apache.spark.examples.SparkPi サンプル jar を送信でき、成功しますが、pyspark 内の以下のスニペットは最大再帰深度を超えたエラーで失敗します。

spark-submit --master yarn --deploy-mode cluster --executor-memory 1G --num-executors 4 --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON="/usr/bin/python2.7" test.py --verbose

糸クラスターモードでの Pyspark からの提案に従って、pyspark_python 環境を追加しました。

test.py

from pyspark import SparkContext
from pyspark.sql import HiveContext

sc_new = SparkContext()
SQLContext = HiveContext(sc_new)
SQLContext.setConf("spark.sql.hive.convertMetastoreOrc", "false")
txt = SQLContext.sql( "SELECT 1")
txt.show(2000000, False)

これを修正するにはどうすればよいですか?

File "/hdfs/data_06/yarn/nm/usercache/<alias>/appcache/application_1583989737267_1123855/container_e59_1583989737267_1123855_01_000001/py4j-0.9-src.zip/py4j/java_gateway.py", line 746, in send_command
                   raise Py4JError("Answer from Java side is empty")
               Py4JError: Answer from Java side is empty
               ERROR:py4j.java_gateway:Error while sending or receiving.
               Traceback (most recent call last):File "/hdfs/data_10/yarn/nm/usercache/<alias>/appcache/application_1583989737267_1123601/container_e59_1583989737267_1123601_01_000001/py4j-0.9-src.zip/py4j/java_gateway.py", line 626, in send_command
File "/hdfs/data_10/yarn/nm/usercache/<alias>/appcache/application_1583989737267_1123601/container_e59_1583989737267_1123601_01_000001/py4j-0.9-src.zip/py4j/java_gateway.py", line 749, in send_command
File "/usr/lib64/python2.7/logging/__init__.py", line 1182, in exception
  self.error(msg, *args, **kwargs)
File "/usr/lib64/python2.7/logging/__init__.py", line 1175, in error
  self._log(ERROR, msg, args, **kwargs)
File "/usr/lib64/python2.7/logging/__init__.py", line 1268, in _log
  self.handle(record)
File "/usr/lib64/python2.7/logging/__init__.py", line 1278, in handle
  self.callHandlers(record)
File "/usr/lib64/python2.7/logging/__init__.py", line 1318, in callHandlers
  hdlr.handle(record)
File "/usr/lib64/python2.7/logging/__init__.py", line 749, in handle
  self.emit(record)
File "/usr/lib64/python2.7/logging/__init__.py", line 879, in emit
  self.handleError(record)
File "/usr/lib64/python2.7/logging/__init__.py", line 802, in handleError
  None, sys.stderr)
File "/usr/lib64/python2.7/traceback.py", line 125, in print_exception
  print_tb(tb, limit, file)
File "/usr/lib64/python2.7/traceback.py", line 69, in print_tb
  line = linecache.getline(filename, lineno, f.f_globals)
File "/usr/lib64/python2.7/linecache.py", line 14, in getline
  lines = getlines(filename, module_globals)
File "/usr/lib64/python2.7/linecache.py", line 40, in getlines
  return updatecache(filename, module_globals)
File "/usr/lib64/python2.7/linecache.py", line 128, in updatecache
  lines = fp.readlines()
RuntimeError: maximum recursion depth exceeded while calling a Python object

Spark バージョン 1.6.0 の実行ハイブ、バージョン 1.1.0 Hadoop バージョン:2.6.0-cdh5.13.0

------------------------

txt.show(2000000, False) を呼び出すと、py4j が jvm-python-object-jvm 呼び出しを往復することになり、結果にはそれほど多くの行が含まれません。私は信じているshow() で呼び出せる最大値は 2000 程度です。 SELECT 1 だけを実行しているのに、なぜ 2000,000 件のレコードを表示する必要があるのですか?

それが失敗の原因ではないはずですが、20 で再試行しましたが、依然としてエラーが発生しました。元の投稿エラーを更新し、ログの先頭からの追加情報を追加しました。ありがとう

– StrangerThinks

2020 年 9 月 4 日 22:04

hadoop - スパーク送信 pyspark スクリプトをスローする糸の最大再帰深度を超えました

総合生活情報サイト - OKWAVES

カテゴリ一覧