Вопросы с тегом 'pyspark'

Количество результатов: 3313

0 голосов
1 ответ
PySpark: Используйте первичный ключ строки в качестве затравки для рандов

Я пытаюсь использовать функцию рандов в PySpark для создания столбца со случайными числами. Я хотел бы функцию ранда взять в первичном ключе строки в качестве семян, т...

0 голосов
1 ответ
Как получить имена столбцов как часть заявления withColumn по некоторому условию в pyspark dataframe?

У меня есть pyspark dataframe с соской закодированных значений следующим образом: user domain1 domain2 domain3.......... conversions abcd 1 ...

0 голосов
0 ответов
PySpark: Создать столбец с произвольно выбранными первичными ключами от другого dataframe

У меня есть два dataframes, A и B. А имеет первичный ключ, Key_A. Я хочу, чтобы создать столбец внешних ключей на B, который выбирает случайный ключ от а. Так B буд...

0 голосов
0 ответов
Как (изменяемые) глобальные переменные разрешаются в свече/pyspark без использования переменной Broadcast?

что у меня есть глобальный общий объект в python- class A: dict1 = {} Затем я использую его по коду в pyspark UDF как- Обновление A.dict1 где-то в «» «главный»...

0 голосов
0 ответов
Тестовый вопрос вспомогательного класса библиотеки (ImportError: не может импорт имя «Test»)

Я работал с нормальным WordCount искрового нанесением на Databricks. Для того, чтобы использовать библиотеку помощника я использовал spark._mooc_meta библиотеки в моем...

0 голосов
0 ответов
Искра усечение миллисекунды части из колонки timestamptype. Предпочтения 7 цифр, показывающих только 3 цифры

Я хочу знать о формате Timestamptype. На самом деле журналы, которые мы глотания или чтение содержит столбцы даты-времени, как 2018-11-07T07: 23: 22.2873555Z, поэтому ...

0 голосов
0 ответов
StreamWriter с возможностью дописывания и оконной функции

Я пытаюсь WriteStream с помощью опции Append, но я получаю сообщение об ошибке. Код: from pyspark.sql import SparkSession from pyspark.sql.functions import window fr...

0 голосов
1 ответ
Как фильтровать питон Спарк DataFrame по дате между двумя колоннами формата даты

Я использую pyspark 2.1 и у меня есть dataframe с двумя столбцами с форматом даты, как это: Column A , START_DT , END_DT 1 , 2016-01-01 , 2020-0...

0 голосов
0 ответов
Самый быстрый способ получить разницу между двумя большими выпусками в pyspark

Викиданные выпускает новый дамп (Очень большой файл) почти на ежедневной основе с очень небольшими изменениями от одной версии к другой. Задача состоит в том, чтобы об...

1 голос
0 ответов
PySpark: лассо возвращает все коэффициенты отличны от нуля

После расщепления моих данных в подготовку и тестирование, мои данные обучения около 33 миллионов записей. У меня есть 77 функций и бинарный ответ. Я фитинг логистичес...

1 голос
1 ответ
Вперед Заполните новую строку счета для Missing Даты

Я в настоящее время набор данных сгруппированы в почасовой приращений по переменной «агрегатор». Есть пробела в этом почасовых данных и то, что я бы в идеале, как сдел...

0 голосов
0 ответов
pyspark: панды UDF с несколькими столбцами в качестве входных

В Спарк 2.3 Я пытаюсь создать скаляром панд UDF (UDF) векторизованную, чтобы добавить новый столбец в моей dataframe. Это UDF принимает в качестве входных данных неско...

0 голосов
1 ответ
Анализировать JSON хранится в столбце таблицы в Python Спарк

Я пытаюсь разобрать JSON и добавить столбец в DataFrame с помощью Python Спарк: tableDF = spark.sql("select * from transaction") stats_df = parseJSONCols(tableDF) ...

2 голоса
1 ответ
Как исправить неизвестный IP, получая в пути доступа улей с помощью искры?

Я пытаюсь получить доступ к ульям таблицам с использованием pyspark. Тем не менее, я столкнулся вопрос с шлюзом: некоторый неразрешенный хост с публичным IP экземпляро...

1 голос
1 ответ
Как получить верхнюю X слов из Спарсевектора в массив строк с PySpark

Я в настоящее время кластеризация некоторых текстовых документов. Я использую K-средства и продолжить свои данные с TF-IDF благодаря методам PySpark. А теперь я хочу, ...

2 голоса
0 ответов
Что такое cnumpy.core.multiarray? Как освободить (удалить) это?

Я использую jmap дамп использования памяти и найти структуру данных с именем cnumpy.core.multiarray, Этот объект принадлежит org.apache.spark.rdd.MapPartitionsRDD Она...

1 голос
1 ответ
не может превратить Кафка JSon данных в Спарк Structured Streaming

Я пытаюсь получить сообщения Кафку и его обработки с искрой в автономном. Кафка хранит данные как формат JSON. Я могу получить сообщения Кафки, но не могу разобрать JS...

1 голос
1 ответ
искра dataframe столбец строки даты

Я хотел бы преобразовать искры dataframe строки столбец «YYyyMmDd» на сегодняшний день формат с искровой сессией (искровой) - не искра контекста. Так как я не работаю...

0 голосов
1 ответ
pyspark с помощью функции окна

У меня есть dataframe, который содержит строки, которые представляют собой экземпляр рейтинга для конкретного фильма пользователя. Каждый фильм может быть оценен в нес...

0 голосов
0 ответов
AttributeError: объект типа «weakref» не имеет атрибута «__callback__»

Dataframe с широтой и долготой столбцов. Создание нового столбца с udf проверки, если соответствующий почтовый индекс находится в списке Почтовые индексы. Я получаю р...

0 голосов
0 ответов
Несколько фильтров в Pyspark

Нужно фильтровать данные с использованием нескольких условий на основе записей кодов и даты услуг и подсчета различных значений, основанные на col1, col2,col3. Имея п...

1 голос
1 ответ
pyspark dataframe когда и несколько иное положение

Мне нужно создать, если несколько еще в pyspark dataframe. У меня есть две колонки, чтобы быть логически проверены. Логика ниже: Если Колонка A ИЛИ Колонка B содер...

2 голоса
1 ответ
Как спасти от dataframe JSON с форматом конкретного?

я пытаюсь сохранить следующую pyspark dataframe в формате JSON: ID VARIABLE_1 1 1 2 0 3 0 4 1 5 0 но мне нужно, чтобы быть JSON как: { "1"...

1 голос
0 ответов
ОШИБКА Utils: Uncaught исключения в потоке стандартного вывода автора для питона

Я использую искру 2.4.0 с помощью Python. и считывать данные из kafka_2.11-2.0.0 (двоичный не исток). Я использую искровым отправить --jars sspark-потокового Кафка-0-8...

1 голос
0 ответов
Неясные ошибки синтаксического анализа, когда перевод сложного Psql запрос на SparkSQL

Я делал некоторый анализ на люмен базы данных и недавно Сменная искры, как в формате CSV являются> 100GB и слишком здоровенный для одной машины. Большинство моих зап...

0 голосов
0 ответов
Есть ли способ, чтобы создать массив структур из Спарка SQL результата запроса в Pyspark

Я пытаюсь создать массив структур с результатом записей Спарк SQL. Есть ли способ, чтобы раздвинуть записи в массив структур записей SQL. Пример: У меня есть следующи...

0 голосов
1 ответ
Как прямой поток (Кафка) файл JSON в искре и преобразовать его в РД?

Написал код, что прямые потоки (Кафка) количество слов, когда файл дан (в производителе) код: from pyspark import SparkConf, SparkContext from operator import add ...

0 голосов
1 ответ
net.jpounz.lz4 исключение при чтении из Кафка с искровым потоковой

Я использую искру 2.4.0 с помощью Python. и считывать данные из kafka_2.11-2.0.0 (двоичный не исток). Я использую искровым отправить --jars sspark-потокового Кафка-0-8...

2 голоса
0 ответов
PySpark Выберите верхние записи с помощью разделов

У меня есть большой набор данных на S3 сохраняются в виде паркетных файлов, разбитых на разделы «last_update» колонке. Я хочу взять верхние записи 10Х, заказ last_upd...

2 голоса
1 ответ
Как подключить искру с помощью улей pyspark?

Я пытаюсь читать улей таблицы, используя pyspark, Удаленно. В нем говорится об ошибке, что он не в состоянии подключиться к Улой Metastore клиенту. Я прочитал несколь...

2 голоса
0 ответов
org.apache.spark.SparkException: Работа прервана из-за сбоя стадии

При выполнении моей искры работа становится ниже ошибки. Он обрабатывает около 10 миллионов записей. Я выполнение на AWS ОГО кластера 5 узлов. Я сравнивая 2 файла здес...

-2 голоса
1 ответ
Как изменить строку метки времени в Pyspark?

Я пытаюсь изменить строку в time_stamp в pyspark (Спарк версия = 2.3.0) с ниже набора данных и API Я пытался с разным разрешением от переполнения стека, но ничто не м...

0 голосов
3 ответа
Объединить две колонки dataframe без повторяющихся комбинаций

Я хочу присоединиться к колонку «пункт» два dataframes. Dataframe1(df1) id item 1 1 1 2 1 2 Dataframe2(df2) _id item 44 1 44 2 44 ...

1 голос
2 ответа
Как определить повторяющиеся вхождения столбца строки в улье?

У меня есть мнение, как это в Шуе: id sequencenumber appname 242539622 1 A 242539622 2 A 242539622 ...

0 голосов
1 ответ
pyspark: как изменить значение столбца на основе других столбцов для одной и той же Id

У меня есть pyspark dataframe с 5 столбцов: Идентификатор, значение X, нижней части и верхние границы X и дата обновления (это dataframe упорядочено «Id, Update»). Я п...

1 голос
1 ответ
PySpark присоединиться не возвращает пустой словарь не None

У меня есть RDD: [('4', 1), ('1', 1), ('8', 1), ('9', 1), ('10', 1), ('2', 1), ('3', 1), ('5', 1), ('6', 1), ('7', 1), ('11', 1)] Я пытаюсь leftOuterJoin(...

0 голосов
0 ответов
как добавить зависимости дирижаблей рекурсивно?

Я пытаюсь зарегистрировать функцию Java, чтобы зажечь SqL контекста из пользовательской баночки, скажем, это a.jar. И это a.jar зависит другие банки, как b.jar и b.jar...

0 голосов
0 ответов
Синтаксический вложенную JSON с динамическим тегом, используя Pyspark

Я хотел бы разобрать «ISR» значение из JSON ниже. Ожидаемый выход [ложь, правда]. Каким-то образом, не может быть преобразован в тип «Словаре» (с использованием litera...

0 голосов
1 ответ
Мульти URL хосты в связи JDBC

Мы используем URL JDBC, как "JDBC: Vertica: //80.90 ..: *** /". Как я могу установить второй Vertica хост для отдельного кластера в этом URL? Оба кластеры имеют один и...

0 голосов
2 ответа
Создание 5-минутный интервал между двумя меткой времени

У меня есть куча точки данных для каждого есть две колонки: start_dt а также end_dt. Мне интересно, как я могу разделить промежуток времени между start_dt и end_dt в 5...

0 голосов
0 ответов
PySpark - Обновление Dataframe с точкой зрения темпа или другим dataframe

Я должен работать и обновлять данные, основанные на правилах, в другом dataframe. Во-первых я скопировать обоих в dataframes data_df и rules_df, затем цикл по правилам...

0 голосов
1 ответ
Как исправить «Целое не может принять объект„24“в типе <тип„ул“>»?

Когда я создаю dataframe из РДА путем применения схемы, он выдает сообщение об ошибке «Тип Integer не может принимать объект„24“в типе». Это мой код: myschema = Struc...

1 голос
0 ответов
Как запустить функцию фильтра на РДУ и создать выходные данные, используя различные схемы dataframe за один проход

Читаю собственный двоичный формат (rosbags) с искрой, которая требует делать некоторые десериализации. Как только это будет сделано, я получаю данные с фиксированным ч...

0 голосов
0 ответов
Добавление столбца к pyspark dataframe на основе условий из другого pyspark dataframes

Я в настоящее время обучение pyspark и в настоящее время работает над добавлением столбцов pyspark dataframes с использованием нескольких условий. Я пытался работать ...

1 голос
0 ответов
Распределенная цикл в pyspark dataframe

Контекст: Моя компания в Спарк 2.2, так что это не представляется возможным использование pandas_udf для распределенной обработки на колонке У меня есть dataframes, к...

0 голосов
0 ответов
pySpark MLLib различные модели дают такую ​​же точность

Цель должна получить точность для каждой модели, чтобы показать, что точность улучшения каждый раз, когда мы улучшаем число наблюдений. Я должен использовать SVMWithSG...

0 голосов
1 ответ
Сортировка или OrderBy в pyspark показывает странный вывод

Я пытаюсь разобраться значение в моей pyspark dataframe, но его показывает мне странный вывод. Вместо сортировки по всему номеру, это сортировка по первой цифре всего ...

0 голосов
0 ответов
добавить дополнительную строку по индексу увеличения для каждой строки из строки

ratings_test = test_data.map(lambda l: l.split()).map(lambda a : Row(userId=int(a[0]),movieId=int(a[1]),index=i)).cache() Я хочу, чтобы индекс строки, увеличива...

2 голоса
2 ответа
Pyspark создать словарь в GroupBy

Можно ли в pyspark создать словарь в groupBy.agg()? Вот пример игрушки: import pyspark from pyspark.sql import Row import pyspark.sql.functions as F sc = pyspark.Spa...

-1 голос
1 ответ
Функция AWS лямбда питон/pysparkl

У меня есть лямбда-функцию, которая срабатывает, когда объект попадает в определенную папку s3 ведро и перемещается в другую папку в том же s3 ведро. Но я пытаюсь изм...

1 2 3 4 5 6 7 8 ... 66 67 right