Учебник по языку R

Пакеты в R

Слияние данных frames

Слияние данных frames в R merge() функция.

merge() функция синтаксического формата такая:

# S3 方法
merge(x, y, …)
# data.frame 的 S3 方法　
merge(x, y, by = intersect(names(x), names(y)),
　　　　　　by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,
　　　　　　sort = TRUE, suffixes = c(".x",".y"), no.dups = TRUE,
　　　　　　incomparables = NULL, ...)

Обычные параметры объяснения:

x, y: данные рамки
by, by.x, by.y: specify the names of the matching columns in two data frames, by default using the same column names in two data frames.
all: логическое значение; all = L - это сокращение от all.x = L и all.y = L, где L может быть TRUE или FALSE.
all.x: логическое значение, по умолчанию FALSE. Если TRUE, отображаются строки x, даже если в y нет соответствующих строк, строки в y без соответствий обозначаются NA.
all.y: логическое значение, по умолчанию FALSE. Если TRUE, отображаются строки y, даже если в x нет соответствующих строк, строки в x без соответствий обозначаются NA.
sort: логическое значение,-sort: логическое значение, указывает ли выполнять сортировку столбцов.

Функция merge() очень похожа на функцию JOIN SQL:

Natural join или INNER JOIN：Если в таблице есть至少 одно совпадение, то возвращаются строки
Left outer join или LEFT JOIN：Даже если в правой таблице нет совпадений, все строки возвращаются из левой таблицы
Right outer join или RIGHT JOIN：Даже если в левой таблице нет совпадений, все строки возвращаются из правой таблицы
Full outer join или FULL JOIN：Если в одной из таблиц существует совпадение, то возвращаются строки

Пример

# data frame 1
df1 = data.frame(SiteId = c(1:6), Site = c("Google","w3codebox","Taobao","Facebook","Zhihu","Weibo"))
# data frame 2
df2 = data.frame(SiteId = c(2, 4, 6, 7, 8), Country = c("CN","USA","CN","USA","IN"))　
# INNER JOIN　
df1 = merge(x=df1, y=df2, by="SiteId")
print("-----　INNER　JOIN　-----")
print(df1)
#　FULL　JOIN
df2　=　merge(x=df1,y=df2,by="SiteId",all=TRUE)
print("-----　FULL　JOIN　-----")
print(df2)
#　LEFT　JOIN
df3　=　merge(x=df1,y=df2,by="SiteId",all.x=TRUE)
print("-----　LEFT　JOIN　-----")
print(df3)
#　RIGHT　JOIN
df4　=　merge(x=df1,y=df2,by="SiteId",all.y=TRUE)
print("-----　RIGHT　JOIN　-----")
print(df4)

print(id.variable.time2)

[1]　"-----　INNER　JOIN　-----"
　　SiteId　　　　　Site　Country
1　　　　　　2　　　w3codebox　　　　　　CN
2　　　　　　4　Facebook　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　CN
[1]　"-----　FULL　JOIN　-----"
　　SiteId　　　　　Site　Country.x　Country.y
1　　　　　　2　　　w3codebox　　　　　　　　CN　　　　　　　　CN
2　　　　　　4　Facebook　　　　　　　USA　　　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　　　CN　　　　　　　　CN
4　　　　　　7　　　　　<NA>　　　　　　<NA>　　　　　　　USA
5　　　　　　8　　　　　<NA>　　　　　　<NA>　　　　　　　　IN
[1]　"-----　LEFT　JOIN　-----"
　　SiteId　　　Site.x　Country　　　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　　　　　　CN　　　w3codebox　　　　　　　　CN　　　　　　　　CN
2　　　　　　4　Facebook　　　　　USA　Facebook　　　　　　　USA　　　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　CN　　　　Weibo　　　　　　　　CN　　　　　　　　CN
[1]　"-----　RIGHT　JOIN　-----"
　　SiteId　　　Site.x　Country　　　Site.y　Country.x　Country.y
1　　　　　　2　　　w3codebox　　　　　　CN　　　w3codebox　　　　　　　　CN　　　　　　　　CN
2　　　　　　4　Facebook　　　　　USA　Facebook　　　　　　　USA　　　　　　　USA
3　　　　　　6　　　　Weibo　　　　　　CN　　　　Weibo　　　　　　　　CN　　　　　　　　CN
4　　　　　　7　　　　　<NA>　　　　<NA>　　　　　<NA>　　　　　　<NA>　　　　　　　USA
5　　　　　　8　　　　　<NA>　　　　<NA>　　　　　<NA>　　　　　　<NA>　　　　　　　　IN

интеграция и разрыв данных

Язык программирования R используется melt() и cast() Функции для интеграции и разрыва данных.

melt() — преобразование данных из узкого формата в широкий формат.
cast() — преобразование данных из широкого формата в узкий формат.

Ниже приведена диаграмма, которая很好地 демонстрирует функциональность функций melt() и cast() (подробное объяснение будет дано позже):

Функция melt() сворачивает каждую колонку набора данных в одну колонку, синтаксис функции:

melt(data, ..., na.rm = FALSE, value.name = "value")

Описание параметров:

data — набор данных.
... — передавать другие параметры методам или полученные от других методов.
na.rm — удалять ли значения NA из набора данных.
value.name — имя переменной, используемое для хранения значений.

Прежде чем выполнить следующие действия,我们先安装 необходимые пакеты:

#　Установите библиотеки, MASS содержит множество функций, инструментов и наборов данных для статистики
install.packages("MASS", repos = "https://mirrors.ustc.edu.cn/CRAN/")　
　　
#　Функции melt() и cast() требуют библиотеки　
install.packages("reshape2", repos = "https://mirrors.ustc.edu.cn/CRAN/")　
install.packages("reshape", repos = "https://mirrors.ustc.edu.cn/CRAN/")

Пример тестирования:

Пример

# 载入库
library(MASS)　
library(reshape2)　
library(reshape)　
　　
# 创建数据框
id <- c(1, 1, 2, 2)　
time <- c(1, 2, 1, 2)　
x1 <- c(5, 3, 6, 2)　
x2 <- c(6, 5, 1, 4)　
mydata <- data.frame(id, time, x1, x2)　
　　
#　Оригинальные данные
cat("Оригинальные данные:\n")　
print(mydata)　
# 整合
md <- melt(mydata, id = c("id","time"))　
　　
cat("\nИнтеграция:\n")　
print(md)

print(id.variable.time2)

Оригинальные данные:
2　　2　3.5　3
id　time　x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
Интеграция:
id　time　variable　value
1　　1　　　　1　　　　　　　x1　　　　　5
2　　1　　　　2　　　　　　　x1　　　　　3
3　　2　　　　1　　　　　　　x1　　　　　6
4 2 2 x1 2
5 1 1 x2 6
6 1 2 x2 5
7 2 1 x2 1
8 2 2 x2 4

Функция cast() используется для воссоздания объединенных таблиц данных, dcast() возвращает таблицу данных, acast() возвращает вектор/матрицу/массив.

Синтаксис функции cast():

dcast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)
acast(
　　data,
　　formula,
　　fun.aggregate = NULL,
　　...
　　margins = NULL,
　　subset = NULL,
　　fill = NULL,
　　drop = TRUE,
　　value.var = guess_value(data)
)

Описание параметров:

data: объединенная таблица данных.
formula: формат данных,重塑 данных, аналогичен x ~ y, x - метка строки, y - метка столбца .
fun.aggregate: функция агрегации, используемая для обработки значений value.
margins: вектор имен переменных (может включать "grand_col" и "grand_row"), используемый для вычисления границ, устанавливает TURE для вычисления всех границ.
subset: условный фильтр результатов, формат аналогичен subset = .(variable == "length").
drop: сохранять ли значения по умолчанию.
value.var: за ним следует поле, которое нужно обработать.

Пример

# 载入库
library(MASS)　
library(reshape2)　
library(reshape)　
　　
# 创建数据框
id <- c(1, 1, 2, 2)　
time <- c(1, 2, 1, 2)　
x1 <- c(5, 3, 6, 2)　
x2 <- c(6, 5, 1, 4)　
mydata <- data.frame(id, time, x1, x2)　
# 整合
md <- melt(mydata, id = c("id","time"))　
# Print recasted dataset using cast() function　
cast.data <- cast(md, id ~ variable, mean)　
　　
print(cast.data)　
　　
print(id.variable.time)　
time.cast　<-　cast(md,　time~variable,　mean)　
time.cast　<-　cast(md,　time~variable,　mean)　
print(id.variable.time)　
print(time.cast)　
id.time　<-　cast(md,　id~time,　mean)　
print(id.variable.time)　
print(id.time)　
id.time.cast　<-　cast(md,　id+time~variable)　
print(id.variable.time)　
print(id.time.cast)　
id.variable.time　<-　cast(md,　id+variable~time)　
print(id.variable.time)　
cat("\n")　
id.variable.time2　<-　cast(md,　id~variable+time)

print(id.variable.time2)

Выполнение вышеуказанного кода выводит результат:
id　x1　　x2
1　　1　　4　5.5
　　2　　2　　4　2.5
time　　x1　　x2
1　　　　1　5.5　3.5
　　2　　　　2　2.5　4.5
id　　　1　2
1　　1　5.5　4
　　2　　2　3.5　3
id　time　x1　x2
1　　1　　　　1　　5　　6
2　　1　　　　2　　3　　5
3　　2　　　　1　　6　　1
　　4　　2　　　　2　　2　　4
id　variable　1　2
1　　1　　　　　　　x1　5　3
2　　1　　　　　　　x2　6　5
3　　2　　　　　　　x1　6　2
　　4　　2　　　　　　　x2　1　4
id　x1_1　x1_2　x2_1　x2_2
1　　1　　　　5　　　　3　　　　6　　　　5

CSV файлы в R Перестройка данных в R