Programmier-Tutorial - Seite 8

 

R-Programm-Balkendiagramm


R-Programm-Balkendiagramm

Hallo zusammen und willkommen zurück zu einer weiteren Videolektion zur Programmiersprache R. Im heutigen Tutorial lernen wir, wie man mit R ein einfaches Balkendiagramm erstellt.

Definieren wir zunächst einen Vektor namens „Autos“ mit sechs Werten. Dies können wir erreichen, indem wir eine Variable namens „cars“ erstellen und ihr die Werte 2, 4, 7, 5, 10 und 12 zuweisen. Dieser Vektor stellt die Datenpunkte dar, die wir in unserem Balkendiagramm visualisieren möchten.

Kommen wir nun zum Erstellen des eigentlichen Balkendiagramms. Wir verwenden die Funktion „barplot()“, die speziell für die Erstellung von Balkendiagrammen in R entwickelt wurde. Als Eingabeparameter übergeben wir der Funktion den Vektor „cars“.

Wenn wir den Code ausführen, wird auf der rechten Seite des Bildschirms ein Balkendiagramm generiert, das die sechs Werte unseres „Autos“-Vektors als einzelne Balken anzeigt.

Ich hoffe, Sie fanden dieses kurze Video-Tutorial zum Erstellen eines einfachen Balkendiagramms in der Programmiersprache R hilfreich und informativ. Wenn Sie Fragen haben, können Sie diese gerne im Kommentarbereich hinterlassen. Seien Sie gespannt auf das nächste Video, in dem wir uns mit weiteren spannenden Themen befassen.

 

Lineares Regression-R-Programm, um Vorhersagen zu treffen


Lineares Regression-R-Programm, um Vorhersagen zu treffen

Hallo zusammen und willkommen zu diesem Video-Tutorial zur Programmiersprache R.

In diesem Tutorial befassen wir uns mit der Datenanalyse und konzentrieren uns auf die Erstellung von Vorhersagen mithilfe des linearen Regressionsmodells. Die lineare Regression ist ein leistungsstarkes Werkzeug zur Modellierung der Beziehung zwischen einer skalaren abhängigen Variablen (Y) und einer oder mehreren unabhängigen Variablen (X) in Form einer Geradengleichung.

Wählen wir zunächst einen geeigneten Datensatz für unsere Vorhersage aus. R bietet zahlreiche integrierte Datensätze, auf die Sie zugreifen können, indem Sie data() eingeben und die verfügbaren Optionen erkunden. Für dieses Tutorial verwenden wir den Datensatz „Frauen“, der durchschnittliche Größen- und Gewichtswerte amerikanischer Frauen enthält. Wir können den Datensatz untersuchen, indem wir View(women) eingeben und seine Struktur mit 15 Zeilen und 2 Spalten beobachten: Höhe und Gewicht.

Unser Ziel ist es, das Gewicht einer Frau anhand ihrer Körpergröße vorherzusagen. Um dies zu erreichen, verwenden wir das lineare Modell. Wir beginnen damit, eine Variable namens „linear_model“ zu erstellen und ihr das Ergebnis der Funktion lm() zuzuweisen. Diese Funktion erfordert die Angabe der abhängigen Variablen (Y) und der unabhängigen Variablen (X). In diesem Fall ist „weight“ die abhängige Variable (Y) und „height“ die unabhängige Variable (X), wie durch die Syntax „weight ~ height“ angegeben. Zusätzlich müssen wir den Datensatz mit dem Datenparameter spezifizieren, den wir auf „Frauen“ setzen.

Nachdem wir unser lineares Modell definiert haben, können wir seine Koeffizienten untersuchen. Diese Koeffizienten entsprechen der Steigung (M) und dem Achsenabschnitt (B) in der Gleichung Y = MX + B. In unserem Fall betragen die Koeffizienten -87,52 bzw. 3,45. Somit kann unser vorhergesagtes Gewicht (Y) berechnet werden, indem die Höhe (X) mit der Steigung (3,45) multipliziert und der Achsenabschnitt (-87,52) addiert wird.

Um unsere Vorhersage zu testen, verwenden wir einen Höhenwert von 59 Zoll. Wenn wir dies mit der Steigung (3,45) multiplizieren und den Achsenabschnitt (-87,52) addieren, erhalten wir ein vorhergesagtes Gewicht von 116,03, was nahe am erwarteten Wert von 117 liegt.

Lassen Sie uns nun die Daten und die lineare Regressionslinie visualisieren. Wir können den Datensatz mit der Funktion plot() zeichnen, indem wir die Y- und X-Werte und den Datensatz als Datenparameter angeben. Durch Aufrufen der Funktion abline() mit unserem linearen Modell können wir die Regressionslinie im Diagramm überlagern.

Abschließend haben wir den Prozess der Vorhersage mithilfe des linearen Regressionsmodells in R untersucht. Es ist wichtig zu beachten, dass der in diesem Tutorial verwendete Datensatz relativ klein ist und nur aus 15 Zeilen besteht. In realen Szenarien werden typischerweise größere Datensätze für genauere Vorhersagen verwendet. Dennoch vermittelt die Demonstration ein Verständnis des linearen Regressionsprozesses.

Vielen Dank, dass Sie sich dieses Video-Tutorial angesehen haben. Wenn Sie Fragen haben, können Sie diese gerne im Kommentarbereich hinterlassen. Seien Sie gespannt auf das nächste Video!

 

So installieren Sie R-Pakete


So installieren Sie R-Pakete

Hallo zusammen und willkommen zu diesem Video. Heute möchte ich den Prozess der Paketinstallation in R besprechen.

Insbesondere werde ich zeigen, wie das Paket ggplot2 installiert wird, das häufig zur Datenvisualisierung verwendet wird. Zunächst ist mir aufgefallen, dass das Paket ggplot2 derzeit nicht in meiner Bibliothek verfügbar ist. Wenn ich versuche, es mit der Bibliothek (ggplot2) zu importieren, erscheint eine Fehlermeldung, die besagt, dass es kein Paket namens ggplot2 gibt.

Um dieses Problem zu beheben, muss ich das Paket ggplot2 installieren. Glücklicherweise ist die Installation von Paketen in R unkompliziert. Wir können die Funktion install.packages() gefolgt vom Namen des Pakets in Anführungszeichen verwenden. In diesem Fall führe ich den Befehl install.packages("ggplot2") aus und drücke die Eingabetaste.

Der Installationsprozess beginnt und R beginnt mit dem Herunterladen der erforderlichen Dateien und Daten für das ggplot2-Paket vom Comprehensive R Archive Network (CRAN). Während dieses Schritts ist es wichtig, über eine Internetverbindung zu verfügen.

Das Paket ggplot2 ist bekannt für seine Fähigkeit, optisch ansprechende und anpassbare Grafiken zu erstellen. Es nutzt die Grammatik von Grafiken, um Schichtdiagramme zu erstellen, und bietet so eine große Flexibilität bei der Datenvisualisierung.

Sobald die Installation abgeschlossen ist, können wir mit dem Laden des ggplot2-Pakets in unsere Umgebung fortfahren. Dazu nutzen wir die Funktion „library()“ und übergeben „ggplot2“ als Argument. Beim Ausführen von „library(ggplot2)“ wird nicht mehr die vorherige Fehlermeldung angezeigt, die darauf hinweist, dass das Paket erfolgreich installiert und geladen wurde.

Vielen Dank, dass Sie sich dieses Video-Tutorial zur Installation von Paketen in R angesehen haben. Wenn Sie Fragen haben, können Sie diese gerne im Kommentarbereich hinterlassen. Vergessen Sie nicht, dieses Video zu liken, den Kanal zu abonnieren, um weitere Inhalte zu erhalten, und bleiben Sie gespannt auf die nächste Videolektion.

 

R Program Bar Chart Color


R Program Bar Chart Color

Hey everyone, and welcome to this video tutorial on the R programming language. In this session, we will be using RStudio to create a visually appealing bar chart using the R programming language.

To begin, let's open RStudio and set up our environment. We already have a specific objective in mind, which is to create a bar chart. But this time, we'll focus on making it look more aesthetically pleasing.

Now, let's define a vector called "cars" with seven values. We can achieve this by creating a variable named "cars" and assigning it a vector that contains seven elements. Let's use the values 3, 5, 8, 6, 11, 12, and 4.

Next, we'll utilize the "barplot()" function, just as we did before, to create the bar chart. However, this time, we'll add some additional parameters to enhance the appearance of the chart.

First, let's add a title to the chart. We'll use the "main" parameter and set it to "Cars" to give our bar chart a descriptive title.

Furthermore, we want to label the y-axis, indicating that the values represent the weight of the cars. We can accomplish this by specifying the "ylab" parameter and setting it to "Weight".

Additionally, we should label the x-axis to indicate that each bar represents a different type of car. We'll use the "xlab" parameter and set it to "Type".

Lastly, to add some visual appeal, let's use different colors for the bars. We'll set the "col" parameter to "rainbow(7)" to create a rainbow of seven distinct colors.

Once we execute the code, the bar chart will appear on the right side of the screen. It will be titled "Cars" and will display the weight values on the y-axis and the different types of cars on the x-axis. The bars themselves will be colored using a vibrant rainbow palette.

I hope you found this video tutorial helpful and enjoyable. If you have any questions, please don't hesitate to ask. Remember to leave your comments below, and I'll do my best to address them. Stay tuned for more exciting tutorials in the next video.

 

Beispiel für ein R-Programmierhistogramm


Beispiel für ein R-Programmierhistogramm

Hallo zusammen, und willkommen zu diesem Tutorial zur Programmiersprache R. In diesem Video erfahren Sie, wie Sie mit R ein einfaches Histogramm erstellen. Lassen Sie uns direkt eintauchen!

Zunächst definieren wir einen Vektor namens „suv's“ mit sieben Elementen. Dies können wir erreichen, indem wir eine Variable namens „suv's“ erstellen und ihr einen Vektor zuweisen, der die Werte 5, 5, 5, 5, 8, 8, 19, 45 und 100 enthält.

Nachdem wir nun den Vektor unseres Geländewagens eingerichtet haben, können wir mit der Erstellung eines Histogramms fortfahren. Dies kann mit der Funktion „hist()“ erfolgen. Wir übergeben den Vektor des „suv“ als Parameter an die Funktion.

Nach der Ausführung des Codes wird auf der rechten Seite des Bildschirms ein Histogramm angezeigt. Die y-Achse stellt die Häufigkeit dar, während die x-Achse den Wertebereich darstellt. In diesem Fall können wir beobachten, dass der Bereich von 0 bis 20 eine Häufigkeit von 5 aufweist, was darauf hinweist, dass Werte in diesem Bereich fünf Mal vorkommen. Ebenso haben die Bereiche von 40 bis 60 und 80 bis 100 Häufigkeiten von 3 bzw. 1.

Ich hoffe, Sie fanden dieses Video-Tutorial informativ und unkompliziert. Das Erstellen eines Histogramms mit R ist eine nützliche Möglichkeit, die Verteilung von Daten zu visualisieren. Wenn Sie Fragen oder Kommentare haben, können Sie diese gerne unten hinterlassen. Weitere spannende Tutorials finden Sie im nächsten Video.

 

Teilmenge der R-Programmierung


Teilmenge der R-Programmierung

Hallo Leute, willkommen zu diesem Video über die Programmiersprache R. In diesem Tutorial befassen wir uns mit der Teilmenge, bei der eine bestimmte Teilmenge von Daten extrahiert wird. Lass uns anfangen!

Angenommen, wir haben einen Vektor namens „X“, der die Werte 12, 13, 56, 4, 5 und 89 enthält. Wir geben diesen Vektor auf der Konsole aus, um seinen Inhalt zu überprüfen.

Nehmen wir nun an, wir möchten eine Teilmenge der Daten extrahieren, deren Werte größer als 10 sind. Dies können wir erreichen, indem wir den Ausdruck „X > 10“ verwenden. Dadurch erhalten wir eine Teilmenge der Daten, bei der alle Werte größer als 10 sind.

Nehmen wir als nächstes an, wir möchten diese ausgewählten Werte in 4 ändern. Wir können der Teilmenge, die wir zuvor erhalten haben, einfach den Wert 4 zuweisen, indem wir den Ausdruck „X[X > 10] <- 4“ verwenden. Dadurch werden alle Werte größer als 10 in „X“ durch 4 ersetzt.

Wenn wir das geänderte „X“ ausdrucken, können wir feststellen, dass die Werte größer als 10 tatsächlich in 4 geändert wurden.

Lassen Sie uns nun mit einigen externen Daten arbeiten. Wir haben eine CSV-Datei auf dem Desktop und möchten sie in einen Datenrahmen namens „Datensatz“ einlesen. Mit der Funktion „read.csv()“ geben wir den Dateipfad und den Namen für den Import der CSV-Daten an. Wenn wir den „Datensatz“ ausdrucken, können wir die Dimensionen (153 Zeilen und 6 Spalten) sehen und fehlende Werte identifizieren, die mit „NA“ gekennzeichnet sind.

Lassen Sie uns nun verschiedene Manipulationen mit diesen Daten untersuchen. Wir können die ersten beiden Zeilen des Datensatzes mit der Funktion „head()“ extrahieren, indem wir „dataset“ und die Anzahl der gewünschten Zeilen angeben (2). Alternativ können wir die Indizierung nach Zeilen und Spalten mit „dataset[1:2, ]“ oder „dataset[c(1, 2), ]“ verwenden. Alle diese Methoden liefern das gleiche Ergebnis beim Abrufen der ersten beiden Zeilen.

Um die Anzahl der Zeilen im Datensatz zu bestimmen, können wir die Funktion „nrow()“ verwenden und den „Datensatz“ als Argument übergeben. Dies gibt uns die Anzahl der Zeilen, die 153 beträgt.

Angenommen, wir möchten die letzten beiden Zeilen des Datensatzes extrahieren. Wir können dies erreichen, indem wir die Funktion „tail()“ mit „dataset“ verwenden und die Anzahl der Zeilen (2) angeben. Die letzten beiden Zeilen werden zurückgegeben.

Suchen wir nun den Wert der Spalte „Ozon“ in der 47. Zeile. Wir können mithilfe der Indizierung direkt darauf zugreifen, z. B. „Datensatz[47, ‚Ozone‘]“ oder „Datensatz[47, 1]“. Dadurch wird der Wert 21 abgerufen.

Alternativ können wir den Spaltennamen anstelle des Spaltenindex verwenden. Beispielsweise gibt „dataset[47, ‚ozone‘]“ ebenfalls 21 zurück.

Angenommen, wir möchten fehlende Werte in der Spalte „Ozon“ finden. Mit der Funktion „subset()“ können wir eine Teilmenge des Datensatzes erstellen. Die Teilmenge besteht aus Zeilen, in denen die Spalte „Ozon“ „NA“-Werte enthält. Wenn wir die Teilmenge ausdrucken, sehen wir, dass die Spalte „Ozon“ nur „NA“-Werte enthält.

Um die Anzahl der fehlenden Werte in der Spalte „Ozon“ zu ermitteln, können wir die Funktion „nrow()“ für die Teilmenge verwenden, die uns die Antwort 37 liefert.

Falls wir fehlende Werte aus dem Datensatz entfernen möchten, können wir die Funktion „na.omit()“ verwenden und den „Datensatz“ als Argument übergeben. Dies gibt einen Datensatz zurück, bei dem fehlende Werte entfernt wurden.

Eine andere Möglichkeit, dies zu erreichen, ist die Verwendung der Funktion „complete.cases()“ mit „dataset“ als Argument. Es liefert das gleiche Ergebnis wie das Entfernen von Zeilen mit „NA“-Werten.

Kommen wir nun dazu, den Maximalwert der Spalte „Ozon“ im Monat Mai zu ermitteln. Mit der Funktion „subset()“ können wir eine Teilmenge des Datensatzes erstellen. Innerhalb der Teilmengenfunktion geben wir die Bedingungen an: Der Monat sollte gleich 5 sein (was Mai darstellt) und die Spalte „Ozon“ sollte keine fehlenden Werte enthalten. Wenn wir die Teilmenge ausdrucken, können wir die gefilterten Daten sehen.

Um den Maximalwert aus dieser Teilmenge zu erhalten, ohne sie visuell zu prüfen, können wir die Funktion „apply()“ verwenden. Indem wir die Funktion „max()“ auf die Spalten der Teilmenge anwenden, ermitteln wir den Maximalwert. In diesem Fall wenden wir es auf die Spalte „Ozon“ an. Der maximale Ozonwert im Mai liegt bei 115.

Abschließend haben wir verschiedene Teilmengentechniken in R behandelt, darunter das Extrahieren von Teilmengen basierend auf Bedingungen, den Zugriff auf bestimmte Elemente mithilfe der Indizierung, den Umgang mit fehlenden Werten und die Durchführung von Berechnungen für Teilmengen. Ich hoffe, Sie fanden dieses Tutorial hilfreich. Wenn Sie Fragen oder Kommentare haben, können Sie diese gerne unten hinterlassen. Vergessen Sie nicht, sich für weitere R-Programmier-Tutorials anzumelden. Vielen Dank fürs Zuschauen, wir sehen uns im nächsten Video!

 

R-Programm Teilmenge2


R-Programm Teilmenge2

Hallo Leute, willkommen zu diesem Video über die Programmiersprache R. In diesem Tutorial ermitteln wir den Mittelwert der Kelchblattlänge für die Art „Virginica“ im Datensatz „Iris“. Beginnen wir mit der Erkundung der vordefinierten Datensätze in R. Um die verfügbaren Datensätze anzuzeigen, verwenden wir die Funktion „data()“ ohne Argumente. Daraufhin wird eine Liste der in R bereitgestellten Datensätze angezeigt. Für unsere Analyse arbeiten wir mit dem Datensatz „Iris“.

Laden wir den Datensatz „iris“, indem wir „data(iris)“ eingeben. Dadurch wird der gesamte Datensatz geladen, der aus 150 Zeilen und fünf Spalten besteht: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge, Blütenblattbreite und Art. Um eine Teilmenge zu extrahieren, die nur die Art „Virginica“ enthält, erstellen wir eine neue Variable mit dem Namen „iris_subset“. Mithilfe der Teilmengenoperation geben wir an, dass wir alle Zeilen benötigen, in denen die Art gleich „virginica“ ist. Da wir auch alle Spalten wollen, verzichten wir auf die Spaltenangabe.

Wenn wir „iris_subset“ ausdrucken, können wir feststellen, dass wir nun über eine Teilmenge des „iris“-Datensatzes verfügen, die nur die „virginica“-Arten enthält. Als nächstes möchten wir den Mittelwert der Kelchblattlänge für diese Teilmenge berechnen. Um uns auf die Spalte „Kelchblattlänge“ zu konzentrieren, ändern wir „iris_subset“ so, dass nur die Spalte „Kelchblattlänge“ enthalten ist.

Lassen Sie uns nun das „iris_subset“ in eine Matrix umwandeln. Wir weisen die konvertierte Matrix mithilfe der Funktion „as.matrix()“ einer neuen Variablen namens „iris_subset_matrix“ zu. Durch die Umwandlung in eine Matrix können wir mathematische Operationen auf bestimmte Spalten anwenden. Die „iris_subset_matrix“ sieht ähnlich aus wie die ursprüngliche Teilmenge, ist aber jetzt ein Matrixobjekt.

Um den Mittelwert der Kelchblattlänge zu berechnen, verwenden wir die Funktion „mean()“ für die Kelchblattlängenspalte der „iris_subset_matrix“. Daraus ergibt sich für die Kelchblattlänge der „Virginica“-Art ein Mittelwert von 6,588.

Es ist erwähnenswert, dass es alternative Möglichkeiten gibt, Teilmengen mithilfe der Funktion „subset()“ durchzuführen. In diesem Tutorial haben wir jedoch einen alternativen Ansatz zur Manipulation von Daten in R demonstriert, indem wir Teilmengen extrahieren, sie in Matrizen umwandeln und Berechnungen durchführen. Diese Techniken bieten Flexibilität bei der Datenanalyse.

Vielen Dank fürs Zuschauen! Wenn Sie Fragen oder Kommentare haben, hinterlassen Sie diese bitte unten. Vergessen Sie nicht, das Video zu liken und unseren Kanal zu abonnieren, um weitere R-Programmier-Tutorials zu erhalten. Seien Sie gespannt auf das nächste Video!

 

Lesen der JSON R-Programmierung


Lesen der JSON R-Programmierung

Hallo Leute, willkommen zu diesem Tutorial zur Programmiersprache R. In diesem Video besprechen wir, wie man Informationen aus JSON (JavaScript Object Notation) extrahiert. Um dies zu demonstrieren, habe ich die GitHub-API im Hintergrund, die Informationen zu allen meinen Repositories anzeigt. Sie können meinen GitHub-Benutzernamen hervorgehoben sehen, zusammen mit einer Liste von Repositorys, einschließlich „awesome-tensorflow“, das ich aus einem anderen Repository geforkt habe.

Um diese Daten zu extrahieren und damit zu arbeiten, verwenden wir die „jsonlite“-Bibliothek in R. Beginnen wir mit dem Abrufen der Daten aus dem JSON. Wir erstellen eine Variable namens „json_data“ und verwenden die Funktion „fromJSON()“, um die Daten von einer bestimmten URL abzurufen. Ich kopiere die GitHub-API-URL und übergebe sie als Argument an die Funktion „fromJSON()“.

Beim Ausführen dieses Codes erhalten wir einen Datenrahmen. Um die Klasse von „json_data“ zu bestätigen, verwenden wir die Funktion „class()“, die zeigt, dass es sich tatsächlich um einen Datenrahmen handelt.

Lassen Sie uns nun den Inhalt der Variablen „json_data“ untersuchen. Mit der Funktion „names()“ können wir die Namen der Attribute im Datenrahmen abrufen. Durch Eingabe von „names(json_data)“ erhalten wir eine Liste von Attributen, einschließlich „name“, der den Namen jedes Repositorys darstellt.

Um die Namen aller meiner Repositories zu extrahieren, können wir mit der Syntax „json_data$name“ direkt auf das Attribut „name“ zugreifen. Dadurch werden die Namen aller meiner Repositories angezeigt, insgesamt etwa 30.

Betrachten wir als Nächstes das Szenario der Konvertierung eines Datenrahmens, z. B. des „Iris“-Datensatzes, in das JavaScript Object Notation (JSON)-Format. Um dies zu erreichen, können wir die Funktion „toJSON()“ verwenden. Erstellen wir beispielsweise eine Variable namens „my_json“ und wenden die Funktion „toJSON()“ auf den Datensatz „iris“ an. Darüber hinaus können wir den Parameter „pretty“ einschließen, um sicherzustellen, dass das resultierende JSON optisch ansprechend formatiert ist.

Wenn wir „my_json“ ausdrucken, können wir feststellen, dass der JSON ordentlich formatiert ist und die richtige Einrückung aufweist. Es zeigt die Attribute „Kelchblattlänge“, „Kelchblattbreite“, „Blütenblattlänge“, „Blütenblattbreite“ und „Art“ zusammen mit ihren entsprechenden Werten an, z. B. „6,3“, „4,8“, „1,8“ und „ virginica‘.

Wenn wir den Parameter „pretty“ entfernen und den JSON erneut generieren, wird er schlechter lesbar und wird aufgrund seiner Länge abgeschnitten. Daher wird zur besseren Visualisierung die Verwendung des Parameters „pretty“ empfohlen.

Sehen wir uns nun an, wie man JSON wieder in einen Datenrahmen umwandelt. Um dies zu erreichen, können wir die Funktion „fromJSON()“ verwenden und die Variable „my_json“ als Parameter bereitstellen. Durch die Ausführung dieses Codes wird der ursprüngliche Datenrahmen zurückgegeben, wodurch der Konvertierungsprozess effektiv umgekehrt wird.

Vielen Dank fürs Zuschauen! Wenn Sie Kommentare oder Fragen haben, können Sie diese gerne unten hinterlassen. Ihr Feedback wird sehr geschätzt. Vergessen Sie nicht, unseren Kanal zu abonnieren, um weitere R-Programmier-Tutorials zu erhalten. Seien Sie gespannt auf das nächste Video!

 

CSV-Datei in R lesen


CSV-Datei in R lesen

Hallo Leute, willkommen zu diesem Video-Tutorial zur Programmiersprache R. In diesem Tutorial zeige ich Ihnen, wie Sie eine CSV-Datei mit R öffnen. Um zu beginnen, habe ich bereits die R-Hilfedokumentation auf der rechten Seite des Bildschirms geöffnet. Wir können sehen, dass es eine Funktion namens „read.csv()“ gibt, die wir für diese Aufgabe verwenden können. Standardmäßig geht diese Funktion davon aus, dass die Datei Header hat und die Werte durch Kommas getrennt sind.

Erstellen wir eine Variable namens „my_data“, um die Daten aus der CSV-Datei zu speichern. Wir verwenden die Funktion „read.csv()“, um die Datei zu lesen. Wir können den Dateipfad als Argument für die Funktion angeben. Um den Dateipfad zu erhalten, habe ich eine CSV-Datei mit Hausdaten, die ich von der Kaggle-Website erhalten habe. Ich klicke mit der rechten Maustaste auf die Datei, gehe zu „Eigenschaften“ und kopiere den Speicherort der Datei. Wenn ich zu RStudio zurückkehre, füge ich den Dateipfad in die Anführungszeichen ein.

Jetzt müssen wir den Dateinamen in den Dateipfad aufnehmen. Ich füge nach dem Dateipfad einen Schrägstrich hinzu und füge den Dateinamen ein. Da ich einen Windows-Rechner verwende, ist es wichtig zu beachten, dass der Dateipfad umgekehrte Schrägstriche enthält. R erfordert jedoch Schrägstriche oder Escape-Rückwärtsschrägstriche. Wenn wir den Code jetzt ausführen, wird aufgrund der umgekehrten Schrägstriche ein Fehler auftreten. Um dieses Problem zu beheben, kehren wir die Schrägstriche manuell um.

Drücken wir die EINGABETASTE, um den Code auszuführen. Als Ergebnis erhalten wir einen Datenrahmen namens „my_data“ mit 1.460 Beobachtungen oder Zeilen und 81 Features oder Spalten. Wir können dies bestätigen, indem wir die Funktionen „nrow()“ und „ncol()“ mit „my_data“ verwenden.

Um die Daten zu untersuchen, können wir entweder im Umgebungsbereich auf die Variable „my_data“ doppelklicken oder den Befehl „my_data“ in der Konsole verwenden. Allerdings ist die Anzeige des gesamten Datenrahmens in der Konsole möglicherweise nicht sehr gut lesbar. Daher empfehle ich einen Doppelklick auf „my_data“, um eine schön formatierte Tabelle anzuzeigen.

Das war's mit diesem Tutorial, Jungs! Vielen Dank fürs Zuschauen. Ich hoffe, Sie fanden es hilfreich. Wenn Sie Fragen oder Kommentare haben, können Sie diese gerne unten hinterlassen. Vergessen Sie nicht, unseren Kanal zu abonnieren, um weitere R-Programmier-Tutorials zu erhalten. Seien Sie gespannt auf das nächste Video!

 

Multiple lineare Regression in R


Multiple lineare Regression in R

Hallo Leute, willkommen zu diesem Video über die Programmiersprache R. Heute möchte ich die multiple lineare Regression diskutieren und zeigen, wie man sie in RStudio implementiert. Zunächst benötigen wir einen Datensatz zur Analyse. Ich habe bereits eine CSV-Datei mit dem Namen „real_estate.csv“, die ich online erhalten habe. Den Link zum Herunterladen dieses Datensatzes finden Sie in der Beschreibung unten.

Beginnen wir mit der Erstellung einer Variablen namens „my_data“ und verwenden Sie die Funktion „read.csv()“, um die CSV-Datei in RStudio einzulesen. Wir müssen den Speicherort und den Namen der Datei angeben. Um den Speicherort zu ermitteln, klicke ich mit der rechten Maustaste auf die Datei und klicke auf „Eigenschaften“, um den Speicherort der Datei zu kopieren. Nachdem ich den Speicherort eingefügt habe, setze ich ihn in Anführungszeichen. Außerdem füge ich den Dateinamen nach einem Schrägstrich ein und stelle sicher, dass die Schrägstriche umgekehrt werden, damit sie dem erforderlichen Format für Windows-Computer entsprechen. Durch die Ausführung dieses Codes wird der Datenrahmen „my_data“ erstellt, der 781 Zeilen und 8 Spalten enthält.

Schauen wir uns nun den Datenrahmen genauer an. Wir haben mehrere Spalten, darunter „MLS“ (Multiple Listing Service Number), „Standort“, „Preis“, „Schlafzimmer“, „Badezimmer“, „Größe“ (Hausgröße in Quadratfuß), „Preis/Quadratfuß“ und „Status“ (Verkaufstyp). Um die multiple lineare Regression zu demonstrieren, arbeiten wir nur mit numerischen Spalten und schließen „Standort“ und „Status“ aus.

Um einen neuen Datensatz zu erstellen, weise ich „my_data“ einer neuen Variablen namens „my_data2“ zu und wähle die Spalten 1, 3, 4, 5, 6 und 7 aus. Dieser neue Datensatz enthält 781 Zeilen und 6 Spalten.

Kommen wir nun zur Erstellung unseres linearen Modells. Ich erstelle eine Variable namens „lin_mod“ und setze sie auf die Funktion „lm()“, die für „Lineares Modell“ steht. Wir möchten den „Preis“ anhand von Merkmalen wie „MLS“, „Schlafzimmer“, „Badezimmer“, „Größe“ und „Preis/Quadratfuß“ vorhersagen. Indem wir „Preis“ als abhängige Variable angeben und die anderen Funktionen einbeziehen, können wir unser lineares Modell mithilfe des Datensatzes „my_data2“ erstellen.

Um eine Zusammenfassung unseres linearen Modells zu erhalten, verwende ich die Funktion „summary()“ für „lin_mod“. Die Zusammenfassung liefert Informationen über die Residuen, Koeffizienten und p-Werte. Die Signifikanz von Variablen kann anhand von Sternen visuell bestimmt werden, wobei drei Sterne eine hohe Signifikanz anzeigen.

Nachdem wir nun unser lineares Modell haben, versuchen wir, eine Vorhersage zu treffen. Ich erstelle eine Variable mit dem Namen „Preis“ und setze sie gleich dem Intercept-Koeffizienten minus 7,34 plus den Koeffizienten der Variablen multipliziert mit ihren jeweiligen Werten aus der letzten Zeile der Tabelle. Beispielsweise multiplizieren wir den „MLS“-Wert mit seinem Koeffizienten und addieren ihn zur Gleichung. Ebenso beziehen wir „Schlafzimmer“, „Badezimmer“, „Größe“ und „Preis/Quadratfuß“ in die Vorhersagegleichung ein.

Drucken wir den vorhergesagten Preis aus und vergleichen ihn mit dem tatsächlichen Preis der letzten Zeile im Datensatz. Der prognostizierte Preis sollte bei etwa 1.100.000 US-Dollar liegen. Nach der Ausführung des Codes erhalten wir einen prognostizierten Preis von 1.023.000 US-Dollar, was etwa 77.000 US-Dollar unter dem tatsächlichen Preis liegt. Obwohl der Unterschied erheblich ist, stellt er für Käufer, die ein Haus im Wert von einer Million Dollar in Betracht ziehen, möglicherweise kein großes Problem dar.

Ich hoffe, Sie fanden dieses Video informativ und unterhaltsam. Wenn Sie Fragen oder Kommentare haben, hinterlassen Sie diese bitte unten. Vergessen Sie nicht, dieses Video zu liken und bleiben Sie gespannt auf weitere Tutorials. Vielen Dank fürs Zuschauen, wir sehen uns im nächsten Teil.