diff --git a/README.Rmd b/README.Rmd
index 488003e..c843ddd 100755
--- a/README.Rmd
+++ b/README.Rmd
@@ -62,165 +62,16 @@ MyCleanLangSamples <- clean_dyads()
 ```
 
 ## Align your transcripts
-Prompts user to specify one or more variables to align on from a lookup database (lookup_db) reflecting published word norms from numermous sources (e.g., afffectvec, Kuperman norms, Brysbaert norms, etc.). Yokes data to each word then structures a dataframe by speaker and exchange across each dyad.
+Prompts user to specify one or more variables to align on from a lookup database (lookup_db) reflecting published word norms from numermous sources (e.g., afffectvec, Kuperman norms, Brysbaert norms, etc.). Yokes data to each word then structures a dataframe by speaker and exchange across each dyad. <br/>
+
+ myvars <- select.list(c("admiration", "anger", "animosity", "anticipation", "anxiety", "aoa", "awe", "boredom", "calmness",  "closeness", "comfort", "compatibility", "concreteness", "confusion", "contempt", "disgust", "distance", "dominance", "doubt", "empathy", "encouragement", "excitement", "fear", "friendliness", "gratitude", "happiness", "hostility", "interest", "joy", "lg10wf", "love", "n_letters", "relieved", "sadness", "satisfaction", "stress", "surprise", "tension", "trust", "valence"
+ 
 ```{r, eval=F}
-#takes cleaned dataframe from clean_dyads() step
 align_dyads <- function(clean_ts_df) {
-  load("data/lookup_db.rda") #load lookup database
-  #allow the user to select what variables they want to align, or provide their own database(s) and subset them
-  myvars <- select.list(c("admiration", "anger", "animosity", "anticipation", "anxiety", "aoa", "awe", "boredom", "calmness",  "closeness", "comfort", "compatibility", "concreteness", "confusion", "contempt", "disgust", "distance", "dominance", "doubt", "empathy", "encouragement", "excitement", "fear", "friendliness", "gratitude", "happiness", "hostility", "interest", "joy", "lg10wf", "love", "n_letters", "relieved", "sadness", "satisfaction", "stress", "surprise", "tension", "trust", "valence", "add my own database as well"),
-                        preselect = NULL, multiple = TRUE,
-                        title = "Select the variables you would like to align your conversation transcripts on",
-                        graphics = FALSE)
-
-  if (length(myvars) == 0) { #if no variables are selected, defaults are automatically added
-    myvars <- c("happiness", "hostility", "empathy", "excitement")
-  }
-
-  var_selected <- lookup_db %>% #select desired columns from lookup_db
-    select(matches("^word$"), contains(myvars))
-
-  if (any(grepl("add my own database as well", myvars)) == TRUE) {
-    #take use input for the full file path to the data base they want to use
-    database_path <- readline("Input the file path to the database you would like to add.")
-    user_added_db <- read.csv(database_path) #IS IT OK TO ASSUME THAT DATABASE WILL BE .CSV???
-    user_added_db <- data.frame(user_added_db)
-    #display the column names of user added database and allow them to choose the columns they want
-    subset_user_db <- select.list(c(colnames(user_added_db), "Select all columns"),
-                                  preselect = NULL, multiple = TRUE,
-                                  title = "Select the columns you would like to subset. The word column must be included.",
-                                  graphics = FALSE)
-    #allows user to select one option to select every column in their added database
-    if (any(grepl("Select all columns", subset_user_db)) == TRUE) {
-      subset_user_db <- colnames(user_added_db)
-    }
-    user_added_db <- user_added_db %>% select(contains(subset_user_db)) #select the columns specified from the database
-    #alter the word column on the added database to match the column name of the built in databse
-    colnames(user_added_db)[grep("^word$", colnames(user_added_db), ignore.case = TRUE)] <- "word"
-    #if user added their own database and subsetted from built in - binds both together.
-    if (length(myvars[-grep("add my own database as well", myvars)]) > 0) {
-      var_selected <- full_join(x = var_selected, y = user_added_db, by="word")
-    }
-  }
-  #create variable containing the column names of each variable to be aligned
-  var_aligners <- colnames(var_selected)[-grep("^word$", colnames(lookup_db), ignore.case = TRUE)]
-
-  var_selected <- var_selected %>% distinct(word, .keep_all = TRUE)
-
-  ts_list <- split(clean_ts_df, f = clean_ts_df$Doc_id) #split the transcript data frame into a list by Doc_id
-  ts_aligned_list <- lapply(ts_list, function(ts_select){
-    #join measures of each variable to each word in each transcript
-    df_aligned <- left_join(ts_select, var_selected, by = c("CleanText" = "word"), multiple = "first")
-    df_aligned <- df_aligned[complete.cases(df_aligned), ] # remove any words that couldn't be aligned
-    df_aligned <- data.frame(df_aligned)
-
-    df_aligned_agg <- df_aligned %>%
-      mutate(TurnCount = consecutive_id(Speaker_names_raw), .before = 1) %>% # add a turn column
-      select(Doc_id, Speaker_names_raw, TurnCount, Time, contains(var_aligners), starts_with("Analytics")) %>%
-      # select variables, speaker and dyad information, and word analytics
-      group_by(Doc_id, TurnCount, Speaker_names_raw) %>% #group by doc id, turn, and speaker
-      summarise(Time = min(Time), #make time the minimum for each turn
-                across(contains(var_aligners), mean), #average each variable by turn
-                across(starts_with("Analytics_wordcount"), sum), #sum word counts
-                across(starts_with("Analytics_words_removed"), sum), #sum removed word counts
-                across(starts_with("Analytics_mean_word_length"), mean),
-                .groups = "drop") %>%
-      ungroup() #reformat data frame back to chronological order
-    # identifies if there are an odd number of rows (one speaker spoke but other did not respond)
-    if ((nrow(df_aligned_agg)%%2) == 1 ) {
-      temprow <- data.frame(matrix(NA, nrow = 1, ncol = ncol(df_aligned_agg))) #creates a new adder row
-      colnames(temprow) <- c(colnames(df_aligned_agg))
-      df_aligned_agg <- rbind(df_aligned_agg, temprow) #adds row full of NA to end of the data frame
-    }
-    ExchangeCount <- rep(seq(1:(length(df_aligned_agg$TurnCount)/2)), each=2) #creates Exchange Count
-    df_aligned_EC <- cbind(ExchangeCount, df_aligned_agg) #binds ExC to the data frame
-    df_aligned_EC <- na.omit(df_aligned_EC) #removes added NA row
-    df_aligned_EC <- df_aligned_EC %>%
-      select(!TurnCount) #removes turn count column
-
-    df_aligned_EC #output the transcript exchange count organized aligned data frame to a list
-  })
-  ts_aligned_df_total <- bind_rows(ts_aligned_list)
-
-  #DEFINE THE DEMOGRAPHIC_ALIGN FUNCTION
-  demographic_align <- function(aligned_ts_df) {
-    #allow user to input the file path to demographic data, randomly assign groups, or not align groups
-    ask_demo_filepath <- readline("If you would like to align demographics to speakers, input the file path to the demographic csv file.")
-    #if user inputs 'random', randomly assigns groups across transcripts
-    if (str_to_lower(ask_demo_filepath) == "random") {
-      randomly <- lapply(split(aligned_ts_df, aligned_ts_df$Doc_id), function(x){ #iterates over each doc
-        x <- data.frame(x)
-        #creates a vector of each speaker with random indexes and assigns a alphanumeric sequence name
-        speakervec <- sample(unique(x[,grep("Speaker_names_raw", colnames(x), ignore.case = T)]))
-        names(speakervec) <- paste("S", 1:length(speakervec), sep = "")
-        #creates a data frame with just speaker names and assigned code
-        coloutput <- data.frame(Speaker_names_raw = speakervec,
-                                Speaker_Code_Random = sapply(speakervec, function(y) {
-                                  names(speakervec)[match(y, speakervec)]}))
-        x <- x %>% left_join(coloutput, by=c("Speaker_names_raw")) #binds code to the aligned data frame
-      })
-      randomly <- bind_rows(randomly) #binds all the doc data frame into one
-      return(randomly)
-    }
-    #if input is empty, returns the aligned data frame with no demographics
-    else if (ask_demo_filepath == "") {
-      return(aligned_ts_df)
-    }
-    #if file path is entered:
-    else {
-      #reads in a csv file of demographic information associated with participant IDs.
-      demoinfo <- data.frame(read.csv(ask_demo_filepath))
-      #allows the user to specify which columns they want to subset
-      subset_demo_data <- select.list(c(colnames(demoinfo), "Select all columns"),
-                                      preselect = NULL, multiple = TRUE,
-                                      title = "Select the columns you would like to subset. The participant ID column must be included.",
-                                      graphics = FALSE)
-      #if the select all option is chosen, selects every column
-      if (any(grepl("Select all columns", subset_demo_data)) == TRUE) {
-        subset_demo_data <- colnames(demoinfo)
-      }
-      demos_selected <- demoinfo %>%
-        select(contains(subset_demo_data)) #selects only specified columns from the demographics
-
-      demos <- demos_selected %>%
-        select(!contains("PID")) %>%
-        select(!contains("Participant")) #selects only columns that aren't participant ID
-
-      partid <- demos_selected %>%
-        select(contains(setdiff(colnames(demos_selected), colnames(demos))))
-      #creates a new data frame that just includes specified demo domains and combines them into to one string, which will be a total combination of demographics
-      domaincode <- data.frame(sapply(colnames(demos), function(x) {
-        domainlvl <- sort(unique(demos[, match(x, colnames(demos))]))  #creates a vector of unique domain info
-        names(domainlvl) <- paste("S", 1:length(domainlvl), sep = "")  #alphabetically assigns a code to each
-        coloutput <- sapply(demos[match(x, colnames(demos))], function(y) {
-          names(domainlvl)[match(y, domainlvl)]
-        })
-        coloutput
-      }))
-      colnames(domaincode) <- paste("Speaker_group_var_code", tolower(colnames(demos)), sep = "_")
-      colnames(demos) <- paste("Speaker_group_var", tolower(colnames(demos)), sep = "_")
-      demos <- cbind(demos, domaincode) #bind the assigned codes to the original groups
-      demos[] <- lapply(demos[], factor) #make each grouping variable a factor
-      demos <- cbind(PID = partid, demos) #bind participant ID to the demographic groups
-
-      demo_aligned_df <- aligned_ts_df %>%
-        left_join(demos, by=c("Speaker_names_raw" = "PID")) #align demographic groups by participant ID
-
-      return(demo_aligned_df)
-    }}
-  #END DEFINING DEMOGRAPHIC_ALIGN FUNCTION
-  demographic_align(aligned_ts_df = ts_aligned_df_total) #run demoraphic aligner on aligned data frame
-}
 
-
-```
-
-## Inspect your transcripts
-```{r, eval=F}
-#TBD
 ```
 
-## Analyze your transcripts
+## Summarize transcripts
 ```{r, eval=F}
 #TBD
 ```
diff --git a/README.md b/README.md
index 973ac5e..fa7889e 100644
--- a/README.md
+++ b/README.md
@@ -68,203 +68,37 @@ Move your raw transcripts into a folder. The default folder name
 ConversationAlign will search for on your machine is ‘my_transcripts’.
 However, if you want to specify your own folder name that’s fine too.
 You will call that path as an argument to the first function called
-read_dyads(). <br/>
-
-We recommend being very careful and deliberate about where you store
-your files
+read_dyads(). <br/> <br/>
 
 ## Read your transcripts into R
 
 ### read_dyads()
 
 This function will read all your files and concatenate them into a
-single dataframe, appending document IDs
+single dataframe, appending document IDs. You can call this dataframe
+whatever you like. read_dyads will default to reading all csv and txt
+files in a folder called my_transcripts. Just remember that when you are
+finished processing a set of transcripts, make sure to move them out of
+that folder. You can think of ‘my_transcripts’ as a staging area for
+loading data into ConversationAlign.
 
 ``` r
-myrawtranscripts <- read_dyads()
-myrawtranscripts <- read_dyads(/my_customfolder)  #if specifying a custom folder path
-read_dyads <- function(folder_name = "my_transcripts") {
-  #defines three functions - the two that select and format txt and csv files, and the function that actually reads in the otter transcript txt file.
-  read_otter_transcript <- function(file_path) {
-    lines <- readLines(file_path) #read otter ai file
-    #Ben added - removes otter ai watermark if it is present
-    if (any(grepl("otter.ai", lines)) == TRUE) {
-      lines <- as.character(lines[-(grep("otter.ai", lines))])}
-    num_lines <- length(lines) #create a var for number of lines
-    speaker <- character() #create speaker col
-    time <- character() #create time col
-    text <- character() #create text col
-
-    #process lines of dialogue
-    current_line <- 1
-    while (current_line <= num_lines) {
-      speaker_time <- strsplit(lines[current_line], " ")[[1]]
-      speaker <- c(speaker, speaker_time[1]) #select speaker
-      #Ben added - allows for last names and also timeless transcripts
-      timeadd <- tryCatch({speaker_time[max(grep(":", speaker_time))]}, #attempts to identify a colon
-                          warning = function(w){return(NA)}) #if no colon, continues without gathering time
-      time <- c(time, timeadd)
-
-      #select lines of speech
-      speech_lines <- character()
-      line_counter <- current_line + 1
-      while (line_counter <= num_lines && lines[line_counter] != "") { #if not max line not on empty line
-        speech_lines <- c(speech_lines, lines[line_counter]) #add text on line to speech line text vector
-        line_counter <- line_counter + 1
-      }
-      text <- c(text, paste(speech_lines, collapse = " ")) #append speech on line to vector as one string
-      current_line <- line_counter + 1 #move to next speaker
-    }
-    #create df
-    transcript_df <- data.frame(Speaker_names_raw = speaker,Time = time, RawText = text,
-    stringsAsFactors = FALSE)
-    return(transcript_df)
-  }
-  #END DEFINE OTTER READ TRANSCRIPT .TXT FILE FUNCTION
-
-  read_me_txt <- function(folder_name){
-    if (any(grepl("*.txt$", list.files(path = folder_name, pattern = ".", full.names = TRUE, recursive = TRUE))) == TRUE) {
-      file_list_txt <- list.files(path = folder_name, pattern = "*.txt$", full.names = TRUE, recursive = TRUE) #list files with .txt ending
-      txtdata <- lapply(file_list_txt, function(x) {
-        #runs txt files names through otter reading function
-        xorf <- read_otter_transcript(x)
-        #selects those that were properly transcribed by otter, still need to add other parameters
-        if (ncol(xorf) == 3) {
-          x <- xorf
-        }
-        else {
-          # --- WIP --- Other function for reading in non-otter txt transcripts
-        }
-      })
-
-      data.table::setattr(txtdata, "names", file_list_txt) #add names attribute to each list element
-      #adds a doc id column to each transcript based on its name attribute
-      #    txtdata <- lapply(names(txtdata), function(x){
-      #      txtdata[[match(x, names(txtdata))]] <- cbind(Doc_id = rep(x, nrow(txtdata[[match(x, names(txtdata))]])), txtdata[[match(x, names(txtdata))]])})
-      #returns the list of each data frame with doc IDs.
-      return(txtdata)
-    }} #end of the read_me txt function
-
-  read_me_csv <- function(folder_name) {
-    if (any(grepl("*.csv$", list.files(path = folder_name, pattern = ".", full.names = TRUE, recursive = TRUE))) == TRUE) {
-      file_list_csv <- list.files(path = folder_name, pattern = "*.csv$", full.names = TRUE, recursive = TRUE) #list files with .csv ending
-      #creates a list of read in csv dataframes
-      csvdata <- lapply(full_file_list, function(x){
-        x <- read.csv(x)
-        if (ncol(x) == 3) {
-          if (sort(tolower(colnames(x))) != sort("speaker", "text", "time")) {
-            # --- WIP --- test for columns somehow...
-          }
-        }
-        else {
-          # --- WIP --- tests for the three columns we need? Maybe it throws an error?
-        }
-      })
-
-      data.table::setattr(csvdata, "names", file_list_csv) #add names attribute to textdata
-      #adds a doc id column to each transcript based on its name attribute
-      #      csvdata <- lapply(names(csvdata), function(x){
-      #        csvdata[[match(x, names(csvdata))]] <- cbind(Doc_id = rep(x, nrow(csvdata[[match(x, names(csvdata))]])), csvdata[[match(x, names(csvdata))]])})
-      return(csvdata)
-    }}
-  #END OF THE READ_ME__CSV FUNCTION
-  #calls two functions to read in txt and csv file transcripts, returning a list.
-  txtlist <- read_me_txt(folder_name)
-  csvlist <- read_me_csv(folder_name)
-  all_list <- append(txtlist, csvlist) #append the two lists into one list
-
-  all_list_num <- lapply(seq(length(all_list)), function(doc_num){ #iterate over each transcript
-    all_list[[doc_num]] <- cbind(Doc_id = rep(doc_num, nrow(all_list[[doc_num]])), all_list[[doc_num]])}) #bind the index of the transcript as a column to the data frame
-  alldf <- bind_rows(all_list_num) #binds the rows  of each list into one data frame
-  return(alldf)
-  #outputs a data frame containing every dyad with columns: Doc_id, Speaker_names_raw, Time, and RawText
-}
+MyRawLangSamples <- read_dyads()
+#if you want to specify a different folder, supply your own path
+MyRawLangSamples <- read_dyads("/my_custompath")
 ```
 
-## Clean your transcripts
+## Clean your transcripts: clean_dyads
 
-This step uses regular expressions to clean and format your data,
-eliminating stopwords, changing the case to lower, omitting whitespaces
-and non-alphabetic characters, etc.
+clean_dyas uses regular expressions to clean and format your data. The
+function also omits stopwords using a custom stopword list, and it
+lemmatizes (converts all words to their dictionary entries) unless you
+tell it not to (lemmatize=T is the default). Run ‘clean_dyads’ on the
+object you just assembled by running the ‘read_dyads’ function in the
+last step.
 
 ``` r
-#takes object from the read_dyads step
-mycleantranscripts <- clean_dyads(myrawtranscripts)
-clean_dyads <- function(read_ts_df) {
-  read_data_frame <- read_ts_df %>%
-    filter(Speaker_names_raw != "Unknown") %>% #filter out common unwanted speaker names
-    filter(Speaker_names_raw != "unknown") %>%
-    filter(Speaker_names_raw != "Speaker") %>%
-    filter(Speaker_names_raw != "speaker") %>%
-    filter(Speaker_names_raw != "Other") %>%
-    filter(Speaker_names_raw != "other") %>%
-    filter(Speaker_names_raw != "E") %>%
-    filter(Speaker_names_raw != "e") %>%
-    filter(Speaker_names_raw != "Experimenter") %>%
-    filter(Speaker_names_raw != "experimenter") %>%
-    filter(Speaker_names_raw != "Assistant") %>%
-    filter(Speaker_names_raw != "assistant")
-  read_data_frame$Speaker_names_raw <- as.factor(read_data_frame$Speaker_names_raw) #convert variables to factor
-  read_data_frame$Doc_id <- as.factor(read_data_frame$Doc_id)
-
-  #convert time from hh:mm:ss or mm:ss to milliseconds
-  read_data_frame$Time <- sapply(read_data_frame$Time, function(x){
-    if (any(grepl(":", x)) == TRUE) {  #checks for colons, indicative of mm:ss
-      x <- as.numeric(unlist(str_split(x, ":"))) #breaks string into vector by colon placement
-      if (length(x) == 2) { #shows just mm, ss
-        sum((x[1]*60000), (x[2]*1000))      }
-      else if ( length(xvec) == 3) { #shows hh, mm, ss
-        sum((x[1]*3600000), (x[2]*60000), (x[3]*1000))}}
-    else if (is.na(x) == TRUE) { #keeps NA time values as NA - may be a better way to do this?
-      NA}})
-
-  load("data/omissions_dyads23.rda") #load in omissions database
-
-  clean <- function(x) {
-    x <- tolower(x) #to lower
-    x <- gsub("\"", " ", x)
-    x <- gsub("\n", " ", x)
-    x <- gsub("`", "'", x)  # replaces tick marks with apostrophe for contractions
-    x <- gsub("can't", "can not", x)
-    x <- gsub("won't", "will not", x)
-    x <- gsub("n't", " not", x) #replace contraction with full word not
-    x <- textclean::replace_contraction(x) #replace contractions
-    x <- gsub("-", " ", x) #replace all hyphens with spaces
-    x <- tm::removeWords(x, omissions_dyads23$.)
-    x <- gsub("\\d+(st|nd|rd|th)", " ", x) #omits 6th, 23rd, ordinal numbers
-    x <- gsub("[^a-zA-Z]", " ", x) #omit non-alphabetic characters
-    x <- gsub("\\b[a]\\b{1}", " ", x)
-    x <- tm::stripWhitespace(x)
-    x <- stringr::str_squish(x)
-    x <- textstem::lemmatize_words(x)
-  }
-
-  read_data_frame$RawText <- str_squish(read_data_frame$RawText) #remove unneeded white space from text
-
-  df_with_word_count <- read_data_frame %>%
-    rowwise() %>% #group by individual row
-    mutate(Analytics_wordcount_raw = length(stri_remove_empty(str_split_1(paste(RawText, collapse = " "), " "))), #create new column of word count by row
-           Analytics_mean_word_length_raw = mean(nchar(stri_remove_empty(str_split_1(paste(RawText, collapse = " "), pattern = " "))))) %>% #create new column of average word length by row
-    ungroup()
-
-  dfclean <- df_with_word_count %>%
-    mutate(CleanText = clean(RawText)) %>%  #run clean function on raw text, making a new column
-    rowwise() %>% #group by individual row
-    mutate(Analytics_wordcount_clean = length(stri_remove_empty(str_split_1(paste(CleanText, collapse = " "), " "))), # create word count column for cleaned text
-           Analytics_mean_word_length_clean = mean(nchar(stri_remove_empty(str_split_1(paste(CleanText, collapse = " "), pattern = " "))))) %>% #create mean word length column for clean text
-    ungroup() %>%
-    select(!RawText)# remove old raw text and grouping column
-
-  dfclean_sep <- tidyr::separate_rows(dfclean, CleanText) # create row for each word in clean text
-
-  dfclean_filtered <- dfclean_sep %>%
-    filter(CleanText != "")#remove rows where text is an empty string
-
-  #calculate words removed from the difference between the raw word count and clean word count
-  dfclean_filtered$Analytics_words_removed <- dfclean_filtered$Analytics_wordcount_raw - dfclean_filtered$Analytics_wordcount_clean
-
-  return(dfclean_filtered)
-}
+MyCleanLangSamples <- clean_dyads()
 ```
 
 ## Align your transcripts
@@ -273,165 +107,22 @@ Prompts user to specify one or more variables to align on from a lookup
 database (lookup_db) reflecting published word norms from numermous
 sources (e.g., afffectvec, Kuperman norms, Brysbaert norms, etc.). Yokes
 data to each word then structures a dataframe by speaker and exchange
-across each dyad.
+across each dyad. <br/>
 
-``` r
-#takes cleaned dataframe from clean_dyads() step
-align_dyads <- function(clean_ts_df) {
-  load("data/lookup_db.rda") #load lookup database
-  #allow the user to select what variables they want to align, or provide their own database(s) and subset them
-  myvars <- select.list(c("admiration", "anger", "animosity", "anticipation", "anxiety", "aoa", "awe", "boredom", "calmness",  "closeness", "comfort", "compatibility", "concreteness", "confusion", "contempt", "disgust", "distance", "dominance", "doubt", "empathy", "encouragement", "excitement", "fear", "friendliness", "gratitude", "happiness", "hostility", "interest", "joy", "lg10wf", "love", "n_letters", "relieved", "sadness", "satisfaction", "stress", "surprise", "tension", "trust", "valence", "add my own database as well"),
-                        preselect = NULL, multiple = TRUE,
-                        title = "Select the variables you would like to align your conversation transcripts on",
-                        graphics = FALSE)
-
-  if (length(myvars) == 0) { #if no variables are selected, defaults are automatically added
-    myvars <- c("happiness", "hostility", "empathy", "excitement")
-  }
-
-  var_selected <- lookup_db %>% #select desired columns from lookup_db
-    select(matches("^word$"), contains(myvars))
-
-  if (any(grepl("add my own database as well", myvars)) == TRUE) {
-    #take use input for the full file path to the data base they want to use
-    database_path <- readline("Input the file path to the database you would like to add.")
-    user_added_db <- read.csv(database_path) #IS IT OK TO ASSUME THAT DATABASE WILL BE .CSV???
-    user_added_db <- data.frame(user_added_db)
-    #display the column names of user added database and allow them to choose the columns they want
-    subset_user_db <- select.list(c(colnames(user_added_db), "Select all columns"),
-                                  preselect = NULL, multiple = TRUE,
-                                  title = "Select the columns you would like to subset. The word column must be included.",
-                                  graphics = FALSE)
-    #allows user to select one option to select every column in their added database
-    if (any(grepl("Select all columns", subset_user_db)) == TRUE) {
-      subset_user_db <- colnames(user_added_db)
-    }
-    user_added_db <- user_added_db %>% select(contains(subset_user_db)) #select the columns specified from the database
-    #alter the word column on the added database to match the column name of the built in databse
-    colnames(user_added_db)[grep("^word$", colnames(user_added_db), ignore.case = TRUE)] <- "word"
-    #if user added their own database and subsetted from built in - binds both together.
-    if (length(myvars[-grep("add my own database as well", myvars)]) > 0) {
-      var_selected <- full_join(x = var_selected, y = user_added_db, by="word")
-    }
-  }
-  #create variable containing the column names of each variable to be aligned
-  var_aligners <- colnames(var_selected)[-grep("^word$", colnames(lookup_db), ignore.case = TRUE)]
-
-  var_selected <- var_selected %>% distinct(word, .keep_all = TRUE)
-
-  ts_list <- split(clean_ts_df, f = clean_ts_df$Doc_id) #split the transcript data frame into a list by Doc_id
-  ts_aligned_list <- lapply(ts_list, function(ts_select){
-    #join measures of each variable to each word in each transcript
-    df_aligned <- left_join(ts_select, var_selected, by = c("CleanText" = "word"), multiple = "first")
-    df_aligned <- df_aligned[complete.cases(df_aligned), ] # remove any words that couldn't be aligned
-    df_aligned <- data.frame(df_aligned)
-
-    df_aligned_agg <- df_aligned %>%
-      mutate(TurnCount = consecutive_id(Speaker_names_raw), .before = 1) %>% # add a turn column
-      select(Doc_id, Speaker_names_raw, TurnCount, Time, contains(var_aligners), starts_with("Analytics")) %>%
-      # select variables, speaker and dyad information, and word analytics
-      group_by(Doc_id, TurnCount, Speaker_names_raw) %>% #group by doc id, turn, and speaker
-      summarise(Time = min(Time), #make time the minimum for each turn
-                across(contains(var_aligners), mean), #average each variable by turn
-                across(starts_with("Analytics_wordcount"), sum), #sum word counts
-                across(starts_with("Analytics_words_removed"), sum), #sum removed word counts
-                across(starts_with("Analytics_mean_word_length"), mean),
-                .groups = "drop") %>%
-      ungroup() #reformat data frame back to chronological order
-    # identifies if there are an odd number of rows (one speaker spoke but other did not respond)
-    if ((nrow(df_aligned_agg)%%2) == 1 ) {
-      temprow <- data.frame(matrix(NA, nrow = 1, ncol = ncol(df_aligned_agg))) #creates a new adder row
-      colnames(temprow) <- c(colnames(df_aligned_agg))
-      df_aligned_agg <- rbind(df_aligned_agg, temprow) #adds row full of NA to end of the data frame
-    }
-    ExchangeCount <- rep(seq(1:(length(df_aligned_agg$TurnCount)/2)), each=2) #creates Exchange Count
-    df_aligned_EC <- cbind(ExchangeCount, df_aligned_agg) #binds ExC to the data frame
-    df_aligned_EC <- na.omit(df_aligned_EC) #removes added NA row
-    df_aligned_EC <- df_aligned_EC %>%
-      select(!TurnCount) #removes turn count column
-
-    df_aligned_EC #output the transcript exchange count organized aligned data frame to a list
-  })
-  ts_aligned_df_total <- bind_rows(ts_aligned_list)
-
-  #DEFINE THE DEMOGRAPHIC_ALIGN FUNCTION
-  demographic_align <- function(aligned_ts_df) {
-    #allow user to input the file path to demographic data, randomly assign groups, or not align groups
-    ask_demo_filepath <- readline("If you would like to align demographics to speakers, input the file path to the demographic csv file.")
-    #if user inputs 'random', randomly assigns groups across transcripts
-    if (str_to_lower(ask_demo_filepath) == "random") {
-      randomly <- lapply(split(aligned_ts_df, aligned_ts_df$Doc_id), function(x){ #iterates over each doc
-        x <- data.frame(x)
-        #creates a vector of each speaker with random indexes and assigns a alphanumeric sequence name
-        speakervec <- sample(unique(x[,grep("Speaker_names_raw", colnames(x), ignore.case = T)]))
-        names(speakervec) <- paste("S", 1:length(speakervec), sep = "")
-        #creates a data frame with just speaker names and assigned code
-        coloutput <- data.frame(Speaker_names_raw = speakervec,
-                                Speaker_Code_Random = sapply(speakervec, function(y) {
-                                  names(speakervec)[match(y, speakervec)]}))
-        x <- x %>% left_join(coloutput, by=c("Speaker_names_raw")) #binds code to the aligned data frame
-      })
-      randomly <- bind_rows(randomly) #binds all the doc data frame into one
-      return(randomly)
-    }
-    #if input is empty, returns the aligned data frame with no demographics
-    else if (ask_demo_filepath == "") {
-      return(aligned_ts_df)
-    }
-    #if file path is entered:
-    else {
-      #reads in a csv file of demographic information associated with participant IDs.
-      demoinfo <- data.frame(read.csv(ask_demo_filepath))
-      #allows the user to specify which columns they want to subset
-      subset_demo_data <- select.list(c(colnames(demoinfo), "Select all columns"),
-                                      preselect = NULL, multiple = TRUE,
-                                      title = "Select the columns you would like to subset. The participant ID column must be included.",
-                                      graphics = FALSE)
-      #if the select all option is chosen, selects every column
-      if (any(grepl("Select all columns", subset_demo_data)) == TRUE) {
-        subset_demo_data <- colnames(demoinfo)
-      }
-      demos_selected <- demoinfo %>%
-        select(contains(subset_demo_data)) #selects only specified columns from the demographics
-
-      demos <- demos_selected %>%
-        select(!contains("PID")) %>%
-        select(!contains("Participant")) #selects only columns that aren't participant ID
-
-      partid <- demos_selected %>%
-        select(contains(setdiff(colnames(demos_selected), colnames(demos))))
-      #creates a new data frame that just includes specified demo domains and combines them into to one string, which will be a total combination of demographics
-      domaincode <- data.frame(sapply(colnames(demos), function(x) {
-        domainlvl <- sort(unique(demos[, match(x, colnames(demos))]))  #creates a vector of unique domain info
-        names(domainlvl) <- paste("S", 1:length(domainlvl), sep = "")  #alphabetically assigns a code to each
-        coloutput <- sapply(demos[match(x, colnames(demos))], function(y) {
-          names(domainlvl)[match(y, domainlvl)]
-        })
-        coloutput
-      }))
-      colnames(domaincode) <- paste("Speaker_group_var_code", tolower(colnames(demos)), sep = "_")
-      colnames(demos) <- paste("Speaker_group_var", tolower(colnames(demos)), sep = "_")
-      demos <- cbind(demos, domaincode) #bind the assigned codes to the original groups
-      demos[] <- lapply(demos[], factor) #make each grouping variable a factor
-      demos <- cbind(PID = partid, demos) #bind participant ID to the demographic groups
-
-      demo_aligned_df <- aligned_ts_df %>%
-        left_join(demos, by=c("Speaker_names_raw" = "PID")) #align demographic groups by participant ID
-
-      return(demo_aligned_df)
-    }}
-  #END DEFINING DEMOGRAPHIC_ALIGN FUNCTION
-  demographic_align(aligned_ts_df = ts_aligned_df_total) #run demoraphic aligner on aligned data frame
-}
-```
-
-## Inspect your transcripts
+myvars \<- select.list(c(“admiration”, “anger”, “animosity”,
+“anticipation”, “anxiety”, “aoa”, “awe”, “boredom”, “calmness”,
+“closeness”, “comfort”, “compatibility”, “concreteness”, “confusion”,
+“contempt”, “disgust”, “distance”, “dominance”, “doubt”, “empathy”,
+“encouragement”, “excitement”, “fear”, “friendliness”, “gratitude”,
+“happiness”, “hostility”, “interest”, “joy”, “lg10wf”, “love”,
+“n_letters”, “relieved”, “sadness”, “satisfaction”, “stress”,
+“surprise”, “tension”, “trust”, “valence”
 
 ``` r
-#TBD
+align_dyads <- function(clean_ts_df) {
 ```
 
-## Analyze your transcripts
+## Summarize transcripts
 
 ``` r
 #TBD
diff --git a/docs/index.html b/docs/index.html
index 2effc4e..a3fd19c 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -90,8 +90,7 @@ <h2 id="prep-your-language-transcripts">Prep your language transcripts<a class="
 </h2>
 <p>ConversationAlign will work on txt or csv files. It can handle Otter.ai formmated files, but it can also handle a home brew of your own preferred format as long as your transcript has at least two columns (their order in your transcript does not matter). The first (header) row of your transcript must designate the interlocutor (person producing the output) and the text. When prepping your raw transcripts, be careful to mark these columns as:<br> 1) Interlocutor <br> 2) Text <br></p>
 <p>Each conversation dyad should be saved as a separate file (e.g., MaryJoe_FirstDateTalk.txt). This is important for how ConversationAlign will read your data into R, append document IDs, and split each dyad into a separate list. ConversationAlign runs many operations on each dyad and ultimately binds those data into a summary dataframe. ConversationAlign marks each conversation with a unique event_id populated from its filename (be deliberate about naming!). All other metadata (e.g., age, timestamps, grouping variables) in your language transcripts will be retained. <br></p>
-<p>Move your raw transcripts into a folder. The default folder name ConversationAlign will search for on your machine is ‘my_transcripts’. However, if you want to specify your own folder name that’s fine too. You will call that path as an argument to the first function called read_dyads(). <br></p>
-<p>We recommend being very careful and deliberate about where you store your files</p>
+<p>Move your raw transcripts into a folder. The default folder name ConversationAlign will search for on your machine is ‘my_transcripts’. However, if you want to specify your own folder name that’s fine too. You will call that path as an argument to the first function called read_dyads(). <br><br></p>
 </div>
 <div class="section level2">
 <h2 id="read-your-transcripts-into-r">Read your transcripts into R<a class="anchor" aria-label="anchor" href="#read-your-transcripts-into-r"></a>
@@ -99,356 +98,34 @@ <h2 id="read-your-transcripts-into-r">Read your transcripts into R<a class="anch
 <div class="section level3">
 <h3 id="read_dyads">read_dyads()<a class="anchor" aria-label="anchor" href="#read_dyads"></a>
 </h3>
-<p>This function will read all your files and concatenate them into a single dataframe, appending document IDs</p>
-<div class="sourceCode" id="cb2"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb2-1"><a href="#cb2-1" tabindex="-1"></a>myrawtranscripts <span class="ot">&lt;-</span> <span class="fu">read_dyads</span>()</span>
-<span id="cb2-2"><a href="#cb2-2" tabindex="-1"></a>myrawtranscripts <span class="ot">&lt;-</span> <span class="fu">read_dyads</span>(<span class="sc">/</span>my_customfolder)  <span class="co">#if specifying a custom folder path</span></span>
-<span id="cb2-3"><a href="#cb2-3" tabindex="-1"></a>read_dyads <span class="ot">&lt;-</span> <span class="cf">function</span>(<span class="at">folder_name =</span> <span class="st">"my_transcripts"</span>) {</span>
-<span id="cb2-4"><a href="#cb2-4" tabindex="-1"></a>  <span class="co">#defines three functions - the two that select and format txt and csv files, and the function that actually reads in the otter transcript txt file.</span></span>
-<span id="cb2-5"><a href="#cb2-5" tabindex="-1"></a>  read_otter_transcript <span class="ot">&lt;-</span> <span class="cf">function</span>(file_path) {</span>
-<span id="cb2-6"><a href="#cb2-6" tabindex="-1"></a>    lines <span class="ot">&lt;-</span> <span class="fu">readLines</span>(file_path) <span class="co">#read otter ai file</span></span>
-<span id="cb2-7"><a href="#cb2-7" tabindex="-1"></a>    <span class="co">#Ben added - removes otter ai watermark if it is present</span></span>
-<span id="cb2-8"><a href="#cb2-8" tabindex="-1"></a>    <span class="cf">if</span> (<span class="fu">any</span>(<span class="fu">grepl</span>(<span class="st">"otter.ai"</span>, lines)) <span class="sc">==</span> <span class="cn">TRUE</span>) {</span>
-<span id="cb2-9"><a href="#cb2-9" tabindex="-1"></a>      lines <span class="ot">&lt;-</span> <span class="fu">as.character</span>(lines[<span class="sc">-</span>(<span class="fu">grep</span>(<span class="st">"otter.ai"</span>, lines))])}</span>
-<span id="cb2-10"><a href="#cb2-10" tabindex="-1"></a>    num_lines <span class="ot">&lt;-</span> <span class="fu">length</span>(lines) <span class="co">#create a var for number of lines</span></span>
-<span id="cb2-11"><a href="#cb2-11" tabindex="-1"></a>    speaker <span class="ot">&lt;-</span> <span class="fu">character</span>() <span class="co">#create speaker col</span></span>
-<span id="cb2-12"><a href="#cb2-12" tabindex="-1"></a>    time <span class="ot">&lt;-</span> <span class="fu">character</span>() <span class="co">#create time col</span></span>
-<span id="cb2-13"><a href="#cb2-13" tabindex="-1"></a>    text <span class="ot">&lt;-</span> <span class="fu">character</span>() <span class="co">#create text col</span></span>
-<span id="cb2-14"><a href="#cb2-14" tabindex="-1"></a></span>
-<span id="cb2-15"><a href="#cb2-15" tabindex="-1"></a>    <span class="co">#process lines of dialogue</span></span>
-<span id="cb2-16"><a href="#cb2-16" tabindex="-1"></a>    current_line <span class="ot">&lt;-</span> <span class="dv">1</span></span>
-<span id="cb2-17"><a href="#cb2-17" tabindex="-1"></a>    <span class="cf">while</span> (current_line <span class="sc">&lt;=</span> num_lines) {</span>
-<span id="cb2-18"><a href="#cb2-18" tabindex="-1"></a>      speaker_time <span class="ot">&lt;-</span> <span class="fu">strsplit</span>(lines[current_line], <span class="st">" "</span>)[[<span class="dv">1</span>]]</span>
-<span id="cb2-19"><a href="#cb2-19" tabindex="-1"></a>      speaker <span class="ot">&lt;-</span> <span class="fu">c</span>(speaker, speaker_time[<span class="dv">1</span>]) <span class="co">#select speaker</span></span>
-<span id="cb2-20"><a href="#cb2-20" tabindex="-1"></a>      <span class="co">#Ben added - allows for last names and also timeless transcripts</span></span>
-<span id="cb2-21"><a href="#cb2-21" tabindex="-1"></a>      timeadd <span class="ot">&lt;-</span> <span class="fu">tryCatch</span>({speaker_time[<span class="fu">max</span>(<span class="fu">grep</span>(<span class="st">":"</span>, speaker_time))]}, <span class="co">#attempts to identify a colon</span></span>
-<span id="cb2-22"><a href="#cb2-22" tabindex="-1"></a>                          <span class="at">warning =</span> <span class="cf">function</span>(w){<span class="fu">return</span>(<span class="cn">NA</span>)}) <span class="co">#if no colon, continues without gathering time</span></span>
-<span id="cb2-23"><a href="#cb2-23" tabindex="-1"></a>      time <span class="ot">&lt;-</span> <span class="fu">c</span>(time, timeadd)</span>
-<span id="cb2-24"><a href="#cb2-24" tabindex="-1"></a></span>
-<span id="cb2-25"><a href="#cb2-25" tabindex="-1"></a>      <span class="co">#select lines of speech</span></span>
-<span id="cb2-26"><a href="#cb2-26" tabindex="-1"></a>      speech_lines <span class="ot">&lt;-</span> <span class="fu">character</span>()</span>
-<span id="cb2-27"><a href="#cb2-27" tabindex="-1"></a>      line_counter <span class="ot">&lt;-</span> current_line <span class="sc">+</span> <span class="dv">1</span></span>
-<span id="cb2-28"><a href="#cb2-28" tabindex="-1"></a>      <span class="cf">while</span> (line_counter <span class="sc">&lt;=</span> num_lines <span class="sc">&amp;&amp;</span> lines[line_counter] <span class="sc">!=</span> <span class="st">""</span>) { <span class="co">#if not max line not on empty line</span></span>
-<span id="cb2-29"><a href="#cb2-29" tabindex="-1"></a>        speech_lines <span class="ot">&lt;-</span> <span class="fu">c</span>(speech_lines, lines[line_counter]) <span class="co">#add text on line to speech line text vector</span></span>
-<span id="cb2-30"><a href="#cb2-30" tabindex="-1"></a>        line_counter <span class="ot">&lt;-</span> line_counter <span class="sc">+</span> <span class="dv">1</span></span>
-<span id="cb2-31"><a href="#cb2-31" tabindex="-1"></a>      }</span>
-<span id="cb2-32"><a href="#cb2-32" tabindex="-1"></a>      text <span class="ot">&lt;-</span> <span class="fu">c</span>(text, <span class="fu">paste</span>(speech_lines, <span class="at">collapse =</span> <span class="st">" "</span>)) <span class="co">#append speech on line to vector as one string</span></span>
-<span id="cb2-33"><a href="#cb2-33" tabindex="-1"></a>      current_line <span class="ot">&lt;-</span> line_counter <span class="sc">+</span> <span class="dv">1</span> <span class="co">#move to next speaker</span></span>
-<span id="cb2-34"><a href="#cb2-34" tabindex="-1"></a>    }</span>
-<span id="cb2-35"><a href="#cb2-35" tabindex="-1"></a>    <span class="co">#create df</span></span>
-<span id="cb2-36"><a href="#cb2-36" tabindex="-1"></a>    transcript_df <span class="ot">&lt;-</span> <span class="fu">data.frame</span>(<span class="at">Speaker_names_raw =</span> speaker,<span class="at">Time =</span> time, <span class="at">RawText =</span> text,</span>
-<span id="cb2-37"><a href="#cb2-37" tabindex="-1"></a>    <span class="at">stringsAsFactors =</span> <span class="cn">FALSE</span>)</span>
-<span id="cb2-38"><a href="#cb2-38" tabindex="-1"></a>    <span class="fu">return</span>(transcript_df)</span>
-<span id="cb2-39"><a href="#cb2-39" tabindex="-1"></a>  }</span>
-<span id="cb2-40"><a href="#cb2-40" tabindex="-1"></a>  <span class="co">#</span><span class="re">END</span><span class="co"> DEFINE OTTER READ TRANSCRIPT .TXT FILE FUNCTION</span></span>
-<span id="cb2-41"><a href="#cb2-41" tabindex="-1"></a></span>
-<span id="cb2-42"><a href="#cb2-42" tabindex="-1"></a>  read_me_txt <span class="ot">&lt;-</span> <span class="cf">function</span>(folder_name){</span>
-<span id="cb2-43"><a href="#cb2-43" tabindex="-1"></a>    <span class="cf">if</span> (<span class="fu">any</span>(<span class="fu">grepl</span>(<span class="st">"*.txt$"</span>, <span class="fu">list.files</span>(<span class="at">path =</span> folder_name, <span class="at">pattern =</span> <span class="st">"."</span>, <span class="at">full.names =</span> <span class="cn">TRUE</span>, <span class="at">recursive =</span> <span class="cn">TRUE</span>))) <span class="sc">==</span> <span class="cn">TRUE</span>) {</span>
-<span id="cb2-44"><a href="#cb2-44" tabindex="-1"></a>      file_list_txt <span class="ot">&lt;-</span> <span class="fu">list.files</span>(<span class="at">path =</span> folder_name, <span class="at">pattern =</span> <span class="st">"*.txt$"</span>, <span class="at">full.names =</span> <span class="cn">TRUE</span>, <span class="at">recursive =</span> <span class="cn">TRUE</span>) <span class="co">#list files with .txt ending</span></span>
-<span id="cb2-45"><a href="#cb2-45" tabindex="-1"></a>      txtdata <span class="ot">&lt;-</span> <span class="fu">lapply</span>(file_list_txt, <span class="cf">function</span>(x) {</span>
-<span id="cb2-46"><a href="#cb2-46" tabindex="-1"></a>        <span class="co">#runs txt files names through otter reading function</span></span>
-<span id="cb2-47"><a href="#cb2-47" tabindex="-1"></a>        xorf <span class="ot">&lt;-</span> <span class="fu">read_otter_transcript</span>(x)</span>
-<span id="cb2-48"><a href="#cb2-48" tabindex="-1"></a>        <span class="co">#selects those that were properly transcribed by otter, still need to add other parameters</span></span>
-<span id="cb2-49"><a href="#cb2-49" tabindex="-1"></a>        <span class="cf">if</span> (<span class="fu">ncol</span>(xorf) <span class="sc">==</span> <span class="dv">3</span>) {</span>
-<span id="cb2-50"><a href="#cb2-50" tabindex="-1"></a>          x <span class="ot">&lt;-</span> xorf</span>
-<span id="cb2-51"><a href="#cb2-51" tabindex="-1"></a>        }</span>
-<span id="cb2-52"><a href="#cb2-52" tabindex="-1"></a>        <span class="cf">else</span> {</span>
-<span id="cb2-53"><a href="#cb2-53" tabindex="-1"></a>          <span class="co"># --- WIP --- Other function for reading in non-otter txt transcripts</span></span>
-<span id="cb2-54"><a href="#cb2-54" tabindex="-1"></a>        }</span>
-<span id="cb2-55"><a href="#cb2-55" tabindex="-1"></a>      })</span>
-<span id="cb2-56"><a href="#cb2-56" tabindex="-1"></a></span>
-<span id="cb2-57"><a href="#cb2-57" tabindex="-1"></a>      data.table<span class="sc">::</span><span class="fu">setattr</span>(txtdata, <span class="st">"names"</span>, file_list_txt) <span class="co">#add names attribute to each list element</span></span>
-<span id="cb2-58"><a href="#cb2-58" tabindex="-1"></a>      <span class="co">#adds a doc id column to each transcript based on its name attribute</span></span>
-<span id="cb2-59"><a href="#cb2-59" tabindex="-1"></a>      <span class="co">#    txtdata &lt;- lapply(names(txtdata), function(x){</span></span>
-<span id="cb2-60"><a href="#cb2-60" tabindex="-1"></a>      <span class="co">#      txtdata[[match(x, names(txtdata))]] &lt;- cbind(Doc_id = rep(x, nrow(txtdata[[match(x, names(txtdata))]])), txtdata[[match(x, names(txtdata))]])})</span></span>
-<span id="cb2-61"><a href="#cb2-61" tabindex="-1"></a>      <span class="co">#returns the list of each data frame with doc IDs.</span></span>
-<span id="cb2-62"><a href="#cb2-62" tabindex="-1"></a>      <span class="fu">return</span>(txtdata)</span>
-<span id="cb2-63"><a href="#cb2-63" tabindex="-1"></a>    }} <span class="co">#end of the read_me txt function</span></span>
-<span id="cb2-64"><a href="#cb2-64" tabindex="-1"></a></span>
-<span id="cb2-65"><a href="#cb2-65" tabindex="-1"></a>  read_me_csv <span class="ot">&lt;-</span> <span class="cf">function</span>(folder_name) {</span>
-<span id="cb2-66"><a href="#cb2-66" tabindex="-1"></a>    <span class="cf">if</span> (<span class="fu">any</span>(<span class="fu">grepl</span>(<span class="st">"*.csv$"</span>, <span class="fu">list.files</span>(<span class="at">path =</span> folder_name, <span class="at">pattern =</span> <span class="st">"."</span>, <span class="at">full.names =</span> <span class="cn">TRUE</span>, <span class="at">recursive =</span> <span class="cn">TRUE</span>))) <span class="sc">==</span> <span class="cn">TRUE</span>) {</span>
-<span id="cb2-67"><a href="#cb2-67" tabindex="-1"></a>      file_list_csv <span class="ot">&lt;-</span> <span class="fu">list.files</span>(<span class="at">path =</span> folder_name, <span class="at">pattern =</span> <span class="st">"*.csv$"</span>, <span class="at">full.names =</span> <span class="cn">TRUE</span>, <span class="at">recursive =</span> <span class="cn">TRUE</span>) <span class="co">#list files with .csv ending</span></span>
-<span id="cb2-68"><a href="#cb2-68" tabindex="-1"></a>      <span class="co">#creates a list of read in csv dataframes</span></span>
-<span id="cb2-69"><a href="#cb2-69" tabindex="-1"></a>      csvdata <span class="ot">&lt;-</span> <span class="fu">lapply</span>(full_file_list, <span class="cf">function</span>(x){</span>
-<span id="cb2-70"><a href="#cb2-70" tabindex="-1"></a>        x <span class="ot">&lt;-</span> <span class="fu">read.csv</span>(x)</span>
-<span id="cb2-71"><a href="#cb2-71" tabindex="-1"></a>        <span class="cf">if</span> (<span class="fu">ncol</span>(x) <span class="sc">==</span> <span class="dv">3</span>) {</span>
-<span id="cb2-72"><a href="#cb2-72" tabindex="-1"></a>          <span class="cf">if</span> (<span class="fu">sort</span>(<span class="fu">tolower</span>(<span class="fu">colnames</span>(x))) <span class="sc">!=</span> <span class="fu">sort</span>(<span class="st">"speaker"</span>, <span class="st">"text"</span>, <span class="st">"time"</span>)) {</span>
-<span id="cb2-73"><a href="#cb2-73" tabindex="-1"></a>            <span class="co"># --- WIP --- test for columns somehow...</span></span>
-<span id="cb2-74"><a href="#cb2-74" tabindex="-1"></a>          }</span>
-<span id="cb2-75"><a href="#cb2-75" tabindex="-1"></a>        }</span>
-<span id="cb2-76"><a href="#cb2-76" tabindex="-1"></a>        <span class="cf">else</span> {</span>
-<span id="cb2-77"><a href="#cb2-77" tabindex="-1"></a>          <span class="co"># --- WIP --- tests for the three columns we need? Maybe it throws an error?</span></span>
-<span id="cb2-78"><a href="#cb2-78" tabindex="-1"></a>        }</span>
-<span id="cb2-79"><a href="#cb2-79" tabindex="-1"></a>      })</span>
-<span id="cb2-80"><a href="#cb2-80" tabindex="-1"></a></span>
-<span id="cb2-81"><a href="#cb2-81" tabindex="-1"></a>      data.table<span class="sc">::</span><span class="fu">setattr</span>(csvdata, <span class="st">"names"</span>, file_list_csv) <span class="co">#add names attribute to textdata</span></span>
-<span id="cb2-82"><a href="#cb2-82" tabindex="-1"></a>      <span class="co">#adds a doc id column to each transcript based on its name attribute</span></span>
-<span id="cb2-83"><a href="#cb2-83" tabindex="-1"></a>      <span class="co">#      csvdata &lt;- lapply(names(csvdata), function(x){</span></span>
-<span id="cb2-84"><a href="#cb2-84" tabindex="-1"></a>      <span class="co">#        csvdata[[match(x, names(csvdata))]] &lt;- cbind(Doc_id = rep(x, nrow(csvdata[[match(x, names(csvdata))]])), csvdata[[match(x, names(csvdata))]])})</span></span>
-<span id="cb2-85"><a href="#cb2-85" tabindex="-1"></a>      <span class="fu">return</span>(csvdata)</span>
-<span id="cb2-86"><a href="#cb2-86" tabindex="-1"></a>    }}</span>
-<span id="cb2-87"><a href="#cb2-87" tabindex="-1"></a>  <span class="co">#</span><span class="re">END</span><span class="co"> OF THE READ_ME__CSV FUNCTION</span></span>
-<span id="cb2-88"><a href="#cb2-88" tabindex="-1"></a>  <span class="co">#calls two functions to read in txt and csv file transcripts, returning a list.</span></span>
-<span id="cb2-89"><a href="#cb2-89" tabindex="-1"></a>  txtlist <span class="ot">&lt;-</span> <span class="fu">read_me_txt</span>(folder_name)</span>
-<span id="cb2-90"><a href="#cb2-90" tabindex="-1"></a>  csvlist <span class="ot">&lt;-</span> <span class="fu">read_me_csv</span>(folder_name)</span>
-<span id="cb2-91"><a href="#cb2-91" tabindex="-1"></a>  all_list <span class="ot">&lt;-</span> <span class="fu">append</span>(txtlist, csvlist) <span class="co">#append the two lists into one list</span></span>
-<span id="cb2-92"><a href="#cb2-92" tabindex="-1"></a></span>
-<span id="cb2-93"><a href="#cb2-93" tabindex="-1"></a>  all_list_num <span class="ot">&lt;-</span> <span class="fu">lapply</span>(<span class="fu">seq</span>(<span class="fu">length</span>(all_list)), <span class="cf">function</span>(doc_num){ <span class="co">#iterate over each transcript</span></span>
-<span id="cb2-94"><a href="#cb2-94" tabindex="-1"></a>    all_list[[doc_num]] <span class="ot">&lt;-</span> <span class="fu">cbind</span>(<span class="at">Doc_id =</span> <span class="fu">rep</span>(doc_num, <span class="fu">nrow</span>(all_list[[doc_num]])), all_list[[doc_num]])}) <span class="co">#bind the index of the transcript as a column to the data frame</span></span>
-<span id="cb2-95"><a href="#cb2-95" tabindex="-1"></a>  alldf <span class="ot">&lt;-</span> <span class="fu">bind_rows</span>(all_list_num) <span class="co">#binds the rows  of each list into one data frame</span></span>
-<span id="cb2-96"><a href="#cb2-96" tabindex="-1"></a>  <span class="fu">return</span>(alldf)</span>
-<span id="cb2-97"><a href="#cb2-97" tabindex="-1"></a>  <span class="co">#outputs a data frame containing every dyad with columns: Doc_id, Speaker_names_raw, Time, and RawText</span></span>
-<span id="cb2-98"><a href="#cb2-98" tabindex="-1"></a>}</span></code></pre></div>
+<p>This function will read all your files and concatenate them into a single dataframe, appending document IDs. You can call this dataframe whatever you like. read_dyads will default to reading all csv and txt files in a folder called my_transcripts. Just remember that when you are finished processing a set of transcripts, make sure to move them out of that folder. You can think of ‘my_transcripts’ as a staging area for loading data into ConversationAlign.</p>
+<div class="sourceCode" id="cb2"><pre class="downlit sourceCode r">
+<code class="sourceCode R"><span><span class="va">MyRawLangSamples</span> <span class="op">&lt;-</span> <span class="fu"><a href="reference/read_dyads.html">read_dyads</a></span><span class="op">(</span><span class="op">)</span></span>
+<span><span class="co">#if you want to specify a different folder, supply your own path</span></span>
+<span><span class="va">MyRawLangSamples</span> <span class="op">&lt;-</span> <span class="fu"><a href="reference/read_dyads.html">read_dyads</a></span><span class="op">(</span><span class="st">"/my_custompath"</span><span class="op">)</span></span></code></pre></div>
 </div>
 </div>
 <div class="section level2">
-<h2 id="clean-your-transcripts">Clean your transcripts<a class="anchor" aria-label="anchor" href="#clean-your-transcripts"></a>
+<h2 id="clean-your-transcripts-clean_dyads">Clean your transcripts: clean_dyads<a class="anchor" aria-label="anchor" href="#clean-your-transcripts-clean_dyads"></a>
 </h2>
-<p>This step uses regular expressions to clean and format your data, eliminating stopwords, changing the case to lower, omitting whitespaces and non-alphabetic characters, etc.</p>
+<p>clean_dyas uses regular expressions to clean and format your data. The function also omits stopwords using a custom stopword list, and it lemmatizes (converts all words to their dictionary entries) unless you tell it not to (lemmatize=T is the default). Run ‘clean_dyads’ on the object you just assembled by running the ‘read_dyads’ function in the last step.</p>
 <div class="sourceCode" id="cb3"><pre class="downlit sourceCode r">
-<code class="sourceCode R"><span><span class="co">#takes object from the read_dyads step</span></span>
-<span><span class="va">mycleantranscripts</span> <span class="op">&lt;-</span> <span class="fu"><a href="reference/clean_dyads.html">clean_dyads</a></span><span class="op">(</span><span class="va">myrawtranscripts</span><span class="op">)</span></span>
-<span><span class="va">clean_dyads</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">read_ts_df</span><span class="op">)</span> <span class="op">{</span></span>
-<span>  <span class="va">read_data_frame</span> <span class="op">&lt;-</span> <span class="va">read_ts_df</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"Unknown"</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co">#filter out common unwanted speaker names</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"unknown"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"Speaker"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"speaker"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"Other"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"other"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"E"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"e"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"Experimenter"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"experimenter"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"Assistant"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">Speaker_names_raw</span> <span class="op">!=</span> <span class="st">"assistant"</span><span class="op">)</span></span>
-<span>  <span class="va">read_data_frame</span><span class="op">$</span><span class="va">Speaker_names_raw</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html" class="external-link">as.factor</a></span><span class="op">(</span><span class="va">read_data_frame</span><span class="op">$</span><span class="va">Speaker_names_raw</span><span class="op">)</span> <span class="co">#convert variables to factor</span></span>
-<span>  <span class="va">read_data_frame</span><span class="op">$</span><span class="va">Doc_id</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html" class="external-link">as.factor</a></span><span class="op">(</span><span class="va">read_data_frame</span><span class="op">$</span><span class="va">Doc_id</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="co">#convert time from hh:mm:ss or mm:ss to milliseconds</span></span>
-<span>  <span class="va">read_data_frame</span><span class="op">$</span><span class="va">Time</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">sapply</a></span><span class="op">(</span><span class="va">read_data_frame</span><span class="op">$</span><span class="va">Time</span>, <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span><span class="op">{</span></span>
-<span>    <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html" class="external-link">any</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grepl</a></span><span class="op">(</span><span class="st">":"</span>, <span class="va">x</span><span class="op">)</span><span class="op">)</span> <span class="op">==</span> <span class="cn">TRUE</span><span class="op">)</span> <span class="op">{</span>  <span class="co">#checks for colons, indicative of mm:ss</span></span>
-<span>      <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/numeric.html" class="external-link">as.numeric</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/unlist.html" class="external-link">unlist</a></span><span class="op">(</span><span class="fu">str_split</span><span class="op">(</span><span class="va">x</span>, <span class="st">":"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="co">#breaks string into vector by colon placement</span></span>
-<span>      <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="op">==</span> <span class="fl">2</span><span class="op">)</span> <span class="op">{</span> <span class="co">#shows just mm, ss</span></span>
-<span>        <span class="fu"><a href="https://rdrr.io/r/base/sum.html" class="external-link">sum</a></span><span class="op">(</span><span class="op">(</span><span class="va">x</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span><span class="op">*</span><span class="fl">60000</span><span class="op">)</span>, <span class="op">(</span><span class="va">x</span><span class="op">[</span><span class="fl">2</span><span class="op">]</span><span class="op">*</span><span class="fl">1000</span><span class="op">)</span><span class="op">)</span>      <span class="op">}</span></span>
-<span>      <span class="kw">else</span> <span class="kw">if</span> <span class="op">(</span> <span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">xvec</span><span class="op">)</span> <span class="op">==</span> <span class="fl">3</span><span class="op">)</span> <span class="op">{</span> <span class="co">#shows hh, mm, ss</span></span>
-<span>        <span class="fu"><a href="https://rdrr.io/r/base/sum.html" class="external-link">sum</a></span><span class="op">(</span><span class="op">(</span><span class="va">x</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span><span class="op">*</span><span class="fl">3600000</span><span class="op">)</span>, <span class="op">(</span><span class="va">x</span><span class="op">[</span><span class="fl">2</span><span class="op">]</span><span class="op">*</span><span class="fl">60000</span><span class="op">)</span>, <span class="op">(</span><span class="va">x</span><span class="op">[</span><span class="fl">3</span><span class="op">]</span><span class="op">*</span><span class="fl">1000</span><span class="op">)</span><span class="op">)</span><span class="op">}</span><span class="op">}</span></span>
-<span>    <span class="kw">else</span> <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/NA.html" class="external-link">is.na</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="op">==</span> <span class="cn">TRUE</span><span class="op">)</span> <span class="op">{</span> <span class="co">#keeps NA time values as NA - may be a better way to do this?</span></span>
-<span>      <span class="cn">NA</span><span class="op">}</span><span class="op">}</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="fu"><a href="https://rdrr.io/r/base/load.html" class="external-link">load</a></span><span class="op">(</span><span class="st">"data/omissions_dyads23.rda"</span><span class="op">)</span> <span class="co">#load in omissions database</span></span>
-<span></span>
-<span>  <span class="va">clean</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="op">{</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/chartr.html" class="external-link">tolower</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="co">#to lower</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"\""</span>, <span class="st">" "</span>, <span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"\n"</span>, <span class="st">" "</span>, <span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"`"</span>, <span class="st">"'"</span>, <span class="va">x</span><span class="op">)</span>  <span class="co"># replaces tick marks with apostrophe for contractions</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"can't"</span>, <span class="st">"can not"</span>, <span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"won't"</span>, <span class="st">"will not"</span>, <span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"n't"</span>, <span class="st">" not"</span>, <span class="va">x</span><span class="op">)</span> <span class="co">#replace contraction with full word not</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu">textclean</span><span class="fu">::</span><span class="fu"><a href="https://rdrr.io/pkg/textclean/man/replace_contraction.html" class="external-link">replace_contraction</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="co">#replace contractions</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"-"</span>, <span class="st">" "</span>, <span class="va">x</span><span class="op">)</span> <span class="co">#replace all hyphens with spaces</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu">tm</span><span class="fu">::</span><span class="fu"><a href="https://rdrr.io/pkg/tm/man/removeWords.html" class="external-link">removeWords</a></span><span class="op">(</span><span class="va">x</span>, <span class="va">omissions_dyads23</span><span class="op">$</span><span class="va">.</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"\\d+(st|nd|rd|th)"</span>, <span class="st">" "</span>, <span class="va">x</span><span class="op">)</span> <span class="co">#omits 6th, 23rd, ordinal numbers</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"[^a-zA-Z]"</span>, <span class="st">" "</span>, <span class="va">x</span><span class="op">)</span> <span class="co">#omit non-alphabetic characters</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">gsub</a></span><span class="op">(</span><span class="st">"\\b[a]\\b{1}"</span>, <span class="st">" "</span>, <span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu">tm</span><span class="fu">::</span><span class="fu"><a href="https://rdrr.io/pkg/tm/man/stripWhitespace.html" class="external-link">stripWhitespace</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu">stringr</span><span class="fu">::</span><span class="fu"><a href="https://stringr.tidyverse.org/reference/str_trim.html" class="external-link">str_squish</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span></span>
-<span>    <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu">textstem</span><span class="fu">::</span><span class="fu"><a href="https://rdrr.io/pkg/textstem/man/lemmatize_words.html" class="external-link">lemmatize_words</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span></span>
-<span>  <span class="op">}</span></span>
-<span></span>
-<span>  <span class="va">read_data_frame</span><span class="op">$</span><span class="va">RawText</span> <span class="op">&lt;-</span> <span class="fu">str_squish</span><span class="op">(</span><span class="va">read_data_frame</span><span class="op">$</span><span class="va">RawText</span><span class="op">)</span> <span class="co">#remove unneeded white space from text</span></span>
-<span></span>
-<span>  <span class="va">df_with_word_count</span> <span class="op">&lt;-</span> <span class="va">read_data_frame</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu">rowwise</span><span class="op">(</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co">#group by individual row</span></span>
-<span>    <span class="fu">mutate</span><span class="op">(</span>Analytics_wordcount_raw <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="fu">stri_remove_empty</span><span class="op">(</span><span class="fu">str_split_1</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="va">RawText</span>, collapse <span class="op">=</span> <span class="st">" "</span><span class="op">)</span>, <span class="st">" "</span><span class="op">)</span><span class="op">)</span><span class="op">)</span>, <span class="co">#create new column of word count by row</span></span>
-<span>           Analytics_mean_word_length_raw <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html" class="external-link">mean</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/nchar.html" class="external-link">nchar</a></span><span class="op">(</span><span class="fu">stri_remove_empty</span><span class="op">(</span><span class="fu">str_split_1</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="va">RawText</span>, collapse <span class="op">=</span> <span class="st">" "</span><span class="op">)</span>, pattern <span class="op">=</span> <span class="st">" "</span><span class="op">)</span><span class="op">)</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co">#create new column of average word length by row</span></span>
-<span>    <span class="fu">ungroup</span><span class="op">(</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="va">dfclean</span> <span class="op">&lt;-</span> <span class="va">df_with_word_count</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu">mutate</span><span class="op">(</span>CleanText <span class="op">=</span> <span class="fu">clean</span><span class="op">(</span><span class="va">RawText</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span>  <span class="co">#run clean function on raw text, making a new column</span></span>
-<span>    <span class="fu">rowwise</span><span class="op">(</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co">#group by individual row</span></span>
-<span>    <span class="fu">mutate</span><span class="op">(</span>Analytics_wordcount_clean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="fu">stri_remove_empty</span><span class="op">(</span><span class="fu">str_split_1</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="va">CleanText</span>, collapse <span class="op">=</span> <span class="st">" "</span><span class="op">)</span>, <span class="st">" "</span><span class="op">)</span><span class="op">)</span><span class="op">)</span>, <span class="co"># create word count column for cleaned text</span></span>
-<span>           Analytics_mean_word_length_clean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html" class="external-link">mean</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/nchar.html" class="external-link">nchar</a></span><span class="op">(</span><span class="fu">stri_remove_empty</span><span class="op">(</span><span class="fu">str_split_1</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="va">CleanText</span>, collapse <span class="op">=</span> <span class="st">" "</span><span class="op">)</span>, pattern <span class="op">=</span> <span class="st">" "</span><span class="op">)</span><span class="op">)</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co">#create mean word length column for clean text</span></span>
-<span>    <span class="fu">ungroup</span><span class="op">(</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu">select</span><span class="op">(</span><span class="op">!</span><span class="va">RawText</span><span class="op">)</span><span class="co"># remove old raw text and grouping column</span></span>
-<span></span>
-<span>  <span class="va">dfclean_sep</span> <span class="op">&lt;-</span> <span class="fu">tidyr</span><span class="fu">::</span><span class="fu"><a href="https://tidyr.tidyverse.org/reference/separate_rows.html" class="external-link">separate_rows</a></span><span class="op">(</span><span class="va">dfclean</span>, <span class="va">CleanText</span><span class="op">)</span> <span class="co"># create row for each word in clean text</span></span>
-<span></span>
-<span>  <span class="va">dfclean_filtered</span> <span class="op">&lt;-</span> <span class="va">dfclean_sep</span> <span class="op">%&gt;%</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/stats/filter.html" class="external-link">filter</a></span><span class="op">(</span><span class="va">CleanText</span> <span class="op">!=</span> <span class="st">""</span><span class="op">)</span><span class="co">#remove rows where text is an empty string</span></span>
-<span></span>
-<span>  <span class="co">#calculate words removed from the difference between the raw word count and clean word count</span></span>
-<span>  <span class="va">dfclean_filtered</span><span class="op">$</span><span class="va">Analytics_words_removed</span> <span class="op">&lt;-</span> <span class="va">dfclean_filtered</span><span class="op">$</span><span class="va">Analytics_wordcount_raw</span> <span class="op">-</span> <span class="va">dfclean_filtered</span><span class="op">$</span><span class="va">Analytics_wordcount_clean</span></span>
-<span></span>
-<span>  <span class="kw"><a href="https://rdrr.io/r/base/function.html" class="external-link">return</a></span><span class="op">(</span><span class="va">dfclean_filtered</span><span class="op">)</span></span>
-<span><span class="op">}</span></span></code></pre></div>
+<code class="sourceCode R"><span><span class="va">MyCleanLangSamples</span> <span class="op">&lt;-</span> <span class="fu"><a href="reference/clean_dyads.html">clean_dyads</a></span><span class="op">(</span><span class="op">)</span></span></code></pre></div>
 </div>
 <div class="section level2">
 <h2 id="align-your-transcripts">Align your transcripts<a class="anchor" aria-label="anchor" href="#align-your-transcripts"></a>
 </h2>
-<p>Prompts user to specify one or more variables to align on from a lookup database (lookup_db) reflecting published word norms from numermous sources (e.g., afffectvec, Kuperman norms, Brysbaert norms, etc.). Yokes data to each word then structures a dataframe by speaker and exchange across each dyad.</p>
-<div class="sourceCode" id="cb4"><pre class="downlit sourceCode r">
-<code class="sourceCode R"><span><span class="co">#takes cleaned dataframe from clean_dyads() step</span></span>
-<span><span class="va">align_dyads</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">clean_ts_df</span><span class="op">)</span> <span class="op">{</span></span>
-<span>  <span class="fu"><a href="https://rdrr.io/r/base/load.html" class="external-link">load</a></span><span class="op">(</span><span class="st">"data/lookup_db.rda"</span><span class="op">)</span> <span class="co">#load lookup database</span></span>
-<span>  <span class="co">#allow the user to select what variables they want to align, or provide their own database(s) and subset them</span></span>
-<span>  <span class="va">myvars</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/utils/select.list.html" class="external-link">select.list</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="st">"admiration"</span>, <span class="st">"anger"</span>, <span class="st">"animosity"</span>, <span class="st">"anticipation"</span>, <span class="st">"anxiety"</span>, <span class="st">"aoa"</span>, <span class="st">"awe"</span>, <span class="st">"boredom"</span>, <span class="st">"calmness"</span>,  <span class="st">"closeness"</span>, <span class="st">"comfort"</span>, <span class="st">"compatibility"</span>, <span class="st">"concreteness"</span>, <span class="st">"confusion"</span>, <span class="st">"contempt"</span>, <span class="st">"disgust"</span>, <span class="st">"distance"</span>, <span class="st">"dominance"</span>, <span class="st">"doubt"</span>, <span class="st">"empathy"</span>, <span class="st">"encouragement"</span>, <span class="st">"excitement"</span>, <span class="st">"fear"</span>, <span class="st">"friendliness"</span>, <span class="st">"gratitude"</span>, <span class="st">"happiness"</span>, <span class="st">"hostility"</span>, <span class="st">"interest"</span>, <span class="st">"joy"</span>, <span class="st">"lg10wf"</span>, <span class="st">"love"</span>, <span class="st">"n_letters"</span>, <span class="st">"relieved"</span>, <span class="st">"sadness"</span>, <span class="st">"satisfaction"</span>, <span class="st">"stress"</span>, <span class="st">"surprise"</span>, <span class="st">"tension"</span>, <span class="st">"trust"</span>, <span class="st">"valence"</span>, <span class="st">"add my own database as well"</span><span class="op">)</span>,</span>
-<span>                        preselect <span class="op">=</span> <span class="cn">NULL</span>, multiple <span class="op">=</span> <span class="cn">TRUE</span>,</span>
-<span>                        title <span class="op">=</span> <span class="st">"Select the variables you would like to align your conversation transcripts on"</span>,</span>
-<span>                        graphics <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">myvars</span><span class="op">)</span> <span class="op">==</span> <span class="fl">0</span><span class="op">)</span> <span class="op">{</span> <span class="co">#if no variables are selected, defaults are automatically added</span></span>
-<span>    <span class="va">myvars</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="st">"happiness"</span>, <span class="st">"hostility"</span>, <span class="st">"empathy"</span>, <span class="st">"excitement"</span><span class="op">)</span></span>
-<span>  <span class="op">}</span></span>
-<span></span>
-<span>  <span class="va">var_selected</span> <span class="op">&lt;-</span> <span class="va">lookup_db</span> <span class="op">%&gt;%</span> <span class="co">#select desired columns from lookup_db</span></span>
-<span>    <span class="fu">select</span><span class="op">(</span><span class="fu">matches</span><span class="op">(</span><span class="st">"^word$"</span><span class="op">)</span>, <span class="fu">contains</span><span class="op">(</span><span class="va">myvars</span><span class="op">)</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html" class="external-link">any</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grepl</a></span><span class="op">(</span><span class="st">"add my own database as well"</span>, <span class="va">myvars</span><span class="op">)</span><span class="op">)</span> <span class="op">==</span> <span class="cn">TRUE</span><span class="op">)</span> <span class="op">{</span></span>
-<span>    <span class="co">#take use input for the full file path to the data base they want to use</span></span>
-<span>    <span class="va">database_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/readline.html" class="external-link">readline</a></span><span class="op">(</span><span class="st">"Input the file path to the database you would like to add."</span><span class="op">)</span></span>
-<span>    <span class="va">user_added_db</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/utils/read.table.html" class="external-link">read.csv</a></span><span class="op">(</span><span class="va">database_path</span><span class="op">)</span> <span class="co">#IS IT OK TO ASSUME THAT DATABASE WILL BE .CSV???</span></span>
-<span>    <span class="va">user_added_db</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span><span class="va">user_added_db</span><span class="op">)</span></span>
-<span>    <span class="co">#display the column names of user added database and allow them to choose the columns they want</span></span>
-<span>    <span class="va">subset_user_db</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/utils/select.list.html" class="external-link">select.list</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">user_added_db</span><span class="op">)</span>, <span class="st">"Select all columns"</span><span class="op">)</span>,</span>
-<span>                                  preselect <span class="op">=</span> <span class="cn">NULL</span>, multiple <span class="op">=</span> <span class="cn">TRUE</span>,</span>
-<span>                                  title <span class="op">=</span> <span class="st">"Select the columns you would like to subset. The word column must be included."</span>,</span>
-<span>                                  graphics <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
-<span>    <span class="co">#allows user to select one option to select every column in their added database</span></span>
-<span>    <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html" class="external-link">any</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grepl</a></span><span class="op">(</span><span class="st">"Select all columns"</span>, <span class="va">subset_user_db</span><span class="op">)</span><span class="op">)</span> <span class="op">==</span> <span class="cn">TRUE</span><span class="op">)</span> <span class="op">{</span></span>
-<span>      <span class="va">subset_user_db</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">user_added_db</span><span class="op">)</span></span>
-<span>    <span class="op">}</span></span>
-<span>    <span class="va">user_added_db</span> <span class="op">&lt;-</span> <span class="va">user_added_db</span> <span class="op">%&gt;%</span> <span class="fu">select</span><span class="op">(</span><span class="fu">contains</span><span class="op">(</span><span class="va">subset_user_db</span><span class="op">)</span><span class="op">)</span> <span class="co">#select the columns specified from the database</span></span>
-<span>    <span class="co">#alter the word column on the added database to match the column name of the built in databse</span></span>
-<span>    <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">user_added_db</span><span class="op">)</span><span class="op">[</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grep</a></span><span class="op">(</span><span class="st">"^word$"</span>, <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">user_added_db</span><span class="op">)</span>, ignore.case <span class="op">=</span> <span class="cn">TRUE</span><span class="op">)</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"word"</span></span>
-<span>    <span class="co">#if user added their own database and subsetted from built in - binds both together.</span></span>
-<span>    <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">myvars</span><span class="op">[</span><span class="op">-</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grep</a></span><span class="op">(</span><span class="st">"add my own database as well"</span>, <span class="va">myvars</span><span class="op">)</span><span class="op">]</span><span class="op">)</span> <span class="op">&gt;</span> <span class="fl">0</span><span class="op">)</span> <span class="op">{</span></span>
-<span>      <span class="va">var_selected</span> <span class="op">&lt;-</span> <span class="fu">full_join</span><span class="op">(</span>x <span class="op">=</span> <span class="va">var_selected</span>, y <span class="op">=</span> <span class="va">user_added_db</span>, by<span class="op">=</span><span class="st">"word"</span><span class="op">)</span></span>
-<span>    <span class="op">}</span></span>
-<span>  <span class="op">}</span></span>
-<span>  <span class="co">#create variable containing the column names of each variable to be aligned</span></span>
-<span>  <span class="va">var_aligners</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">var_selected</span><span class="op">)</span><span class="op">[</span><span class="op">-</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grep</a></span><span class="op">(</span><span class="st">"^word$"</span>, <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">lookup_db</span><span class="op">)</span>, ignore.case <span class="op">=</span> <span class="cn">TRUE</span><span class="op">)</span><span class="op">]</span></span>
-<span></span>
-<span>  <span class="va">var_selected</span> <span class="op">&lt;-</span> <span class="va">var_selected</span> <span class="op">%&gt;%</span> <span class="fu">distinct</span><span class="op">(</span><span class="va">word</span>, .keep_all <span class="op">=</span> <span class="cn">TRUE</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="va">ts_list</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/split.html" class="external-link">split</a></span><span class="op">(</span><span class="va">clean_ts_df</span>, f <span class="op">=</span> <span class="va">clean_ts_df</span><span class="op">$</span><span class="va">Doc_id</span><span class="op">)</span> <span class="co">#split the transcript data frame into a list by Doc_id</span></span>
-<span>  <span class="va">ts_aligned_list</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">lapply</a></span><span class="op">(</span><span class="va">ts_list</span>, <span class="kw">function</span><span class="op">(</span><span class="va">ts_select</span><span class="op">)</span><span class="op">{</span></span>
-<span>    <span class="co">#join measures of each variable to each word in each transcript</span></span>
-<span>    <span class="va">df_aligned</span> <span class="op">&lt;-</span> <span class="fu">left_join</span><span class="op">(</span><span class="va">ts_select</span>, <span class="va">var_selected</span>, by <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="st">"CleanText"</span> <span class="op">=</span> <span class="st">"word"</span><span class="op">)</span>, multiple <span class="op">=</span> <span class="st">"first"</span><span class="op">)</span></span>
-<span>    <span class="va">df_aligned</span> <span class="op">&lt;-</span> <span class="va">df_aligned</span><span class="op">[</span><span class="fu"><a href="https://rdrr.io/r/stats/complete.cases.html" class="external-link">complete.cases</a></span><span class="op">(</span><span class="va">df_aligned</span><span class="op">)</span>, <span class="op">]</span> <span class="co"># remove any words that couldn't be aligned</span></span>
-<span>    <span class="va">df_aligned</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span><span class="va">df_aligned</span><span class="op">)</span></span>
-<span></span>
-<span>    <span class="va">df_aligned_agg</span> <span class="op">&lt;-</span> <span class="va">df_aligned</span> <span class="op">%&gt;%</span></span>
-<span>      <span class="fu">mutate</span><span class="op">(</span>TurnCount <span class="op">=</span> <span class="fu">consecutive_id</span><span class="op">(</span><span class="va">Speaker_names_raw</span><span class="op">)</span>, .before <span class="op">=</span> <span class="fl">1</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co"># add a turn column</span></span>
-<span>      <span class="fu">select</span><span class="op">(</span><span class="va">Doc_id</span>, <span class="va">Speaker_names_raw</span>, <span class="va">TurnCount</span>, <span class="va">Time</span>, <span class="fu">contains</span><span class="op">(</span><span class="va">var_aligners</span><span class="op">)</span>, <span class="fu">starts_with</span><span class="op">(</span><span class="st">"Analytics"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>      <span class="co"># select variables, speaker and dyad information, and word analytics</span></span>
-<span>      <span class="fu">group_by</span><span class="op">(</span><span class="va">Doc_id</span>, <span class="va">TurnCount</span>, <span class="va">Speaker_names_raw</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="co">#group by doc id, turn, and speaker</span></span>
-<span>      <span class="fu">summarise</span><span class="op">(</span>Time <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html" class="external-link">min</a></span><span class="op">(</span><span class="va">Time</span><span class="op">)</span>, <span class="co">#make time the minimum for each turn</span></span>
-<span>                <span class="fu">across</span><span class="op">(</span><span class="fu">contains</span><span class="op">(</span><span class="va">var_aligners</span><span class="op">)</span>, <span class="va">mean</span><span class="op">)</span>, <span class="co">#average each variable by turn</span></span>
-<span>                <span class="fu">across</span><span class="op">(</span><span class="fu">starts_with</span><span class="op">(</span><span class="st">"Analytics_wordcount"</span><span class="op">)</span>, <span class="va">sum</span><span class="op">)</span>, <span class="co">#sum word counts</span></span>
-<span>                <span class="fu">across</span><span class="op">(</span><span class="fu">starts_with</span><span class="op">(</span><span class="st">"Analytics_words_removed"</span><span class="op">)</span>, <span class="va">sum</span><span class="op">)</span>, <span class="co">#sum removed word counts</span></span>
-<span>                <span class="fu">across</span><span class="op">(</span><span class="fu">starts_with</span><span class="op">(</span><span class="st">"Analytics_mean_word_length"</span><span class="op">)</span>, <span class="va">mean</span><span class="op">)</span>,</span>
-<span>                .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>      <span class="fu">ungroup</span><span class="op">(</span><span class="op">)</span> <span class="co">#reformat data frame back to chronological order</span></span>
-<span>    <span class="co"># identifies if there are an odd number of rows (one speaker spoke but other did not respond)</span></span>
-<span>    <span class="kw">if</span> <span class="op">(</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/nrow.html" class="external-link">nrow</a></span><span class="op">(</span><span class="va">df_aligned_agg</span><span class="op">)</span><span class="op"><a href="https://rdrr.io/r/base/Arithmetic.html" class="external-link">%%</a></span><span class="fl">2</span><span class="op">)</span> <span class="op">==</span> <span class="fl">1</span> <span class="op">)</span> <span class="op">{</span></span>
-<span>      <span class="va">temprow</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/matrix.html" class="external-link">matrix</a></span><span class="op">(</span><span class="cn">NA</span>, nrow <span class="op">=</span> <span class="fl">1</span>, ncol <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/nrow.html" class="external-link">ncol</a></span><span class="op">(</span><span class="va">df_aligned_agg</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="co">#creates a new adder row</span></span>
-<span>      <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">temprow</span><span class="op">)</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">df_aligned_agg</span><span class="op">)</span><span class="op">)</span></span>
-<span>      <span class="va">df_aligned_agg</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/cbind.html" class="external-link">rbind</a></span><span class="op">(</span><span class="va">df_aligned_agg</span>, <span class="va">temprow</span><span class="op">)</span> <span class="co">#adds row full of NA to end of the data frame</span></span>
-<span>    <span class="op">}</span></span>
-<span>    <span class="va">ExchangeCount</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/rep.html" class="external-link">rep</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/seq.html" class="external-link">seq</a></span><span class="op">(</span><span class="fl">1</span><span class="op">:</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">df_aligned_agg</span><span class="op">$</span><span class="va">TurnCount</span><span class="op">)</span><span class="op">/</span><span class="fl">2</span><span class="op">)</span><span class="op">)</span>, each<span class="op">=</span><span class="fl">2</span><span class="op">)</span> <span class="co">#creates Exchange Count</span></span>
-<span>    <span class="va">df_aligned_EC</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/cbind.html" class="external-link">cbind</a></span><span class="op">(</span><span class="va">ExchangeCount</span>, <span class="va">df_aligned_agg</span><span class="op">)</span> <span class="co">#binds ExC to the data frame</span></span>
-<span>    <span class="va">df_aligned_EC</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/stats/na.fail.html" class="external-link">na.omit</a></span><span class="op">(</span><span class="va">df_aligned_EC</span><span class="op">)</span> <span class="co">#removes added NA row</span></span>
-<span>    <span class="va">df_aligned_EC</span> <span class="op">&lt;-</span> <span class="va">df_aligned_EC</span> <span class="op">%&gt;%</span></span>
-<span>      <span class="fu">select</span><span class="op">(</span><span class="op">!</span><span class="va">TurnCount</span><span class="op">)</span> <span class="co">#removes turn count column</span></span>
-<span></span>
-<span>    <span class="va">df_aligned_EC</span> <span class="co">#output the transcript exchange count organized aligned data frame to a list</span></span>
-<span>  <span class="op">}</span><span class="op">)</span></span>
-<span>  <span class="va">ts_aligned_df_total</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">ts_aligned_list</span><span class="op">)</span></span>
-<span></span>
-<span>  <span class="co">#DEFINE THE DEMOGRAPHIC_ALIGN FUNCTION</span></span>
-<span>  <span class="va">demographic_align</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">aligned_ts_df</span><span class="op">)</span> <span class="op">{</span></span>
-<span>    <span class="co">#allow user to input the file path to demographic data, randomly assign groups, or not align groups</span></span>
-<span>    <span class="va">ask_demo_filepath</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/readline.html" class="external-link">readline</a></span><span class="op">(</span><span class="st">"If you would like to align demographics to speakers, input the file path to the demographic csv file."</span><span class="op">)</span></span>
-<span>    <span class="co">#if user inputs 'random', randomly assigns groups across transcripts</span></span>
-<span>    <span class="kw">if</span> <span class="op">(</span><span class="fu">str_to_lower</span><span class="op">(</span><span class="va">ask_demo_filepath</span><span class="op">)</span> <span class="op">==</span> <span class="st">"random"</span><span class="op">)</span> <span class="op">{</span></span>
-<span>      <span class="va">randomly</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">lapply</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/split.html" class="external-link">split</a></span><span class="op">(</span><span class="va">aligned_ts_df</span>, <span class="va">aligned_ts_df</span><span class="op">$</span><span class="va">Doc_id</span><span class="op">)</span>, <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span><span class="op">{</span> <span class="co">#iterates over each doc</span></span>
-<span>        <span class="va">x</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span></span>
-<span>        <span class="co">#creates a vector of each speaker with random indexes and assigns a alphanumeric sequence name</span></span>
-<span>        <span class="va">speakervec</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/sample.html" class="external-link">sample</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/unique.html" class="external-link">unique</a></span><span class="op">(</span><span class="va">x</span><span class="op">[</span>,<span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grep</a></span><span class="op">(</span><span class="st">"Speaker_names_raw"</span>, <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">x</span><span class="op">)</span>, ignore.case <span class="op">=</span> <span class="cn">T</span><span class="op">)</span><span class="op">]</span><span class="op">)</span><span class="op">)</span></span>
-<span>        <span class="fu"><a href="https://rdrr.io/r/base/names.html" class="external-link">names</a></span><span class="op">(</span><span class="va">speakervec</span><span class="op">)</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="st">"S"</span>, <span class="fl">1</span><span class="op">:</span><span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">speakervec</span><span class="op">)</span>, sep <span class="op">=</span> <span class="st">""</span><span class="op">)</span></span>
-<span>        <span class="co">#creates a data frame with just speaker names and assigned code</span></span>
-<span>        <span class="va">coloutput</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span>Speaker_names_raw <span class="op">=</span> <span class="va">speakervec</span>,</span>
-<span>                                Speaker_Code_Random <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">sapply</a></span><span class="op">(</span><span class="va">speakervec</span>, <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="op">{</span></span>
-<span>                                  <span class="fu"><a href="https://rdrr.io/r/base/names.html" class="external-link">names</a></span><span class="op">(</span><span class="va">speakervec</span><span class="op">)</span><span class="op">[</span><span class="fu"><a href="https://rdrr.io/r/base/match.html" class="external-link">match</a></span><span class="op">(</span><span class="va">y</span>, <span class="va">speakervec</span><span class="op">)</span><span class="op">]</span><span class="op">}</span><span class="op">)</span><span class="op">)</span></span>
-<span>        <span class="va">x</span> <span class="op">&lt;-</span> <span class="va">x</span> <span class="op">%&gt;%</span> <span class="fu">left_join</span><span class="op">(</span><span class="va">coloutput</span>, by<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="st">"Speaker_names_raw"</span><span class="op">)</span><span class="op">)</span> <span class="co">#binds code to the aligned data frame</span></span>
-<span>      <span class="op">}</span><span class="op">)</span></span>
-<span>      <span class="va">randomly</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">randomly</span><span class="op">)</span> <span class="co">#binds all the doc data frame into one</span></span>
-<span>      <span class="kw"><a href="https://rdrr.io/r/base/function.html" class="external-link">return</a></span><span class="op">(</span><span class="va">randomly</span><span class="op">)</span></span>
-<span>    <span class="op">}</span></span>
-<span>    <span class="co">#if input is empty, returns the aligned data frame with no demographics</span></span>
-<span>    <span class="kw">else</span> <span class="kw">if</span> <span class="op">(</span><span class="va">ask_demo_filepath</span> <span class="op">==</span> <span class="st">""</span><span class="op">)</span> <span class="op">{</span></span>
-<span>      <span class="kw"><a href="https://rdrr.io/r/base/function.html" class="external-link">return</a></span><span class="op">(</span><span class="va">aligned_ts_df</span><span class="op">)</span></span>
-<span>    <span class="op">}</span></span>
-<span>    <span class="co">#if file path is entered:</span></span>
-<span>    <span class="kw">else</span> <span class="op">{</span></span>
-<span>      <span class="co">#reads in a csv file of demographic information associated with participant IDs.</span></span>
-<span>      <span class="va">demoinfo</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/utils/read.table.html" class="external-link">read.csv</a></span><span class="op">(</span><span class="va">ask_demo_filepath</span><span class="op">)</span><span class="op">)</span></span>
-<span>      <span class="co">#allows the user to specify which columns they want to subset</span></span>
-<span>      <span class="va">subset_demo_data</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/utils/select.list.html" class="external-link">select.list</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demoinfo</span><span class="op">)</span>, <span class="st">"Select all columns"</span><span class="op">)</span>,</span>
-<span>                                      preselect <span class="op">=</span> <span class="cn">NULL</span>, multiple <span class="op">=</span> <span class="cn">TRUE</span>,</span>
-<span>                                      title <span class="op">=</span> <span class="st">"Select the columns you would like to subset. The participant ID column must be included."</span>,</span>
-<span>                                      graphics <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
-<span>      <span class="co">#if the select all option is chosen, selects every column</span></span>
-<span>      <span class="kw">if</span> <span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html" class="external-link">any</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/grep.html" class="external-link">grepl</a></span><span class="op">(</span><span class="st">"Select all columns"</span>, <span class="va">subset_demo_data</span><span class="op">)</span><span class="op">)</span> <span class="op">==</span> <span class="cn">TRUE</span><span class="op">)</span> <span class="op">{</span></span>
-<span>        <span class="va">subset_demo_data</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demoinfo</span><span class="op">)</span></span>
-<span>      <span class="op">}</span></span>
-<span>      <span class="va">demos_selected</span> <span class="op">&lt;-</span> <span class="va">demoinfo</span> <span class="op">%&gt;%</span></span>
-<span>        <span class="fu">select</span><span class="op">(</span><span class="fu">contains</span><span class="op">(</span><span class="va">subset_demo_data</span><span class="op">)</span><span class="op">)</span> <span class="co">#selects only specified columns from the demographics</span></span>
-<span></span>
-<span>      <span class="va">demos</span> <span class="op">&lt;-</span> <span class="va">demos_selected</span> <span class="op">%&gt;%</span></span>
-<span>        <span class="fu">select</span><span class="op">(</span><span class="op">!</span><span class="fu">contains</span><span class="op">(</span><span class="st">"PID"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
-<span>        <span class="fu">select</span><span class="op">(</span><span class="op">!</span><span class="fu">contains</span><span class="op">(</span><span class="st">"Participant"</span><span class="op">)</span><span class="op">)</span> <span class="co">#selects only columns that aren't participant ID</span></span>
-<span></span>
-<span>      <span class="va">partid</span> <span class="op">&lt;-</span> <span class="va">demos_selected</span> <span class="op">%&gt;%</span></span>
-<span>        <span class="fu">select</span><span class="op">(</span><span class="fu">contains</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/sets.html" class="external-link">setdiff</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos_selected</span><span class="op">)</span>, <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
-<span>      <span class="co">#creates a new data frame that just includes specified demo domains and combines them into to one string, which will be a total combination of demographics</span></span>
-<span>      <span class="va">domaincode</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/data.frame.html" class="external-link">data.frame</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">sapply</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span>, <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="op">{</span></span>
-<span>        <span class="va">domainlvl</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/sort.html" class="external-link">sort</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/unique.html" class="external-link">unique</a></span><span class="op">(</span><span class="va">demos</span><span class="op">[</span>, <span class="fu"><a href="https://rdrr.io/r/base/match.html" class="external-link">match</a></span><span class="op">(</span><span class="va">x</span>, <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span><span class="op">)</span><span class="op">]</span><span class="op">)</span><span class="op">)</span>  <span class="co">#creates a vector of unique domain info</span></span>
-<span>        <span class="fu"><a href="https://rdrr.io/r/base/names.html" class="external-link">names</a></span><span class="op">(</span><span class="va">domainlvl</span><span class="op">)</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="st">"S"</span>, <span class="fl">1</span><span class="op">:</span><span class="fu"><a href="https://rdrr.io/r/base/length.html" class="external-link">length</a></span><span class="op">(</span><span class="va">domainlvl</span><span class="op">)</span>, sep <span class="op">=</span> <span class="st">""</span><span class="op">)</span>  <span class="co">#alphabetically assigns a code to each</span></span>
-<span>        <span class="va">coloutput</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">sapply</a></span><span class="op">(</span><span class="va">demos</span><span class="op">[</span><span class="fu"><a href="https://rdrr.io/r/base/match.html" class="external-link">match</a></span><span class="op">(</span><span class="va">x</span>, <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span><span class="op">)</span><span class="op">]</span>, <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="op">{</span></span>
-<span>          <span class="fu"><a href="https://rdrr.io/r/base/names.html" class="external-link">names</a></span><span class="op">(</span><span class="va">domainlvl</span><span class="op">)</span><span class="op">[</span><span class="fu"><a href="https://rdrr.io/r/base/match.html" class="external-link">match</a></span><span class="op">(</span><span class="va">y</span>, <span class="va">domainlvl</span><span class="op">)</span><span class="op">]</span></span>
-<span>        <span class="op">}</span><span class="op">)</span></span>
-<span>        <span class="va">coloutput</span></span>
-<span>      <span class="op">}</span><span class="op">)</span><span class="op">)</span></span>
-<span>      <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">domaincode</span><span class="op">)</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="st">"Speaker_group_var_code"</span>, <span class="fu"><a href="https://rdrr.io/r/base/chartr.html" class="external-link">tolower</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span><span class="op">)</span>, sep <span class="op">=</span> <span class="st">"_"</span><span class="op">)</span></span>
-<span>      <span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html" class="external-link">paste</a></span><span class="op">(</span><span class="st">"Speaker_group_var"</span>, <span class="fu"><a href="https://rdrr.io/r/base/chartr.html" class="external-link">tolower</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/colnames.html" class="external-link">colnames</a></span><span class="op">(</span><span class="va">demos</span><span class="op">)</span><span class="op">)</span>, sep <span class="op">=</span> <span class="st">"_"</span><span class="op">)</span></span>
-<span>      <span class="va">demos</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/cbind.html" class="external-link">cbind</a></span><span class="op">(</span><span class="va">demos</span>, <span class="va">domaincode</span><span class="op">)</span> <span class="co">#bind the assigned codes to the original groups</span></span>
-<span>      <span class="va">demos</span><span class="op">[</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html" class="external-link">lapply</a></span><span class="op">(</span><span class="va">demos</span><span class="op">[</span><span class="op">]</span>, <span class="va">factor</span><span class="op">)</span> <span class="co">#make each grouping variable a factor</span></span>
-<span>      <span class="va">demos</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/cbind.html" class="external-link">cbind</a></span><span class="op">(</span>PID <span class="op">=</span> <span class="va">partid</span>, <span class="va">demos</span><span class="op">)</span> <span class="co">#bind participant ID to the demographic groups</span></span>
-<span></span>
-<span>      <span class="va">demo_aligned_df</span> <span class="op">&lt;-</span> <span class="va">aligned_ts_df</span> <span class="op">%&gt;%</span></span>
-<span>        <span class="fu">left_join</span><span class="op">(</span><span class="va">demos</span>, by<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html" class="external-link">c</a></span><span class="op">(</span><span class="st">"Speaker_names_raw"</span> <span class="op">=</span> <span class="st">"PID"</span><span class="op">)</span><span class="op">)</span> <span class="co">#align demographic groups by participant ID</span></span>
-<span></span>
-<span>      <span class="kw"><a href="https://rdrr.io/r/base/function.html" class="external-link">return</a></span><span class="op">(</span><span class="va">demo_aligned_df</span><span class="op">)</span></span>
-<span>    <span class="op">}</span><span class="op">}</span></span>
-<span>  <span class="co">#END DEFINING DEMOGRAPHIC_ALIGN FUNCTION</span></span>
-<span>  <span class="fu">demographic_align</span><span class="op">(</span>aligned_ts_df <span class="op">=</span> <span class="va">ts_aligned_df_total</span><span class="op">)</span> <span class="co">#run demoraphic aligner on aligned data frame</span></span>
-<span><span class="op">}</span></span></code></pre></div>
+<p>Prompts user to specify one or more variables to align on from a lookup database (lookup_db) reflecting published word norms from numermous sources (e.g., afffectvec, Kuperman norms, Brysbaert norms, etc.). Yokes data to each word then structures a dataframe by speaker and exchange across each dyad. <br></p>
+<p>myvars &lt;- select.list(c(“admiration”, “anger”, “animosity”, “anticipation”, “anxiety”, “aoa”, “awe”, “boredom”, “calmness”, “closeness”, “comfort”, “compatibility”, “concreteness”, “confusion”, “contempt”, “disgust”, “distance”, “dominance”, “doubt”, “empathy”, “encouragement”, “excitement”, “fear”, “friendliness”, “gratitude”, “happiness”, “hostility”, “interest”, “joy”, “lg10wf”, “love”, “n_letters”, “relieved”, “sadness”, “satisfaction”, “stress”, “surprise”, “tension”, “trust”, “valence”</p>
+<div class="sourceCode" id="cb4"><pre class="sourceCode r"><code class="sourceCode r"><span id="cb4-1"><a href="#cb4-1" tabindex="-1"></a>align_dyads <span class="ot">&lt;-</span> <span class="cf">function</span>(clean_ts_df) {</span></code></pre></div>
 </div>
 <div class="section level2">
-<h2 id="inspect-your-transcripts">Inspect your transcripts<a class="anchor" aria-label="anchor" href="#inspect-your-transcripts"></a>
+<h2 id="summarize-transcripts">Summarize transcripts<a class="anchor" aria-label="anchor" href="#summarize-transcripts"></a>
 </h2>
 <div class="sourceCode" id="cb5"><pre class="downlit sourceCode r">
 <code class="sourceCode R"><span><span class="co">#TBD</span></span></code></pre></div>
 </div>
 <div class="section level2">
-<h2 id="analyze-your-transcripts">Analyze your transcripts<a class="anchor" aria-label="anchor" href="#analyze-your-transcripts"></a>
-</h2>
-<div class="sourceCode" id="cb6"><pre class="downlit sourceCode r">
-<code class="sourceCode R"><span><span class="co">#TBD</span></span></code></pre></div>
-</div>
-<div class="section level2">
 <h2 id="get-in-touch">Get in touch!<a class="anchor" aria-label="anchor" href="#get-in-touch"></a>
 </h2>
 <p>Contact <a href="mailto:jamie_reilly@temple.edu" class="email">jamie_reilly@temple.edu</a> for feedback and assistance.</p>
diff --git a/docs/pkgdown.yml b/docs/pkgdown.yml
index c99a003..2747333 100644
--- a/docs/pkgdown.yml
+++ b/docs/pkgdown.yml
@@ -3,7 +3,7 @@ pkgdown: 2.0.7
 pkgdown_sha: ~
 articles:
   my-vignette: my-vignette.html
-last_built: 2023-10-16T00:11Z
+last_built: 2023-10-16T00:29Z
 urls:
   reference: https://reilly-conceptscognitionlab.github.io/ConversationAlign/reference
   article: https://reilly-conceptscognitionlab.github.io/ConversationAlign/articles